分层实现现代数据架构是一种最佳实践。各层根据不同的目标对流程和技术进行分组。实施细节很灵活,但各层指导技术选择及其整合方式。
暂存层
暂存层是架构内数据的入口点。它处理来自各种来源的原始数据摄取,包括结构化、半结构化和非结构化格式。你希望这个层尽可能灵活。
如果在此层严格执行架构(数据格式和类型),则下游用例将受到限制。例如,将所有日期值强制为月、年格式限制了未来需要 dd/mm/yyyy 格式的用例。同时,你需要一定的一致性。例如,如果电话号码存储为字符串并按原样使用,但其他一些数据来源开始生成与数字相同的数据,则会导致数据管道中断。
平衡灵活性与一致性需要将该层划分为两个子层。
原始图层
原始层完全按照到达的原样存储未更改的数据,保留原始格式和结构,无需进行转换。它是用于数据探索、审计和可重复性的企业级存储库。团队可以在需要时重访和分析原始状态的数据,从而确保透明度和可追溯性。
标准化层
标准化层通过根据预定义标准进行验证和转换,准备原始数据以供使用。例如,在此层中,所有电话号码都将转换为字符串,将所有时间值转换为特定格式等。因此,它成为组织内所有用户访问结构化、有质量保证的数据的接口。
数据架构中的标准化层对于实现自助商业智能(BI)、常规分析和机器学习工作流程至关重要。它强制执行架构标准,同时最大限度地减少架构更改造成的中断。
合格层
来自不同来源的数据集成在一致层中完成。它创建了跨域统一的企业数据模型。例如,不同部门的客户数据可能有不同的详细信息——订单详细信息由销售获取,财务历史记录由账户捕获,兴趣和在线活动由营销部门捕获。一致性层使整个组织对此类数据有了共同的理解。主要益处包括:
对整个组织的核心实体进行一致、统一的定义。
遵守数据安全和隐私法规。
灵活性,通过集中式和分布式模式平衡企业范围的统一性与特定领域的定制。
它不直接用于运营商业智能,但支持探索性数据分析、自助服务 BI 和特定领域的数据扩展。
富集层
该层将前一图层中的数据转换为专为特定用例量身定制的数据集,称为数据产品。数据产品的范围可以从用于日常决策的运营仪表板到包含个性化建议或下一步最佳行动见解的详细客户档案。它们托管在根据特定用例选择的各种数据库或应用程序中。
组织在集中式数据管理系统中对数据产品进行编目,以便其他团队发现和访问。这样可以减少冗余,并确保易于访问高质量、丰富的数据。