数据湖与数据网格:引导组织数据战略的未来 云企业战略博客
  • 22

数据湖与数据网格:组织数据策略的未来

关键要点

数据湖的挑战:虽然数据湖为组织提供了处理和存储大量数据的功能,但许多企业却遇到了数据质量和可用性的问题,导致初始投资回报率不理想。数据网格的优势:数据网格通过分散数据管理责任,支持更灵活和人性化的数据处理方式,提升数据的可获得性和使用效果。新角色引入:在数据网格的框架内,应加强数据产品负责人和数据工程师等新角色的能力建设,以提高团队的数据素养和分析能力。

随着数字化进程的加速,许多组织已经采用数据湖来克服数据仓库的技术限制,逐步转型为以数据为中心的实体。然而,并非所有企业都能如愿以偿地实现数据湖的预期利益,导致许多数据湖项目的效果和投资回报率受到质疑。

规避陷阱:当数据湖沦为数据沼泽

随着技术社区对数据湖的看法日益变化,一些组织面临管理庞大数据存储的挑战,往往会出现“数据沼泽”的现象。这种情况下,数据被随意存放,导致发现和使用上的问题。数据湖的集中管理可能会造成瓶颈,降低数据访问速度,而缺乏严格的数据治理会导致数据质量迅速下降。此外,数据湖一刀切的方式并未满足不同业务领域的特定需求,数据的潜力常常因为缺乏合适工具或数据自身的复杂性而未能得到充分挖掘。

实施良好的数据湖实施不当的数据湖唯一的可信来源难以访问的数据孤岛成本效益高存储大量不必要的数据数据民主化访问数据需专业技能支持多种数据格式数据质量差且不一致先进的数据分析与机器学习从大量非结构化数据中提取价值困难更快获得洞察沟通缓慢,缺乏工具、接口和技能精简的数据管理随着数据湖的扩展,管理变得繁琐

数据生产者与消费者:组织间的鸿沟

问题的根源在于数据生产者与消费者之间的组织互动:数据生产者往往更专注于开发新应用功能,而非为分析用例提供数据。他们关注的主要是交易而非分析,这使得共享数据的质量难以保证。此外,数据生产者与消费者之间缺乏直接联系,造成产出和需求之间的错位。

数据湖团队也面临自身问题:他们必须管理众多数据源,进行复杂的技术维护,并不断调整优先级。由于分析能力有限且与生产者的脱节,消费者对缺乏透明度、价值不明确以及需求低优先级感到沮丧。数据消费者与生产者通常并不直接互动,所有数据被集中存储在数据湖的代理机构中,阻断了直接沟通的渠道。

赋能团队:数据网格的分布式数据生态系统

技术界的讨论逐渐转向一种称为“数据网格”的灵活而适应性强的数据策略。它旨在克服集中式数据湖的一些限制,提倡更加分散、人性化和特定于上下文的数据管理方式。

数据网格将分析数据的责任分配给构建和运行应用程序的特定领域团队,比如电子商务团队,与消费数据、利用数据获得洞察的团队。例如,拥有网上商店结账页面的团队也负责将销售数据提供用于分析、报告与AI/ML用例如市场营销或财务。数据网格使消费者操作这些分析数据变得更加简单易行。

其核心在于并非仅仅实现另一种接口,而是将数据作为一种独立的数据产品提供,这为实际消费者带来了具体的价值。这个数据产品包括具体数据及其元数据、所需的源代码、准备和交付数据所需的测试和生产基础设施基础设施即代码,以及其配置。

提升数据素养:在数据网格团队中引入新角色

创建和使用数据的团队例如电子商务结账团队和市场营销部门往往缺乏开发和管理分析数据的专业知识,但他们对数据的商业上下文的深刻理解是无价的。在数据网格框架中,充分利用这种知识至关重要,需要培训这些团队以实施分析用例。这涉及为现有团队提供广泛的培训,并创建额外的专业角色。两个关键角色至关重要:数据产品负责人和数据工程师。

数据产品负责人是一个专注于业务的数据专业人士,从交易和分析的角度深刻理解业务领域,与数据产品的消费者直接沟通,定义产品的战略和发展路线图。

数据工程师则是一个数据工程和数据科学的广泛通才,具备企业所需的某一具体领域的深厚专业知识。此人负责构建实际的数据产品,并成为其他团队技术问题的联络点。

tk加速器下载安装

数据湖与数据网格:引导组织数据战略的未来 云企业战略博客

成功的基础:数据网格平台

为实现数据网格的最大潜力,建议将这两个角色直接嵌入到生产和消费团队中。虽然为每个业务领域建立单独的数据网格团队是一个有效但非最佳的变体因为它重新引入了代理团队,但数据网格平台则支持生产者和消费者,使他们的工作更加高效。

数据网格平台的作用有三个:1提供工具和基础设施,如数据目录、访问控制、CI/CD管道、监控以及准备开发和测试环境;2培训和指导生产者和消费者,必要时为他们提供额外的开发能力;3在一个分散的方式中,协调组织中必须遵循的共同标准和程序。数据网格平台的任务是简化、提高效率并减轻生产者和消费者的压力。

然而,成功和可持续地运营一个平台并非技术社区所认为的那样简单。我在我的博客文章中总结了如何设置一个有效支持开发团队的平台的经验。

如果操作得当,数据网格模型能够促进主动提高数据质量、相关性和可访问性,同时根据不同业务部门的独特需求来定制数据产品。通过紧密结合分析数据与其操作上下文,数据网格促进了数据在组织内的有效使用与共享,并运用现代分布式架构原则例如微服务架构中的原则来更高效地存储数据,同时提高数据的可消费性,为与业务目标紧密相关的可操作洞察提供支持。

如果您想了解数据网格的成功案例,可以查看GoDaddy首席数据与分析官Travis Muhlestein在2022年reInvent大会上的数据网格架构展示。

链接:AWS:什么是数据网格?AWS:使用AWS Lake Formation和AWS Glue设计数据网格架构AWS:架构!数据网格的架构设计

标签:分析、最佳实践、数据策略、数据驱动文化

Matthias Patzak

Matthias于2023年初加入企业战略团队,此前曾担任AWS解决方案架构的首席顾问。在这个角色中,Matthias与高管团队合作,探讨云如何帮助提高创新速度、IT效率,以及技术在人员、流程和技术层面上创造的商业价值。在加入AWS之前,Matthias在AutoScout24担任信息技术副总裁,在Home Shopping Europe担任董事总经理。在这两家公司,他都在大规模引入精益敏捷运营模型并领导成功的云转型,缩短交付周期、增加商业价值并提高公司估值。