
雪flake公司正在通过一系列互操作性增强措施来扩展其开放数据架构战略,旨在减少数据迁移、简化治理并改进人工智能系统访问企业数据的方式。
今日公告聚焦于组织能够跨多个平台访问、管理和分析数据的能力,而不受专有系统的限制。该公司表示,现有的架构迫使组织在不同平台之间迁移数据,从而增加了运营复杂性、安全风险和更高的成本,同时限制了人工智能工作负载的有效性。
“当团队无法在原地处理数据时,他们被迫移动它,”公司在今天发布的博客文章中说。碎片化的管道和管理模式会通过剥夺系统一致、良好管理的数据来削弱人工智能计划。
公司对互操作性的重视反映了随着人工智能的采用加速,企业统一数据环境的压力日益增大。Snowflake表示,重复的管道、不一致的管理和孤立的语义在数据架构和人工智能投资上造成了它所说的“税”。
“数据管理不能仅由单一供应商或仅通过数据互操作性来实现,”博客文章说。“它需要在架构的每一层都实现互操作性[以及]基于广泛接受的开放和社区驱动的计划,这些计划优先考虑供应商中立的互操作性。”
公告的核心是扩展对Apache Iceberg版本3开源表格式的支持,预计很快将提供。Iceberg已成为管理跨多个引擎的大型分析数据集的标准。雪花正在将其实现定位为比竞争对手的解决方案更适用于生产。
Iceberg V3引入了如通过“变体”数据类型支持半结构化数据、支持地理空间数据类型、针对变更数据捕获的行级血缘跟踪、通过删除向量和纳秒级时间戳精度改进删除操作等特性。
雪花表示,这些增强功能将适用于雪花管理的表和外部Iceberg目录,使其能够实现它所描述的跨环境的“便携式”数据体验。
这次更新反映了从基本互操作性向生产级能力的转变,Snowflake产品管理总监James Rowland-Jones表示。
“这里的新特点是,从基础互操作性扩展到更完整、现成的跨数据、治理和语义的互操作性,”Rowland-Jones在书面评论中表示。“这意味着客户可以开始在开放、互操作的数据上运行更高级、现实世界的工作负载,而不仅仅是进行实验。”
雪花也正在将互操作性扩展到数据格式之外,包括治理和业务逻辑,这些领域在历史上一直与个别平台紧密耦合。公司正在推广Apache Polaris,这是一个它两年前开发和发布到开源的目录,作为在系统间使治理政策可移植的机制。
公司认为,虽然Iceberg标准化了数据存储的方式,但它没有解决访问控制、世系和语义上下文的管理方式。Polaris旨在通过允许策略随着数据移动而不是绑定到特定引擎来填补这一空白。
Snowflake表示,它正在研究多种机制来实现这一便携性,包括政策交换标准、治理联邦和读取限制应用程序接口。这些改进旨在允许一个系统共享预先评估的访问规则,另一个系统可以执行这些规则,而无需复制或重新处理数据。
罗兰-琼斯表示,这种方法解决了数据共享在治理方面的长期低效问题。
他说:“目前,与外部引擎共享受细粒度访问控制数据唯一安全的途径是使用API来实体化中间结果。这个过程在运营上效率低下、成本高昂且往往不可预测。我们正通过Apache Polaris打破这一循环。”
公告的另一个组成部分是pg_lake,这是一个开源的PostgreSQL扩展,去年11月宣布,旨在连接事务性和分析系统。它使得PostgreSQL数据库能够直接查询Parquet和CSV等数据湖格式,并将数据写入Iceberg表,无需进行提取、转换和加载过程。
雪花表示,消除事务性和分析系统之间的ETL管道可以减少延迟和运营开销,同时简化架构。组织不必维护针对不同工作负载的独立系统,而可以在共享数据层上运行。
Rowland-Jones表示:“pg_lake的目标是通过消除对复杂管道的需求来简化架构。”
公司还在投资于旨在改善AI系统如何解释数据的新的标准。这包括OpenLineage,它跟踪系统间的数据流动,以及Open Semantic Interchange,这是一个旨在标准化诸如指标和维度等业务定义的规范。
Snowflake公司坚称,不一致的语义迫使AI模型反复从原始数据中推断意义,增加了计算成本并降低了准确性。通过使语义上下文可移植,该公司表示组织可以提高模型性能并减少冗余处理。
Rowland-Jones承认Open Semantic Interchange仍处于初级阶段,但他表示行业参与表明了强烈的需求。
“第一版规范现在在Apache 2许可证下可用,并得到超过35家行业合作伙伴的支持,”他说。“当模型能够访问一致的定义时,它们会产生更准确的结果,并且需要更少的返工。”
Snowflake正在超越其专有根源,并将这些努力定位为向开放、社区驱动的数据架构转变的更广泛转变的一部分。公司表示,其工程师在过去两年中为开源项目做出了超过9,000次贡献,并积极参与塑造未来的Iceberg功能,包括计划在版本4中的增强。
这些改进预计将包括元数据性能的提升、对列级更新的支持以及扩展的索引选项,所有这些改进都旨在提高流式传输、机器学习和搜索工作负载的性能。