Apache Iceberg 赢得未来:2025 年如何前进
创始人
2024-12-25 14:28:03
0

作者 | 吴英骏

多年来,数据工程社区一直在争论开放表格式(Open table formats )的未来。是 Delta Lake 凭借与 Databricks 的紧密集成取得胜利?还是 Apache Hudi 利用在流处理领域的早期优势脱颖而出?亦或是 Apache Iceberg 悄然崛起,成为行业主导者?

2024 年底,答案已经明了。Databricks 收购了由 Iceberg 原始创建者成立的公司 Tabular,这表明了其对 Iceberg 潜力的高度认可。同时,Snowflake 推出了基于 Iceberg 的目录服务 Polaris。再加上 Starburst 和 Dremio 等知名查询引擎厂商对 Polaris 的支持,整个行业逐渐达成了共识——Apache Iceberg 成为事实上的开放表格式标准。

但这仅仅是故事的开始,展望 2025 年,多个关键发展将进一步巩固 Iceberg 在现代数据工程中的地位。

2025 年 Iceberg 的关键演进

1. RBAC 目录:

解决大规模权限管理问题

我们的不得不承认,由于缺乏统一的标准和方法,数据湖中的权限管理一直以来都非常混乱。用户可能会在 S3 存储桶级别设置权限,也可能依赖查询引擎特定的访问控制机制,亦或是其他方法。这种不统一的权限管理方式不仅效率低下,还带来了安全风险。

Iceberg 社区正在通过一个新的 OpenAPI 规范(PR #10722)着手解决这一问题。该规范标准化了凭证结构,使开发者能够直接在 Iceberg 目录中构建 基于角色的访问控制(RBAC)系统。

例如,管理员可以在目录级别定义精细的访问策略,而无需依赖底层存储或查询引擎。这些功能与 Databricks 的 Unity Catalog 等企业级特性类似,但同时具备 Iceberg 的开放性和灵活性。

2. 变更数据捕获(CDC):

Iceberg 的流处理演进

“Iceberg 不适合流处理”这一观点在过去颇为流行。确实,Iceberg 缺乏强大的 CDC 功能。尽管其架构支持版本化的表快照(Spark CDC 操作),但并未针对高频数据变化或实时分析进行优化。

这种情况将在 Iceberg Spec V3中得到改变,该版本引入了一项关键功能: 行级谱系(Row Lineage)

行级谱系使 Iceberg 能够跟踪每一行数据的更新、删除或插入变更。这使得在 Iceberg 表上直接实现高效的 CDC 管道成为可能,对于流处理场景来说,这是一个巨大的进步。例如,物化视图维护和系统间的数据同步将更加顺畅。

更多详情可查看 《行级谱系》规范提案。一旦 Spec V3 完全实现,Iceberg 将在实时数据处理领域与 Kafka 和 Hudi 等传统以流处理为核心的系统展开竞争。

3. 物化视图:简化衍生数据

数据湖是存储原始历史数据(通常称为 Bronze Data)的地方。这些表的数量庞大且更新并不频繁,但真正有价值的是从这些原始数据中计算出的 衍生数据集,如聚合、转换和预计算的指标。

迄今为止,Iceberg 缺乏对 物化视图的内置支持,用户不得不依赖外部系统或定制方案来管理衍生数据。这带来了两个主要挑战:

  • 跟踪基础表与衍生表之间的依赖关系十分繁琐。

  • 对基础表的任何更新都需要重新计算衍生数据。

计划中的物化视图功能(PR #11041)将改变这一现状。通过物化视图,预计算结果将以表格形式存储,Iceberg 将管理跟踪依赖关系所需的元数据。这不仅意味着更高的查询性能,还能在基础表变化时自动更新衍生数据。

Iceberg 的扩张

随着 Iceberg 的不断发展,其生态系统也在扩展。以下是 2025 年值得关注的几个领域:

  • 新数据类型:支持带有时区的纳秒级精度时间戳,将使 Iceberg 适用于金融、电信等对高精度数据要求较高的行业。

  • 二进制删除向量:Spec V3 引入了一种可扩展且高效的删除方案,特别适用于法规要求或 GDPR 合规

  • 更广泛的查询引擎支持:RisingWave、Trino、Dremio 和 Flink 是一些正在积极增强其 Iceberg 集成的引擎。

Iceberg 的短板

Iceberg 的生态系统已经相当完善。用户可以通过 Kafka 或 Postgres 协议(借助 RisingWave)导入数据,并使用各种引擎查询。但一个明显的短板是缺乏: 轻量级压缩

目前,压缩通常依赖于繁重的 Spark 作业,而这对于小型团队或小型工作负载来说可能过于复杂。对于希望采用更简单、资源效率更高的方式压缩 Iceberg 表的 SQL 和 Python 用户来说,这形成了一个障碍。

好消息是,社区已经意识到这一问题,并且对于构建一个轻量级、与引擎无关的压缩框架产生了越来越大的兴趣。希望 2025 年,能够推出让 Iceberg 对所有用户更加易用的解决方案。

前路展望

凭借 RBAC 目录、具备流处理能力、物化视图以及对新数据类型的支持等创新, Apache Iceberg 会逐渐巩固作为数据工程领域开放表格式标准的地位。

2024 年证明 Iceberg 能够赢得表格式之争。到了 2025 年,重点将转向让它变得更好、更快、更易用,不论是对于小型初创公司还是全球企业。无论您是在构建实时分析管道,管理 PB 级的历史数据,还是探索最前沿的数据湖仓架构,Iceberg 都能为您提供价值。

数据工程的未来已经到来,而它正是 Iceberg。

相关内容

热门资讯

无人机助力缅甸地震救援 中国救...   中国日报网4月2日电 当地时间3月28日,缅甸发生7.9级地震,多座建筑倒塌,曼德勒等城市成为重...
寻迹中国|外国博主走进河池 体...   河池市是广西最大的茧丝绸主产区,也是我国优质茧丝生产基地。从“东桑西移”到“东绸西移”,近年来,...
东帝汶留学生感受“舌尖上的河西...   来自东帝汶的留学生杰克拉已经在甘肃省张掖市河西学院留学一年,活泼开朗的她对于中国美食一直十分向往...
美国加征关税 全球一片反对   美国白宫计划4月2日宣布对贸易伙伴征收“对等关税”的措施。这被认为是美国本届政府影响范围最广、冲...
美国“关税讹诈”破坏世界经济稳...   美国利用关税手段在全球范围内进行讹诈,已成为世界经济最大的不稳定和不确定因素。面对美国人为制造的...
特朗普关税乱拳开打 为何美国自...   当地时间4月2日,美国总统特朗普在白宫宣布对贸易伙伴征收所谓的“对等关税”措施。此外,特朗普当日...
美国对进口汽车加征25%关税正...   新华社华盛顿4月3日电(记者熊茂伶)美国总统特朗普此前宣布的对进口汽车加征25%关税的措施3日正...
缅甸强震后已发生63次余震   新华社缅甸曼德勒4月3日电(记者张东强)缅甸气象和水文局3日发布报告说,截至当地时间3日8时30...
缅甸强震已致3085人死亡   新华社快讯:缅甸国家管理委员会新闻信息小组发布消息说,截至当地时间4月3日上午8时,缅甸强震已致...
华为、腾讯、招商局....大湾...   从“孔雀东南飞”到“百万英才汇南粤”  今天的广东  比以往任何时候都更加  重视人才、渴求人才...