发布于 2017-02-25 00:28:40 | 81 次阅读 | 评论: 0 | 来源: 网友投递
Apache Samza 流处理框架
Samza 是由 LinkedIn 开源的一项技术,它是一个分布式流处理框架,专用于实时数据的处理,非常像Twitter的流处理系统Storm。不同的是Samza基于Hadoop,而且使用了LinkedIn自家的Kafka分布式消息系统。
Apache Samza 0.12.0 发布,
0.12.0 版本中添加了几个功能,以提高稳定性,性能和易用性。
支持“End of Stream”:Samza 现在将有一个“end-of-stream”概念,以支持从有限的输入源(例如磁盘文件)中消耗。这使得 Samza 能够在完成耗用所有数据后正常关闭。
HDFS Consumer:Samza 现在为从 HDFS 文件消费的数据提供一流的支持。这使开发人员能够定义其处理逻辑一次,并在批处理和流式处理环境中运行它们。此功能还允许使用 Samza 快速实验 ETL 的 HDFS 数据,而无需编写单独的 Hadoop 任务。
Samza 现在可以在执行检查点时通知 SystemConsumer。
支持 Yarn 节点标签。
此版本还包括几个关键的错误修复和操作稳定性的改进,详情查看发行日志。
下载地址: