发布于 2017-02-28 11:20:11 | 135 次阅读 | 评论: 0 | 来源: 网友投递
Apache Kylin OLAP 分析引擎
Kylin 是一个开源的分布式的 OLAP 分析引擎,来自 eBay 公司开发,基于 Hadoop 提供 SQL 接口和 OLAP 接口,支持 TB 到 PB 级别的数据量。
Apache Kylin 社区于日前宣布:Apache Kylin v2.0.0 Beta 版发布。
此次 Apache Kylin v2.0.0 Beta 升级的功能有:
(KYLIN-1875)支持雪花数据模型
(KYLIN-2467)支持TPC-H查询
(KYLIN-2331)Spark cubing引擎
(KYLIN-2006)工作引擎HA
(KYLIN-2396)百分位数的措施
(KYLIN-2351)云测试
注意:目前由于元数据不兼容,所以 Apache Kylin v2.0.0 Beta 暂时不能在 v1.6.0 上升级,需要一个新的安装环境,但是底层多维数据集是向后兼容的。Apache Kylin 技术团队正在开发一个升级工具来转换元数据,以便后续可以顺利升级。
基于Apache Spark,Apache Kylin v2.0.0引入了一个新的cubing引擎,可以选择替换原来的MR引擎。初步测试表明:在大多数情况下,Spark引擎可以将时间缩短到50%。
在跑Spark引擎配置的时候需要在kylin.properties里设置好
确保HADOOP_CONF_DIR里包含:核心网站的XML, Yarn, Hive, 和Hbase
根据您的环境去调试这些数据:Spark的执行情况、cores和内存
Hive on Tez并没有按照我们测试的期望的样子运行,具体原因不明,只能切换到Hive on MR 去跑。
创建新多维数据集时,需要在“高级设置”选项卡中选择“Spark 引擎”。
下载地址:
测试链接:
http://kylin.apache.org/download/
源代码:
https://github.com/apache/kylin/tree/kylin-2.0.0-beta
运行TPC-H基准在 Apache Kylin 社区可以找到,请点击这里:
https://github.com/kyligence/kylin-tpch
稿源:apachekylin