Apache Hive 数据仓库工具

Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低

Hive 构建在基于静态批处理的Hadoop 之上,Hadoop 通常都有较高的延迟并且在作业提交和调度的时候需要大量的开销。因此,Hive 并不能够在大规模数据集上实现低延迟快速的查询,例如,Hive 在几百MB 的数据集上执行查询一般有分钟级的时间延迟。因此,
 
Hive 并不适合那些需要低延迟的应用,例如,联机事务处理(OLTP)。Hive 查询操作过程严格遵守Hadoop MapReduce 的作业执行模型,Hive 将用户的HiveQL 语句通过解释器转换为MapReduce 作业提交到Hadoop 集群上,Hadoop 监控作业执行过程,然后返回作业执行结果给用户。Hive 并非为联机事务处理而设计,Hive 并不提供实时的查询和基于行级的数据更新操作。Hive 的最佳使用场合是大数据集的批处理作业,例如,网络日志分析。
Apache Hive 走向内存计算,性能提升26倍
Apache Hive 2.1已于几个月前发布,它引入了内存计算,这使得Hive计算性能得

发布于 2016-11-01 06:58:25 | 205 次阅读

Apache Hive 2.3.1 发布,数据仓库平台
Apache Hive 2.3.1 已发布,更新如下:[HIVE-17514]- 使用 SHA-256 作为 cookie signer 来提高安全性[HIVE-17562] - ACID 1.0 + ETL 策略应将空的压缩文件视为未覆盖之地[HIVE-17664] -  重构并添加新的测试[HIVE-17665] - 更新 netty-all 到最新的 4.0.x.Final[HIVE-17705] - HIVE-17562 正在返回不正确的

发布于 2017-10-26 00:49:22 | 181 次阅读

Apache Hive 2.3.0 发布,数据仓库平台
Apache Hive 2.3.0 已发布,本次更新带来了新特性、改进,以及 bug 的修复等。详细内容点此参阅。Hive 是一个基于 Hadoop 的数据仓库平台。通过 Hive,我们可以方便地进行 ETL 的工作。Hive 定义了一个类似于 SQL 的查询语言:HQL,能够将用户编写的 SQL 转化为相应的 Mapreduce 程序基于 Hadoop 执行。Hive 是 F

发布于 2017-07-20 00:23:35 | 165 次阅读

Apache Hive 2.1.1 发布,数据仓库平台
数据仓库平台 Apache Hive 2.1.1 发布了。本次部分更新如下:Sub-task[HIVE-13409] - Fix JDK8 test failures related to COLUMN_STATS_ACCURATE[HIVE-13549] - Remove jdk version specific out files from Hive2[HIVE-13587] - Set Hive pom to use Hadoop 2.6.1[HIVE-13593] - HiveServer2: Performance instrument

发布于 2016-12-09 00:26:09 | 195 次阅读

Apache Hive 2.1.0 发布,数据仓库平台
Apache Hive 2.0.1 发布了,完整改进记录如下: Sub-task [HIVE-9774] - Print yarn application id to console [Spark Branch] [HIVE-10280] - LLAP: Handle errors while sending source state updates to the daemons [HIVE-11107] - Support for Performance regression test suite with TPCDS [HIVE-114

发布于 2016-06-21 23:51:15 | 716 次阅读

Apache Hive 2.0.1 发布,数据仓库平台
Apache Hive 2.0.1 发布,完整改进记录如下:Release Notes - Hive - Version 2.0.1    ** Sub-task    * [HIVE-13362] - Commit binary file required for HIVE-13361** Bug    * [HIVE-9499] - hive.limit.query.max.table.partition makes queries fail on non-partitioned tables 

发布于 2016-05-27 07:53:26 | 252 次阅读

Apache Hive 2.0.0 发布,数据仓库平台
Apache Hive 2.0.0 发布,完整改进记录如下:Release Notes - Hive - Version 2.0.0Sub-task[HIVE-8858] -         Visualize generated Spark plan [Spark Branch][HIVE-9139] -         Clean up GenSparkProcContext.clonedReduceSinks and related code [Spark Branch][HIVE-9

发布于 2016-02-16 23:32:53 | 270 次阅读

Apache Archives2.4.16 发布
Apache 2.4.16 发布,更新内容如下:*) http: Fix LimitRequestBody checks when there is no more bytes to read.      [Michael Kaufmann ]   *) mod_alias:&nbs

发布于 2015-07-15 11:00:41 | 161 次阅读

Apache Hive 1.2.1 发布,数据库仓库平台
Apache Hive 1.2.1 发布,此版本主要改进内容如下:改进[HIVE-8769] - Physical optimizer : Incorrect CE results in a shuffle join instead of a Map join (PK/FK pattern not detected)[HIVE-10812] - Scaling PK/FK's selectivity for stats annotation[HIVE-10900] - Fix the indeterministic s

发布于 2015-06-29 06:57:27 | 204 次阅读

Apache Hive 1.0.1/1.1.1 发布,数据仓库平台
Apache Hive 1.0.1/1.1.1 发布,两个版本都修复了一个有关 LDAP 身份验证提供者实施漏洞的问题,并且两个版本都改善了 Hive 的连接服务。两个版本具体更新信息如下:Apache Hive 1.0.1 发行页面。Apache Hive 1.1.1 发行页面。下载页面如下:

发布于 2015-05-23 00:18:49 | 138 次阅读

Apache Hive 1.2.0 发布,数据仓库平台
Hive是一个基于Hadoop的数据仓库平台。通过hive,我们可以方便地进行ETL的工作。hive定义了一个类似于SQL的查询语言:HQL,能 够将用户编写的QL转化为相应的Mapreduce程序基于Hadoop执行。Hive是Facebook 2008年8月刚开源的一个数据仓库框

发布于 2015-05-19 00:30:01 | 571 次阅读

hive的安装和初步使用
本篇内容为大家讲解的是hive的安装和初步使用,感兴趣的同学参考学习下,本文内容如下:

发布于 2015-12-26 04:56:01 | 197 次阅读

yum安装CDH5.5 hive、impala的过程详解
本篇内容主要为大家讲解的是yum安装CDH5.5 hive、impala的过程详解。感兴趣的同学可以参考学习下,具体内容如下:

发布于 2016-12-10 02:17:56 | 171 次阅读


Copyright © 2007-2017 PHPERZ.COM All Rights Reserved   冀ICP备14009818号  版权声明  广告服务