Apache Hive 数据仓库工具

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的SQL查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低

Hive 构建在基于静态批处理的Hadoop 之上，Hadoop 通常都有较高的延迟并且在作业提交和调度的时候需要大量的开销。因此，Hive 并不能够在大规模数据集上实现低延迟快速的查询，例如，Hive 在几百MB 的数据集上执行查询一般有分钟级的时间延迟。因此，

Hive 并不适合那些需要低延迟的应用，例如，联机事务处理（OLTP）。Hive 查询操作过程严格遵守Hadoop MapReduce 的作业执行模型，Hive 将用户的HiveQL 语句通过解释器转换为MapReduce 作业提交到Hadoop 集群上，Hadoop 监控作业执行过程，然后返回作业执行结果给用户。Hive 并非为联机事务处理而设计，Hive 并不提供实时的查询和基于行级的数据更新操作。Hive 的最佳使用场合是大数据集的批处理作业，例如，网络日志分析。

官方网站软件首页软件下载文档手册

Apache Hive 走向内存计算，性能提升26倍: Apache Hive 2.1已于几个月前发布，它引入了内存计算，这使得Hive计算性能得
发布于 2016-11-01 06:58:25 | 206 次阅读

Apache Hive 2.3.1 发布，数据仓库平台: Apache Hive 2.3.1 已发布，更新如下：[HIVE-17514]- 使用 SHA-256 作为 cookie signer 来提高安全性[HIVE-17562] - ACID 1.0 + ETL 策略应将空的压缩文件视为未覆盖之地[HIVE-17664] - 重构并添加新的测试[HIVE-17665] - 更新 netty-all 到最新的 4.0.x.Final[HIVE-17705] - HIVE-17562 正在返回不正确的
发布于 2017-10-26 00:49:22 | 187 次阅读
Apache Hive 2.3.0 发布，数据仓库平台: Apache Hive 2.3.0 已发布，本次更新带来了新特性、改进，以及 bug 的修复等。详细内容点此参阅。Hive 是一个基于 Hadoop 的数据仓库平台。通过 Hive，我们可以方便地进行 ETL 的工作。Hive 定义了一个类似于 SQL 的查询语言：HQL，能够将用户编写的 SQL 转化为相应的 Mapreduce 程序基于 Hadoop 执行。Hive 是 F
发布于 2017-07-20 00:23:35 | 166 次阅读
Apache Hive 2.1.1 发布，数据仓库平台: 数据仓库平台 Apache Hive 2.1.1 发布了。本次部分更新如下：Sub-task[HIVE-13409] - Fix JDK8 test failures related to COLUMN_STATS_ACCURATE[HIVE-13549] - Remove jdk version specific out files from Hive2[HIVE-13587] - Set Hive pom to use Hadoop 2.6.1[HIVE-13593] - HiveServer2: Performance instrument
发布于 2016-12-09 00:26:09 | 198 次阅读
Apache Hive 2.1.0 发布，数据仓库平台: Apache Hive 2.0.1 发布了，完整改进记录如下： Sub-task [HIVE-9774] - Print yarn application id to console [Spark Branch] [HIVE-10280] - LLAP: Handle errors while sending source state updates to the daemons [HIVE-11107] - Support for Performance regression test suite with TPCDS [HIVE-114
发布于 2016-06-21 23:51:15 | 720 次阅读
Apache Hive 2.0.1 发布，数据仓库平台: Apache Hive 2.0.1 发布，完整改进记录如下：Release Notes - Hive - Version 2.0.1 ** Sub-task * [HIVE-13362] - Commit binary file required for HIVE-13361** Bug * [HIVE-9499] - hive.limit.query.max.table.partition makes queries fail on non-partitioned tables
发布于 2016-05-27 07:53:26 | 256 次阅读
Apache Hive 2.0.0 发布，数据仓库平台: Apache Hive 2.0.0 发布，完整改进记录如下：Release Notes - Hive - Version 2.0.0Sub-task[HIVE-8858] - Visualize generated Spark plan [Spark Branch][HIVE-9139] - Clean up GenSparkProcContext.clonedReduceSinks and related code [Spark Branch][HIVE-9
发布于 2016-02-16 23:32:53 | 270 次阅读
Apache Archives2.4.16 发布: Apache 2.4.16 发布，更新内容如下：*) http: Fix LimitRequestBody checks when there is no more bytes to read. [Michael Kaufmann ] *) mod_alias:&nbs
发布于 2015-07-15 11:00:41 | 165 次阅读
Apache Hive 1.2.1 发布，数据库仓库平台: Apache Hive 1.2.1 发布，此版本主要改进内容如下：改进[HIVE-8769] - Physical optimizer : Incorrect CE results in a shuffle join instead of a Map join (PK/FK pattern not detected)[HIVE-10812] - Scaling PK/FK's selectivity for stats annotation[HIVE-10900] - Fix the indeterministic s
发布于 2015-06-29 06:57:27 | 207 次阅读
Apache Hive 1.0.1/1.1.1 发布，数据仓库平台: Apache Hive 1.0.1/1.1.1 发布，两个版本都修复了一个有关 LDAP 身份验证提供者实施漏洞的问题，并且两个版本都改善了 Hive 的连接服务。两个版本具体更新信息如下：Apache Hive 1.0.1 发行页面。Apache Hive 1.1.1 发行页面。下载页面如下：
发布于 2015-05-23 00:18:49 | 138 次阅读
Apache Hive 1.2.0 发布，数据仓库平台: Hive是一个基于Hadoop的数据仓库平台。通过hive，我们可以方便地进行ETL的工作。hive定义了一个类似于SQL的查询语言：HQL，能够将用户编写的QL转化为相应的Mapreduce程序基于Hadoop执行。Hive是Facebook 2008年8月刚开源的一个数据仓库框
发布于 2015-05-19 00:30:01 | 572 次阅读

后端技术

前端技术

数据库

热门框架

常用IDE

其他