发布于 2014-07-02 14:30:29 | 251 次阅读 | 评论: 0 | 来源: 网友投递
Hadoop分布式系统
一个分布式系统基础架构,由Apache基金会所开发。
用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。
据分析调研公司Paradigm4一项调查显示,76%的数据科学家认为Hadoop太慢了。数据科学家表示,Hadoop作为开源软件框架,在实际应用中还需要更多的精力进行编程,与大数据应用需求相比,其处理速度也还不够快。
91%的受访者表示,正在执行有关大数据的复杂分析,其中39%的人认为其工作变得更加困难。71%的受访者表示:数据类型的多样性和数据量让分析更加困难。
76%的受访者提到了有关Hadoop的问题,39%人认为需要太多的编程努力;37%的人表示即席查询速度太慢,30%的人认为进行实时分析其速度太慢。
如今大数据对于企业越来越重要。据戴尔委托Competitive Edge Research的一项研究显示:那些员工人数在2000~5000人的中型企业已经开始拥抱大数据技术兴起,80%的中型企业认为应该更好地分析他们的数据,他们相信大数据应用能够更好地提升企业决策水平。
对于小型企业而言,免费和便宜工具会让大数据收集和分析变得简单,也是提升竞争力必须要做的事情。Paradigm4本次调查从三月开始,四月结束,为期一个月,得到了美国111数据科学家的响应。
Hadoop是什么:
一个分布式系统基础架构,由Apache基金会所开发。
用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。
Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高传输率(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。
Hadoop的框架最核心的设计就是:HDFS和MapReduce.HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。