hadoop入门之统计单词在文件中出现的个数示例 - PHPERZ中文资讯站

发布于 2016-05-09 12:43:32 | 444 次阅读 | 评论: 0 | 来源: 网友投递

这里有新鲜出炉的Hadoop教程，程序狗速度看过来！

Hadoop分布式系统

一个分布式系统基础架构，由Apache基金会所开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力高速运算和存储。

Linux环境：CentOs6.4

Hadoop版本：hadoop-0.20.2

内容：统计hadoop\bin下的所有文件中单词出现的个数。

所用到的命令有：

复制代码

代码如下:

//创建input文件夹
./hadoop fs -mkdir input
//将所有的需要统计单词个数的文件放在input文件夹下
./hadoop fs -put *.sh /input/
//运行wordcount将结果输出到output文件夹下
./hadoop jar hadoop-examples-0.20.2.jar wordcount /input /output
//验证某个单词的个数
grep xxx *.sh
grep xxx *.sh|wc

第一步:确定HDFS、MapReduce、jobTracker等是否正常启动。查看/article/16/0410/212962.html

第二步：在Hadoop文件系统根目录中创建input文件夹。

执行命令：

打开网页查看input文件夹是否创建成功：

上图表明已经成功。

第三步：将bin目录下的所有文件放到hadoop文件系统的input目录下。

执行命令：

通过浏览器查看input文件夹下是否已经存在所存放的文件。

第四步：执行wordcount命令统计单词个数。

回到Hadoop文件夹下，找到统计个数的jar包。如图，在hadoop-0.20.2目录下有一个hadoop-0.20.2-examples.jar。

运行命令执行此jar，统计个数。并将输出结果放在output目录下。命令如下:

运行成功。

第五步：验证结果是否正确。通过命令统计某一单词的个数，与MapReduce统计的个数进行对比。

通过命令查看文件中language单词的个数为12个，如图。

查看MapReduce运行结果，如图：

运行结果相同。

附：从过页面查看运行状态

最新网友评论 共有(0)条评论发布评论返回顶部

推荐阅读

终极炫富——2016 年 iOS 开发者收入调查报告

年度大片：Stack Overflow 2017 开发者调查报告发布！

开发者需要大学学位吗？

程序员多大年纪算高龄，届时该何去何从？

2017 年高薪编程语言排行榜，你的语言上榜没？

各编程语言开发者最常使用的按键，中了没?

伤不起的三十岁，干不动的程序员要何去何从？

2016年中国加班最狠IT公司排行

一句话"面试"漫画：黑了苹果、谷歌、三星

拿代码量算 KPI ……跟程序员们来这套？

程序员遇到 Bug 时的 30 个反应，你是哪一种？

2016年收入最高的5个编程语言 Java和C没在前五?

为什么很少见人傻钱多的程序员炫富？

阿里月薪两万是什么体验？

代码缩进时程序员更喜欢空格键还是Tab键？

最新资讯

Python获取系统所有进程PID及进程名称的方法示例

Python简单获取网卡名称及其IP地址的方法【基于psutil模块】

Python实现的根据IP地址计算子网掩码位数功能示例

好的Python培训机构应该具备哪些条件

详解Pytorch 使用Pytorch拟合多项式(多项式回归)

Python加载带有注释的Json文件实例

对python的文件内注释 help注释方法

Python实现判断一行代码是否为注释的方法

Oracle数据库表中字段顺序的修改方法

ASP.NET MVC 4使用PagedList.Mvc分页的实现代码

Oracle实例启动时报错：ORA-32004的解决方法

解读ASP.NET 5 & MVC6系列教程（7）：依赖注入

详解IDEA用maven创建springMVC项目和配置

ASP.NET MVC5网站开发之展示层架构（五）

SpringBoot创建maven多模块项目实战代码

后端技术

前端技术

数据库

热门框架

常用IDE

其他

Copyright © 2007-2017 PHPERZ.COM All Rights Reserved 冀ICP备14009818号版权声明广告服务