标签归档:hadoop

用php编写hadoop的mapReduce程序

参考:http://blog.csdn.net/hguisu/article/details/7263746 cat wordcount.txt a b a c d f g d d g f e b a c e a /usr/local/hadoop/bin/hadoop fs -put ~/wordcount.txt phpinput bin/hadoop jar contrib/streaming/hadoop-streaming-1.0.4.jar -mapper /data/www/hbase.6.cn/svnwww/map.php -reducer /data/www/hbase.6.cn/svnwww/reduce.php -input phpinput -output phpoutput/wordcount packageJobJar: [/data/hadoop/tmp/hadoop-unjar8802229556384958300/] [] /tmp/streamjob9208716827641064676.jar … 继续阅读

发表在 hadoop | 标签为 , , | 留下评论

hadoop mapReduce例子

http://blog.csdn.net/jediael_lu/article/details/37649609 hadoop fs针对于各种文件系统 hadoop dfs 专门针对HDFS文件系统 官方文档开始就演示了一个mapreduce的例子,对于很多初学者根本不知所以然。 map/reduce认为是对数据的合并排序函数,就像sql中经常count(),group by ,order by为了从数据中提炼到我们想要的结果。map就像php的array_map,把所有的数组元素都用某个方法影响一遍,reduce就是把数组相邻元素计算的值传递给下一个,比如算数字5的阶乘 1x2x3x4x5。详细的概念可以参考一篇js描述的map/reduce。 http://www.liaoxuefeng.com/wiki/001434446689867b27157e896e74d51a89c25cc8b43bdb3000/001435119854495d29b9b3d7028477a96ed74db95032675000 初学Hadoop之图解MapReduce与WordCount示例分析: http://www.cnblogs.com/hehaiyang/p/4484442.html /usr/local/hadoop/bin/hadoop dfs -ls /usr/local/hadoop/bin/hadoop dfs -mkdir /test 删除目录 /usr/local/hadoop/bin/hadoop dfs -rmr /test /usr/local/hadoop/bin/hadoop dfs -ls /output //调用jar文件的 wordcount类 【输入目录】【输出结果目录】 可以用命令查看jar包里有哪些类,也可以放到eclipse 新建java项目导入jar包在目录结果展开查看。 jar -tvf /usr/local/hadoop-1.0.4/hadoop-examples-1.0.4.jar bin/hadoop … 继续阅读

发表在 hadoop | 标签为 , | 留下评论

hadoop2.7.1编译安装及碰到的问题

编译命令: mvn package -Pdist,native,docs -DskipTests -Dtar 最好-p不带docs太费时间。直接用 mvn package -Pdist,native -DskipTests -Dtar 编译完成后的bin版本在目录 hadoop-dist下,跟从官网直接下载非src版本类似。 为提高下载速度,修改maven 源库,用*只从oschina找,有些它那没有。改用central 没有从apache的找。 <mirror> <id>nexus-osc</id> <!– mirrorOf>*</mirrorOf–> <mirrorOf>central</mirrorOf> // <name>Nexus osc</name> <url>http://maven.oschina.net/content/groups/public/</url> </mirror> 编译过程中碰到的问题: [ERROR] Failed to execute goal on project hadoop-common: Could not resolve dependencies … 继续阅读

发表在 hadoop | 标签为 | 留下评论

安装hadoop,hbase相关问题

hadoop1.x参考文档:只找到1.0.4的这个版本有中文文档,http://hadoop.apache.org/releases.html显示的2.5.2,2.6.0,2.7.1几个大分支 都没有中文文档。 http://hadoop.apache.org/docs/r1.0.4/cn/quickstart.html 截止目前hadoop最新版本为2.7.1 http://hadoop.apache.org/docs/current/ 安装方式官方和网上有很多的教程。 我自然是像从最新版本开始搭建环境的,但是折腾了很长时间,包括linux基础环境问题,centos5.8的各种依赖库版本太低的问题,现将一些碰到的坑和解决方案记录一下,方便日后查看。 一、下载jdk是必要的,下载了.gz格式的如何解压?大家都知道tar.gz 怎么解压 tar zxf。这个需要用二步骤解决: 1.gunzip jdk-8u20-linux-x64.gz  解压后.gz文件被删了,只留下了解压出来的jdk-8u20-linux-x64 2.tar xf jdk-8u20-linux-x64 二、下载hadoop版本问题,如果不想编译源码版本后才能运行hadoop等命令,那就下载已经编译好了的bin版本,叫hadoop-xx.bin.tar.gz学习。但是要注意不同版本的文件夹下情况不一样,有的是源码版本名字带了src的,并列的没有后缀的版本应该就是bin版本。有的源码版本的没带后缀,bin版本带了bin后缀的。如果要确定下载bin版本,简单的区分较大的那个版本一般大几十M不等,源码版本的只有十几M。源码需要用 maven编译,没有的需要线安装。解压源码版本下有pom.xml,编译完成后会生成target文件夹。 例举hbase编译完成后的结果,但是1.x版本貌似编译完成后也会有找不到类的问题,目前还不知道为什么。可能是路径要怎么设置一下。 修正:已找到原因,请参考 : http://blog.pengduncun.com/?p=1251 hadoop-2.7.1的编译安装请参考:http://blog.pengduncun.com/?p=1208 mvn package -Dmaven.test.skip.exec=true [INFO] Reactor Summary: [INFO] [INFO] Apache HBase ………………………………… SUCCESS [06:16 min] [INFO] Apache HBase … 继续阅读

发表在 hadoop | 标签为 | 留下评论