用php编写hadoop的mapReduce程序

参考:http://blog.csdn.net/hguisu/article/details/7263746 cat wordcount.txt a b a c d f g d d g f e b a c e a /usr/local/hadoop/bin/hadoop fs -put ~/wordcount.txt phpinput bin/hadoop jar contrib/streaming/hadoop-streaming-1.0.4.jar -mapper /data/www/hbase.6.cn/svnwww/map.php -reducer /data/www/hbase.6.cn/svnwww/reduce.php -input phpinput -output phpoutput/wordcount packageJobJar: [/data/hadoop/tmp/hadoop-unjar8802229556384958300/] [] /tmp/streamjob9208716827641064676.jar … 继续阅读

发表在 hadoop | 标签为 , , | 留下评论

hadoop mapReduce例子

http://blog.csdn.net/jediael_lu/article/details/37649609 hadoop fs针对于各种文件系统 hadoop dfs 专门针对HDFS文件系统 官方文档开始就演示了一个mapreduce的例子,对于很多初学者根本不知所以然。 map/reduce认为是对数据的合并排序函数,就像sql中经常count(),group by ,order by为了从数据中提炼到我们想要的结果。map就像php的array_map,把所有的数组元素都用某个方法影响一遍,reduce就是把数组相邻元素计算的值传递给下一个,比如算数字5的阶乘 1x2x3x4x5。详细的概念可以参考一篇js描述的map/reduce。 http://www.liaoxuefeng.com/wiki/001434446689867b27157e896e74d51a89c25cc8b43bdb3000/001435119854495d29b9b3d7028477a96ed74db95032675000 初学Hadoop之图解MapReduce与WordCount示例分析: http://www.cnblogs.com/hehaiyang/p/4484442.html /usr/local/hadoop/bin/hadoop dfs -ls /usr/local/hadoop/bin/hadoop dfs -mkdir /test 删除目录 /usr/local/hadoop/bin/hadoop dfs -rmr /test /usr/local/hadoop/bin/hadoop dfs -ls /output //调用jar文件的 wordcount类 【输入目录】【输出结果目录】 可以用命令查看jar包里有哪些类,也可以放到eclipse 新建java项目导入jar包在目录结果展开查看。 jar -tvf /usr/local/hadoop-1.0.4/hadoop-examples-1.0.4.jar bin/hadoop … 继续阅读

发表在 hadoop | 标签为 , | 留下评论

Linux经验总结和centos7设置的几个坑

查看进程端口 ps -ef |grep mysqld netstat -anp | grep 3306 显示电脑以及操作系统的相关信息 uname -a 正在运行的内核版本 cat /proc/version 发行版本信息 cat /etc/issue 比较全的信息 lsb_release -a find使用用软连接的目录找不到 [root@localhost hbase]# find /usr/local/hbase -name hbase-site.xml [root@localhost hbase]# find /usr/local/hbase-0.98.14-hadoop1 -name hbase-site.xml /usr/local/hbase-0.98.14-hadoop1/conf/hbase-site.xml 更新系统时间 ntpdate time-a.nist.gov 修改limits文件 … 继续阅读

发表在 Linux | 标签为 , | 留下评论

hadoop2.7.1编译安装及碰到的问题

编译命令: mvn package -Pdist,native,docs -DskipTests -Dtar 最好-p不带docs太费时间。直接用 mvn package -Pdist,native -DskipTests -Dtar 编译完成后的bin版本在目录 hadoop-dist下,跟从官网直接下载非src版本类似。 为提高下载速度,修改maven 源库,用*只从oschina找,有些它那没有。改用central 没有从apache的找。 <mirror> <id>nexus-osc</id> <!– mirrorOf>*</mirrorOf–> <mirrorOf>central</mirrorOf> // <name>Nexus osc</name> <url>http://maven.oschina.net/content/groups/public/</url> </mirror> 编译过程中碰到的问题: [ERROR] Failed to execute goal on project hadoop-common: Could not resolve dependencies … 继续阅读

发表在 hadoop | 标签为 | 留下评论

hbase shell和php通过thrift操作hbase数据

一、通过hbase  shell操作: http://www.cnblogs.com/linjiqin/archive/2013/03/08/2949339.html hbase shell 进入命令行交互模式,通过help查看各种help xx的用法。 命令行下不能直接用delete退格,解决: 方法1: 按住Ctrl+backspace 即可删除 方法2: [回话选项]->[终端]->[仿真]->[映射键]下 其他映射: 打勾Backspace发送delete和delete发送Backspace 表名 列族名 create ‘test’, ‘cf’ list ‘test’ 表名 行键 列键(必须以’列族名:’起) 值 put ‘test’, ‘row1′, ‘cf:a’, ‘value1′ put ‘test’, ‘row2′, ‘cf:b’, ‘value2′ scan ‘test’ get ‘test’, … 继续阅读

发表在 hbase | 标签为 , | 留下评论

hbase简单介绍和集群搭建

Hbase = Hadoop Database 概念名称                    文件存储系统           处理数据引擎   协同服务 Google Bigtable       GFS                       … 继续阅读

发表在 hbase | 标签为 | 留下评论

安装hadoop,hbase相关问题

hadoop1.x参考文档:只找到1.0.4的这个版本有中文文档,http://hadoop.apache.org/releases.html显示的2.5.2,2.6.0,2.7.1几个大分支 都没有中文文档。 http://hadoop.apache.org/docs/r1.0.4/cn/quickstart.html 截止目前hadoop最新版本为2.7.1 http://hadoop.apache.org/docs/current/ 安装方式官方和网上有很多的教程。 我自然是像从最新版本开始搭建环境的,但是折腾了很长时间,包括linux基础环境问题,centos5.8的各种依赖库版本太低的问题,现将一些碰到的坑和解决方案记录一下,方便日后查看。 一、下载jdk是必要的,下载了.gz格式的如何解压?大家都知道tar.gz 怎么解压 tar zxf。这个需要用二步骤解决: 1.gunzip jdk-8u20-linux-x64.gz  解压后.gz文件被删了,只留下了解压出来的jdk-8u20-linux-x64 2.tar xf jdk-8u20-linux-x64 二、下载hadoop版本问题,如果不想编译源码版本后才能运行hadoop等命令,那就下载已经编译好了的bin版本,叫hadoop-xx.bin.tar.gz学习。但是要注意不同版本的文件夹下情况不一样,有的是源码版本名字带了src的,并列的没有后缀的版本应该就是bin版本。有的源码版本的没带后缀,bin版本带了bin后缀的。如果要确定下载bin版本,简单的区分较大的那个版本一般大几十M不等,源码版本的只有十几M。源码需要用 maven编译,没有的需要线安装。解压源码版本下有pom.xml,编译完成后会生成target文件夹。 例举hbase编译完成后的结果,但是1.x版本貌似编译完成后也会有找不到类的问题,目前还不知道为什么。可能是路径要怎么设置一下。 修正:已找到原因,请参考 : http://blog.pengduncun.com/?p=1251 hadoop-2.7.1的编译安装请参考:http://blog.pengduncun.com/?p=1208 mvn package -Dmaven.test.skip.exec=true [INFO] Reactor Summary: [INFO] [INFO] Apache HBase ………………………………… SUCCESS [06:16 min] [INFO] Apache HBase … 继续阅读

发表在 hadoop | 标签为 | 留下评论

p3p跨域同步登陆

解决IE浏览器通过js、iframe、src方式请求另外一个域的文件设置cookie的问题。 测试(ie下测试才有意义,非ie不需要header设置p3p,测试注意本地电脑时间是否正确,否则太大导致cookie种不上,本测试cookie只设置了10秒,方便测试): header(‘P3P: CP=”CURa ADMa DEVa PSAo PSDo OUR BUS UNI PUR INT DEM STA PRE COM NAV OTC NOI DSP COR”‘); http://a.penglaoge.com/ http://b.penglaoge.com/

发表在 Php | 标签为 | 留下评论

nfs服务使用

服务器端: 安装 nfs-utils portmap service portmap restart service nfs restart 客户端: yum install nfs-utils service rpcbind start mount -t nfs 115.28.137.21:/data/nfs/ /data/nfs/ showmount -a 115.28.137.21 showmount -e 115.28.137.21 showmount -d 115.28.137.21 showmount –all 115.28.137.21 All mount points on 115.28.137.21: 203.195.196.59:/data/nfs … 继续阅读

发表在 Linux | 标签为 , | 留下评论

git hooks 自动发布

在阿里云机器 115.28.137.21部署自动发布: 实现自动发布,一般都是通过hooks到一个目录执行拉取最新的更新动作。比如svn update 或者 git pull。 所以,你的网站目录得是一个仓库检出来的副本或者是一个仓库检出来的副本的副本(比如专门有个目录是副本,网站目录又通过rsync复制过来的)。 cd /data/git_repo mkdir test.git git init –bare test.git 检出一个副本,因为仓库就在本机器,可以直接用物理路径,也可以用ssh的路径。 git clone /data/git_repo/test.git /data/wwwroot/php/gitwww/test.git (只是目录名而已,可以不带.git后缀) 新建钩子脚本post-receive (不知道为啥新版本git没有这个文件,难道要用post-update,没具体研究): vim /data/git_repo/test.git/hooks/post-receive #!/bin/sh export LANG=zh_CN.UTF-8 WWW=/data/wwwroot/php/gitwww/test.git LOG=/data/git_repo/autopush_test.log cd $WWW unset GIT_DIR echo `date` >> $LOG git … 继续阅读

发表在 git | 留下评论