瀚海星空

星空浩瀚 人类渺小

将文件合并到HDFS

周海汉 2013.2.1 将文件合并到HDFS。从目录中读取所有文件,合并成一个HDFS文件。 package my.test; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; import or...

从HDFS中读取文件

周海汉 2013.2.1 本代码可以从本地或hdfs系统中读取文件两次,并在终端打印出来。 /** * test read file from hdfs */ package my.test; import java.net.URI; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs....

用hadoop streaming 来执行mapreduce的脚本

周海汉/文 2013.2.1 http://abloz.com tom white的《hadoop the_definitive_guide 3nd edition》附录C里面讲到用streaming方式来处理气象的原始数据。由于气象原始数据是小文件压缩成的gz2文件,需要将文件解压,合并成一个大文件,再按年份压缩存放。这样便于后续的mapreduce处理。 white用的是stre...

KeyValue size too large hadoop

跑mapreduce任务时,在reduce时遇到下列错误: KeyValue size too large hadoop 解决办法: 修改hbase-site.xml 增加 hbase.client.keyvalue.maxsize 500m hbase.client.keyvalue.maxsize 缺省10MB,包括row key,qualifier, HBase met...

从HDFS分析数据到HBase

周海汉 2013.1.30 http://abloz.com 需求: 需要将flume收集到hdfs的数据分析后导入HBase里。 行键是userid+date,value是该用户当天全部记录,并对记录按时间排序。 问题1: TableMapReduceUtil来设置Reduce时输出到HBase,会缺省设置OutPutKeyFormat为ImmutableBytesWritab...

flume windows agent reports OutOfMemory

周海汉 2013.1.29 http://abloz.com when i start the flume node service,the agent is OPENING. I need to gather logs from windows 7, but the flume master and collector is running on linux. I download ...

flume agent tail source用vim编辑后全文重写的问题

周海汉 2013.1.25 http://abloz.com 在flume master中配置agent的configure如下: config ag1 tail("/home/zhouhh/cars.csv",startFromEnd=true) |agentSink("hadoop48",35853); config co1 collectorSource( 35853 )|[c...

flume shell 和web界面执行命令的不同

周海汉 2013.1.23 web ui上执行,用管道符: agent1: tail("/home/zhouhh/cars.csv") | logicalSink("collect1"); agent2: tail("/home/zhouhh/cars.csv") | logicalSink("collect1"); collect1: logicalSource | collecto...

flume的source和sink

周海汉 2013.1.21 http://abloz.com 常用source源: console 标准输入控制台 text(“filename”) 单文本文件源,一行一事件 tail(“filename”) 和 Unix 的tail -F 类似。一行一事件。一直打开等待...

flume伪分布式部署和测试

周海汉 2013.1.21 http://abloz.com 前一篇《flume日志收集单节点》,讲了怎么安装flume,对单节点模式进行了测试。本篇讲flume伪分布式部署和测试 flume包括3种节点,一种是agent,一种是collector,一种是master。master用于管理agent和collector。agent和collector是完全一样的,都是从source拉数...