瀚海星空

星空浩瀚 人类渺小

hadoop 配置机架感知

周海汉 2013.7.24 http://abloz.com 假如设备链接层次分3层,第一层交换机d1下面连多个交换机rk1,rk2,rk3,rk4,…. 每个交换机对应一个机架。 d1(rk1(hs11,hs12,…),rk2(hs21,hs22,…), rk3(hs31,hs32,…),rk4(hs41,hs42,…),…) 可以用程序或脚本完成由host到设备的映射。比如,用p...

svg:xml标记的可缩放矢量图形

abloz.com 2013.7.17 SVG是scalable vectory graphic. html5可以用此画图。 复制下述脚本,存为html文件,用chrome打开,可以看到用xml标记画的图形。这可以用于统计图表的展示。如用Path来绘制曲线,用Rectangle来绘制柱状图。一次可以粘贴一个单元,并修改参数可以看到效果。但需要做好低版本IE的兼容。 <!DOCT...

hive 介绍

周海汉 2013.4.18 ** Hive introduction 介绍 ** from ablozhou

预测,算命,心理学和大数据

周海汉/文 说到计划经济,给共产主义国家的人民留下了非常严重阴影。因为政府的大手实际上无法真正预测掌控一切。 计划委员会的官员也不过是人,不是神。一旦所计划的事情庞杂到一个国家,基本上很多情况下只能瞎扯蛋了。即使一个人对自己的规划,其实也是很难做到的。何况还要规划别人的事情。 但是人类对未来预测能力的确比以前强了很多,因为人类现在有了计算机,有了网络,对数据的分析掌控能力今非昔比。现在...

复制部分HBase表用于测试

周海汉/文 2013.4.2 可以将日期’08/08/16 20:56:29’从hbase log 转换成一个 timestamp, 操作如下: hbase(main):021:0> import java.text.SimpleDateFormat hbase(main):022:0> imp...

hive执行语句时报NullPointerException

java.lang.RuntimeException: Error in configuring object at org.apache.hadoop.util.ReflectionUtils.setJobConf(ReflectionUtils.java:93) at org.apache.hadoop.util.ReflectionUtils.setConf(Ref...

hive 复杂 UDAF 使用方法

周海汉 /文 2013.3.27 前文《hive mapreduce script用法示例》 示例了mapreduce脚本。本文采用较复杂的方式自定义hive聚合函数。 package com.abloz.hive; /** * @author zhouhh * @date 2013-3-27 * note: for count value >=1 */ import or...

hive mapreduce script用法示例

周海汉/文 2013.3.27 对于一些hql语句特殊处理,hive本身没有提供相应功能,可以有两种方式,一是mapreduce script,二是写UDF,UDAF,UDTF等。后者需要调用hive提供的api。前者则类似mapreduce的stream模式,只需正确处理输入输出即可。 所以mapreduce脚本进行一些简单处理还是很方便的。 本例想计算德州扑克玩家是否赢牌,算法是:如...

java 读取本地和hdfs文件夹

周海汉/文 abloz.com 2013.3.14 package my.test; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; import org.apache.hadoop.fs.FSDa...

一种递归计算的高效方法

周海汉/文 http://abloz.com 递归计算,有时能非常直观的解决问题,但是非常耗资源,计算很慢,还可能导致堆栈耗尽,计算失败。所以很多时候具体实现时不提倡采用递归,而是将递归转为循环的方式来实现。但这种方式又不直观,容易出错。 有没有一种方法可以即递归,又快速实现,减少运算资源消耗呢? python中的生成器是一种解决方案。以斐波纳契数列为例: def fibonacci(n...