瀚海星空

星空浩瀚 人类渺小

spark rdd 转换和动作

概述 本文对spark rdd的转换和动作进行总结和实际操作演示. RDD(Resilient Distributed Datasets),弹性分布式数据集, 是spark分布式内存的一个抽象概念,RDD提供了一种高度受限的共享内存模型.即RDD是只读的记录分区的集合,只能通过在其他RDD执行确定的转换操作(如map、join和group by)而创建,然而这些限制使得实现容错的开销很低。 ...

spark 隐含因子音乐推荐

音乐推荐 本示例基于spark高级编程. 实现了一个对 隐因子推荐算法( Latent Factor Analysis) 用用户和产品之间的交互, 来找到潜在的分类, 并对用户进行推荐. 隐含语义模型LFM和LSI,LDA,Topic Model 都属于隐含语义分析技术,是一类概念,他们在本质上是相通的,都是找出潜在的主题或分类。和该技术相关算法有pLSA(probabilitist...

scala的for循环yield值

概述 scala语言的for语法很灵活. 除了普通的直接对集合的循环, 以及循环中的判断和值返回. 非常灵活. for 可以通过yield(生产)返回值, 最终组成for循环的对象类型.for 循环中的 yield 会把当前的元素记下来,保存在集合中,循环结束后将返回该集合。如果被循环的是 Map,返回的就是Map,被循环的是 List,返回的就是List,以此类推。 守卫( guard...

python kafka生产消费示例

概述 本文是python作为kafka的生产者和消费者的示例. 可以作为kafka测试程序使用. 关注点 json对象, python对象和json字符串转换 utf8支持 kafka生产和消费初始化 kafka-python 安装 利用conda 从conda-forge库中安装 zhouhh@/Users/zhouhh/python $ conda install -...

akka http的Actor示例

概述 这是akka http 文档自带的例子, 略作改编. 本代码演示了akka-http中和actor交互. 代码功能为拍卖(Aution),投标(Bid)和查询投标(GetBids),实现了http的PUT,GET等方法. 关注点 List初始化方法 akka-http和Actor发送消息 json和对象,字符串之间的转换 Route实现方式 异步通信 异...

kafka使用和容错性测试

下载安装 下载地址 最新版本kafka_2.12-0.11.0.0.tgz. zhouhh@/Users/zhouhh/java $ curl http://mirrors.tuna.tsinghua.edu.cn/apache/kafka/0.11.0.0/kafka_2.12-0.11.0.0.tgz -o kafka_2.12-0.11.0.0.tgz zhouhh@/Users/z...

akka http复杂格式json处理

概述 json 分为好几种形态. 字符串形态, 用于数据交换和描述存储的原始形式. Json对象形态, 这是Json引擎内在逻辑,树形结构,抽象语法树AST 模型对象形态, 这是用户业务对象 在实际编码中这三种形态经常相互转化. 由于官方文档的示例都非常简单, 所以遇到复杂的结构出了问题很难处理. 本文采用akka-http自带spray json和json4s的jso...

spark入门实践之单词统计

简介 Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。 Spark由UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室) 于2009年开始开发并开源. 目前是apache顶级项目. spark 支持scala,java,python,R. 于 2017年5月发布2.1.1版本. 建议最好使用scala语言来开发. 因为java和pytho...

hadoop3安装试用

下载 hadoop 3 下载 目前是 2017年5月发布的3.0.0-alpha3 wget http://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-3.0.0-alpha3/hadoop-3.0.0-alpha3.tar.gz java环境 需要java sdk 1.7 以上 [zhouhh@mainServ...

scala安装试用

java环境 需要java sdk 1.7 以上 [zhouhh@mainServer hadoop-3.0.0-alpha3]$ !cat cat /etc/redhat-release CentOS Linux release 7.1.1503 (Core) [zhouhh@mainServer hadoop-3.0.0-alpha3]$ echo $JAVA_HOME /etc/al...