借hbase-rdd二次开发谈如何在Spark Core之上扩建自己的模块-益强资讯全景

应用开发: 借hbase-rdd二次开发谈如何在Spark Core之上扩建自己的模块
时间：2010-12-5 17:23:32  作者：IT科技类资讯   来源：IT科技  查看：  评论：0
内容摘要：我是学院讲师张敏，在学院 “4.20 IT充电节”(4月19~20日) 到来之际，和大家分享一下Spark Core之上扩建自己的模块的经验。正文来啦~~~hbase-rdd是一个构建在SparkCo
我是借h建自己学院讲师张敏，在学院 “4.20 IT充电节”(4月19~20日) 到来之际，谈何和大家分享一下Spark Core之上扩建自己的上扩模块的经验。正文来啦~~~
hbase-rdd是模块一个构建在SparkContext基础之上的用于对Hbase进行增删改查的第三方开源模块，目前***版本为0.7.1。借h建自己目前该rdd在操作hbase时，谈何默认调用隐式方法。上扩
implicitdef stringToBytes(s: String): Array[Byte] = {   Bytes.toBytes(s)  }
将RDD的模块key转换成字节b，然后调用Hbase的借h建自己put(b)方法保存rowkey，之后将RDD的谈何每一行存入hbase。
在轨迹图绘制项目数据计算中，上扩我们考虑到hbase的模块rowkey的设计——尽量减少rowkey存储的开销。虽然hbase-rdd最终的借h建自己rowkey默认都是采用字节数组，但这个地方我们希望按自己的谈何方式组装rowkey。使用MD5(imei)+dateTime组成的上扩字节数组作为rowkey。因此默认的服务器托管hbase-rdd提供的方法是不满足我们存储需求的，需要对源代码进行修改。在toHbase方法中，有一个convert方法，该方法将对RDD中的每一行数据进行转化，使用RDD中的key生成Put(Bytes.toBytes(key))对象，该对象为之后存储Hbase提供rowkey。
在convert函数中，对其实现进行了改造，hbase-rdd默认使用stringToBytes隐式函数将RDD的String类型的key转换成字节数组，这里我们需要改造，不使stringToBytes隐式方法，而是直接生成字节数据。
protected def convert(id: String, values: Map[String, Map[String, A]], put: PutAdder[A]) = {   val strs = id.split(",")  val imei = strs { 0}  val dateTime = strs { 1}  val b1 = MD5Utils.computeMD5Hash(imei.getBytes())  val b2 = Bytes.toBytes(dateTime.toLong)  val key = b1.++(b2)  val p = new Put(key)//改造  var empty = true  for {   (family, content) <- values  (key, value) <- content  } {   empty = false  if (StrUtils.isNotEmpty(family) &&StrUtils.isNotEmpty(key)) {   put(p, family, key, value)  }  }  if (empty) None else Some(new ImmutableBytesWritable, p)  }
这样就实现了使用自己的方式构建rowkey，当然基于此思想我们可以使用任意的方式构建rowkey。
在使用hbase-rdd插件的过程中，我在思考，默认的RDD上是没有toHbase方法的服务器租用，那为什么引入hbase-rdd包之后，RDD之上就有toHbase方法了?经过查看源码，发现hbase-rdd包中提供了两个隐式方法：
implicitdef toHBaseRDDSimple[A](rdd: RDD[(String, Map[String, A])])(implicit writer: Writes[A]): HBaseWriteRDDSimple[A] =new HBaseWriteRDDSimple(rdd, pa[A]) implicit def toHBaseRDDSimpleTS[A](rdd: RDD[(String, Map[String, (A, Long)])])(implicit writer: Writes[A]): HBaseWriteRDDSimple[(A, Long)] =new HBaseWriteRDDSimple(rdd, pa[A])
这两个方法在发现RDD上没有toHbase方法时会自动尝试调用，从隐式定义中尝试找到解决方案，尝试之后发现有定义toHBaseRDDSimple隐式方法，于是调用该隐式方法新建HBaseWriteRDDSimple类，返回hBaseWriteRDDSimple，而在hBaseWriteRDDSimple对象中是有toHbase方法的，因此在引入hbase-rdd之后，可以发现原本没有toHbase方法的RDD上有toHbase方法了。这一切都要归功于Scala强大的隐式转换功能。
那明白了原理，是否我们可以基于RDD写自己的模块，说干就干!
***步：新建Trait
traitHaha{ implicitdef gaga[A](rdd: RDD[String]): Hehe= newHehe(rdd) }
第二步：新建Hehe类
final  class Hehe(rdd:RDD[String]) { def wow(tableName:String,family:String): Unit ={ println("---------------------------------------------") println("tableName:"+tableName+" - family:"+family) println("size:"+rdd.count()) rdd.collect().foreach(data=>println(data)) println("---------------------------------------------")    } }
第三步：新建包对象
package object test extends Haha
第四步：新建test类
object Test{ def main(args: Array[String]) { valsparkConf = new SparkConf().setAppName("Test") valsc = new SparkContext(sparkConf) sc.makeRDD(Seq("one","two","three","four")).wow("taskDataPre","T")   } }
项目结构图：
运行效果图：
希望对大家以后的开发有帮助，同时借鉴本案例，在Spark Core之上构建自己的小模块。
学院 4.20 IT充电节
(19-20号两天，100门视频课程免单抢，更有视频课程会员享6折，非会员享7折，套餐折上8折，亿华云微职位立减2000元钜惠)
活动链接：http://edu.51cto.com/activity/lists/id-47.html?wenzhang
相关视频教程：
【大数据 Spark2.x 流数据处理】精通Spark流数据处理(持续完毕)
国际域名转移的费用和处理步骤是什么？
第五步：重复第四步,直到找到正确的纪录。

最近更新

2025-10-04 18:29:37
5. 四种状态过后，域名管理机构释放域名给公众注册。
2025-10-04 18:29:37
程序员是如何阅读源码的
2025-10-04 18:29:37
单例模式的这些细节你都知道么？
2025-10-04 18:29:37
Java 中的语法糖，真甜。
2025-10-04 18:29:37
第三，.cc域名域名也有很多优势资源域名，从整体注册基数也可以由此推断；
2025-10-04 18:29:37
鸿蒙应用开发入门（二）开发环境搭建
2025-10-04 18:29:37
程序员是如何阅读源码的
2025-10-04 18:29:37
一篇带给你Kubernetes 实用技巧

热门排行

2025-10-04 18:29:37
主流搜索引擎显示的相关搜索项越多，越能积极反映该域名的市场价值。同时，被评估域名的搜索引擎显示结果不佳可能是由于以下两个原因：
2025-10-04 18:29:37
QQ好友状态，QQ群友状态，究竟是推还是拉？
2025-10-04 18:29:37
使用JS将聊天记录聚合在一起
2025-10-04 18:29:37
Node.js 服务性能翻倍的秘密（二）
2025-10-04 18:29:37
四、长串数字域名
2025-10-04 18:29:37
2021年如何成为一名Web开发人员
2025-10-04 18:29:37
首门编程语言很重要，初学者应该选择学习哪个呢？
2025-10-04 18:29:37
Python 炫技操作：安装包的八种方法

友情链接