Spark笔记：RDD基本操作（上）

创建时间：2016-11-29 投稿人：浏览次数：1482

　原文链接：http://www.cnblogs.com/sharpxiajun/p/5506822.html

本文主要是讲解spark里RDD的基础操作。RDD是spark特有的数据模型，谈到RDD就会提到什么弹性分布式数据集，什么有向无环图，本文暂时不去展开这些高深概念，在阅读本文时候，大家可以就把RDD当作一个数组，这样的理解对我们学习RDD的API是非常有帮助的。本文所有示例代码都是使用scala语言编写的。

　　Spark里的计算都是操作RDD进行，那么学习RDD的第一个问题就是如何构建RDD，构建RDD从数据来源角度分为两类：第一类是从内存里直接读取数据，第二类就是从文件系统里读取，当然这里的文件系统种类很多常见的就是HDFS以及本地文件系统了。

　　第一类方式从内存里构造RDD，使用的方法：makeRDD和parallelize方法，如下代码所示：

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17

/*
 使用makeRDD创建RDD */

/*
 List */

val rdd01 = sc.makeRDD(List(1,2,3,4,5,6)) val r01 = rdd01

.map
 { x

=

>
 x * x }

println(r01.collect().mkString(","))

/*
 Array */

val rdd02 = sc.makeRDD(Array(1,2,3,4,5,6)) val r02 = rdd02

.filter
 { x

=

>
 x <

5} println(r02.collect().mkString(",")) val rdd03 = sc.parallelize(List(1,2,3,4,5,6), 1) val r03 = rdd03

.map
 { x

=

>
 x +

1 } println(r03.collect().mkString(","))

/*
 Array */

val rdd04 = sc.parallelize(List(


                            
            声明：该文观点仅代表作者本人，入门客AI创业平台信息发布平台仅提供信息存储空间服务，如有疑问请联系rumenke@qq.com。
            
                
                    上一篇：
			
				Spark笔记：RDD基本操作（下）			
                    下一篇：没有了
                
            
                    
        
            
                                    
                                
                
                
            

                        
                热门文章
                                
			
				JavaScript删除数组里的某个...
                                
			
				CDN和反向代理			
                                
			
				MySQL命令select from：查询表...
                                
			
				移动端开发适配2种方案总...
                                
			
				React 定义组件的参数对象			...
                                
			
				Hbase中文字符与byte[]的转换	...
                                
			
				MySQL命令select：当前选择（...
                                
			
				Scala基础—数组操作示例			
                                
			
				前端涉及的所有知识体系			...
                                
			
				Scala Seq示例			
                            
            
                        
                最新文章 
                                
			
				Spark笔记：RDD基本操作（下...
                                
			
				JavaScript判断对象是否含有...
                                
			
				scala Map 和 Tuple操作			
                                
			
				如何配置Bean			
                                
			
				Scala Seq示例			
                                
			
				前端涉及的所有知识体系			...
                                
			
				Scala基础—数组操作示例			
                                
			
				MySQL命令select：当前选择（...
                                
			
				Hbase中文字符与byte[]的转换	...
                                
			
				React 定义组件的参数对象			...
                            
                        
        
    


    
        
            
                网站首页
                tags
            
            
                学习手册
            
            
                在线课程
            
        
        
            
                
                    服务热线
                    电话：17508408227
                    上班时间：9：00-18：00
                
            
            
                
                关注微信公众号
            
        
     

copyright © 2008-2019 入门客AI创业平台 版权所有 备案号：湘ICP备2023012770号