Spark-Spark集群安装配置rdd操作-R4工具网

Spark filter算子学习使用详解

2020-10-25 10:09:45
Post By 高景洋

filter(func): 1、选出所有func返回值为true的元素，生成一个新的分布式数据集返回如图：示例代码：实现 Rdd ,每个元素*2，并输出结果>5的数据 def my_filter(): data = [1,2,3,4,5] rdd1 =sc.parallelize(data) map_rdd = rdd1.map(lambda x:x*2) print(map_rdd.collect()) filter_rdd = map_rdd.filter(lambda x:x>5) print(filter_rdd.collect()) #链示实示方式 #sc.parallelize(data).map(lambda x:x*2).filter(lambda x:x>5).collect()

查看全文　|　浏览次数(3762)

Spark map算子学习使用详解

2020-10-25 09:49:47
Post By 高景洋

map(func): 1、将func作用到数据集的每一个元素上，生成一个新的数据集并返回 2、map操作，相当于将RDD中每个Partition,中的每一个数据，都作用上一个相同的操作如图：示例代码：实现，将某个RDD中的数据+1。 def func_for_map(x): return x+1 def my_map3(): conf = SparkConf().setMaster(''local[5]'').setAppName(''sparkTest'') sc = SparkContext(conf=conf) a = sc.parallelize([1,2,3,4,5,6,7]) b = a.map(lambda x:func_for_map(x)) print(b.collect()) sc.stop() 结果输出：[2

查看全文　|　浏览次数(2041)

spark单机模式安装部署配置教程

2020-10-23 12:15:58
Post By 高景洋

一、安装Spark 的前置条件 1、Java Jdk 安装 2、Hadoop 安装安装方式，见：mac OS hadoop伪分布安装教程二、安装scala 1、执行命令：brew install scala，执行完成即可完成 scala 的安装三、Spark 下载下载地址：http://spark.apache.org/downloads.html 我们选择版本：spark-3.0.1-bin-hadoop3.2，因为安装的hadoop 版本为 3.2.1 四、安装Spark 1、解压 tar -zxvf spark-3.0.1-bin-hadoop3.2.tgz 2、将目录移到 /usr/local/spark3.0.1 目录下执行命令 sudo mv /Users/jasongao/Document

查看全文　|　浏览次数(2822)