Spark
- 2020-10-25 10:09:45
- Post By 高景洋
filter(func): 1、选出所有func返回值为true的元素,生成一个新的分布式数据集返回 如图: 示例代码: 实现 Rdd ,每个元素*2,并输出结果>5的数据 def my_filter(): data = [1,2,3,4,5] rdd1 =sc.parallelize(data) map_rdd = rdd1.map(lambda x:x*2) print(map_rdd.collect()) filter_rdd = map_rdd.filter(lambda x:x>5) print(filter_rdd.collect()) #链示实示方式 #sc.parallelize(data).map(lambda x:x*2).filter(lambda x:x>5).collect()
查看全文 | 浏览次数(3694)
- 2020-10-25 09:49:47
- Post By 高景洋
map(func): 1、将func作用到数据集的每一个元素上,生成一个新的数据集并返回 2、map操作,相当于将RDD中每个Partition,中的每一个数据,都作用上一个相同的操作 如图: 示例代码: 实现,将某个RDD中的数据+1。 def func_for_map(x): return x+1 def my_map3(): conf = SparkConf().setMaster(''local[5]'').setAppName(''sparkTest'') sc = SparkContext(conf=conf) a = sc.parallelize([1,2,3,4,5,6,7]) b = a.map(lambda x:func_for_map(x)) print(b.collect()) sc.stop() 结果输出:[2
查看全文 | 浏览次数(1966)
- 2020-10-23 12:15:58
- Post By 高景洋
一、安装Spark 的前置条件 1、Java Jdk 安装 2、Hadoop 安装 安装方式,见:mac OS hadoop伪分布安装教程 二、安装scala 1、执行命令:brew install scala,执行完成即可完成 scala 的安装 三、Spark 下载 下载地址:http://spark.apache.org/downloads.html 我们选择版本:spark-3.0.1-bin-hadoop3.2,因为安装的hadoop 版本为 3.2.1 四、安装Spark 1、解压 tar -zxvf spark-3.0.1-bin-hadoop3.2.tgz 2、将目录移到 /usr/local/spark3.0.1 目录下 执行命令 sudo mv /Users/jasongao/Document
查看全文 | 浏览次数(2733)
热门文章
- pyspark将hbase的数据以dataframe的形式写入hive
- elastic中怎么开启打开es fielddata的属性
- 什么值得买爱情故事 第八章 苍老师、波老师、皮老师,涛涛,你选谁?
- vs2012警告未能加载包“********package”
- centos uwsgi 守护运行/背后运行/后台运行的方法
- 常用数据库sql
- mysql错误 IP address 'xxxx' could not be resolved: Name or service not known
- rpm覆盖安装,rpm如何覆盖安装
- Python Flask Uwsgi 每次更新都要手动重启uwsgi,如何处理
- HttpWebRequest 基础连接已关闭:接收时发生错误