Spark(python)
一、 安装
下载jdk、scala、spark并配置环境变量/etc/profile
创建软链接
打开python的spark连接窗口 or ./bin/spark-submit test.py
简化连接窗口日志信息
在conf目录下:cp log4j.properties.template log4j.properties
vim log4j.properties
cp spark-env.sh.template spark-env.sh(编译好的故scala不用配置)
cp slaves.template slaves
启动
Linux or window下浏览器访问:
Spark shell 求pi 或者(./bin/run-example SparkPi 10)
一、 Wordcount
启动sparkhdfs
进入pyspark或者(bin/pyspark --master spark://spark01:7077 --executor-memory 1G --total-executor-cores 1)运行:
sc.textFile("hdfs://spark01:9000/wc/test01.log").flatMap(lambda line: line.split(" ")).map(lambda word: (word, 1)).reduceByKey(lambda a, b: a+b).saveAsTextFile("hdfs://spark01:9000/out")
或者新建文件test.py
执行bin/spark-submit test.py
bin/spark-submit --master spark://spark01:7077 --executor-memory 1G --total-executor-cores 1 test.py
一、 RDD
1.Pyspark命令行
2.Python文件形式
- 上一篇:没有了
- 下一篇:没有了