python代码提交到spark集群并设定定时任务

一、启动thrift

因为用到了happybase,需要先在服务器上上启动thrift服务,
关闭终端thrift继续运行命令如下:

nohup hbase thrift -p 9090 start

二、linux从本地安装python库

以thriftpy为例

解压 tar zxvf thriftpy-0.3.9.tar.gz

回到当前目录 cd thriftpy-0.3.9

编译 python setup.py build

安装 python setup.py install

然而报错表示权限不够,切换到root账户命名为sudo su
重新执行上述操作。

对于集群上其他机器

在一台机器上将所有需要用到的库都装好后,这里默认安装在/usr/local/lib/python2.7/dist-packages文件夹里,其他机器可以直接将dist-packages文件夹复制到相应位置,即可直接import装好的python库

下面代码实现将10.1.140.11:/usr/local/lib/python2.7/dist-packages 目录或文件 复制到本地(目前操作的节点机器上)/home/hadoop/AA-packages,并将原dist-packages重新命名为AA-packages

scp -r [email protected]:/usr/local/lib/python2.7/dist-packages /home/hadoop/AA-packages

在Xshell里可以批量处理,在Xshell下方的“发送文本到当前Xshell窗口的全部会话”中编辑命名即可对几台机器同步进行相同的操作。

三、python作业的提交

这里先cd到工程文件所在目录下,

/usr/local/spark/bin/spark-submit --master spark://10.1.140.xx:7077 --total-executor-cores 14 --executor-memory 4G --driver-memory 6G Quarter/Quarter_App.py

四、定时任务的设定

定时任务的设定,.sh中命令如下:



#!/bin/bash

cd /home/hadoop/huangyue/weiboAttention_point

/usr/local/spark/bin/spark-submit --master spark://10.1.140.xx:7077 --total-executor-cores 28 --executor-memory 6G --driver-memory 6G Attention_point/Attention_point/Month/month_App.py
                                                                            
~                                                                             

你可能感兴趣的:(spark,我的笔记)