介绍
搭建一个spark机群进行数据分析
结构:主节点+2个工作节点
首先保证3个节点之间可以ssh免密码登录
依赖安装
- 主节点:
- java
- mvn:有必要配置代理,.m2/settings.xml
- spark:用做命令行测试,开发java程序,用mvn下载依赖包
- 工作节点:
- java
- spark: 启动salve并连接主节点
正确安装各个依赖包之后,需要正确配置环境变量。
测试是否正确安装
主节点
- 测试spark命令行,参考文档
- 测试spark用mvn构建,参考代码1234mvn packagespark-submit --class "org.intel.dcg.leslie.SimpleApp" --master local[4] target/simple-project-1.0.jar--class 指定jar包入口的class类--master local[4] 运行在本地的4线程
工作节点
将主节点构建的jar包拷贝到工作节点