Linux培训

相关推荐:

Linux培训 > Linux教程

在EC2上使用Spark

发布：Linux培训
来源：Linux教程
时间：2016-10-26 14:19

在讲授使用Hadoop进行分布式计算时，我发现很多可以通过在本地伪分布式节点(pseudo-distributed ode)或以单节点模式(single-node mode)讲授。但是为了了解真正发生了什么，就需要一个集群。当数据变得庞大，这些书面讲授的技能和真实计算需求间经常出现隔膜。如果你肯在学习详细使用Spark上花钱，我建议你设置一个快速Spark集群做做实验。包含5个slave(和1个master)每周大概使用10小时的集群每月大概需要$45.18。

完整的讨论可以在Spark文档中找到：在EC2上运行Spark在你决定购买EC2集群前一定要通读这篇文档!我列出了一些关键点：

通过AWS Console获取AWS EC2 key对(访问key和密钥key)。

将key对导出到你的环境中。在shell中敲出以下命令，或者将它们添加到配置中。

注意不同的工具使用不同的环境名称，确保你用的是Spark脚本所使用的名称。

3.启动集群：

4.SSH到集群来运行Spark作业。

5.销毁集群

这些脚本会自动创建一个本地的HDFS集群来添加数据，copy-dir命令可以同步代码和数据到该集群。但是你最好使用S3来存储数据，创建使用s3://URI来加载数据的RDDs。

预约申请免费试听课

填写下面表单即可预约申请免费试听！怕学不会？助教全程陪读，随时解惑！担心就业？一地学习，可全国推荐就业！

上一篇：在Spark中使用IPython Notebook

下一篇：Spark是什么？Spark核心组件

相关推荐

: 对Spark编程

编写Spark应用与之前实现在Hadoop上的其他数据流语言类似。代码写入一个惰性求值的驱动程序(driver program)中，通过一个动作(action)，驱动代码被分发到集群上

: Spark是什么？Spark核心组件

Spark是个通用的集群计算框架，通过将大量数据集计算任务分配到多台计算机上，提供高效内存计算

: 在EC2上使用Spark

在讲授使用Hadoop进行分布式计算时，我发现很多可以通过在本地伪分布式节点(pseudo-distributed node)或以单节点模式(single-node mode)讲授

: 简略Spark输出--Spark入门

为了减少Spark输出 – 你可以设置$SPARK_HOME/conf下的log4j。首先，拷贝一份$SPARK_HOME/conf/log4j.properties.template文件

Linux相关推荐阅读

相关栏目

开班时间

Java开发 10月31日立即报名
云计算 10月31日立即报名
网络安全 10月31日立即报名
Python 10月31日立即报名
数据分析 10月31日立即报名
C++ 10月31日立即报名
物联网 10月31日立即报名
Web前端 10月31日立即报名
软件测试 10月31日立即报名
AI大模型 10月31日立即报名
鸿蒙 10月31日立即报名
智能办公 10月31日立即报名
商业视效 10月31日立即报名
AGI商业变现 10月31日立即报名
UI设计 10月31日立即报名
新媒体电商 10月31日立即报名

关于达内

达内简介联系我们隐私声明法律公告业务合作

其他服务

培训证书查询投诉与建议

投诉邮箱

tousu@tedu.cn

客服电话

400-111-8989

Copyright © 2023 Tedu.cn All Rights Reserved 京ICP备08000853号-56 京公网安备 11010802029508号达内时代科技集团有限公司版权所有

选择城市和中心

北京

达内北京天坛中心

黑龙江省

达内大庆中心

吉林省

达内长春中心

辽宁省

内蒙古

达内呼和浩特中心

天津

河北省

达内河北中心

山西省

陕西省

达内西安省体中心

山东省

河南省

江苏省

安徽省

上海

达内上海长寿路中心

湖北省

达内武汉光谷中心

四川省

达内成都钻石中心

重庆

达内重庆中心

湖南省

达内长沙中心

江西省

达内南昌人民公园中心

浙江省

贵州省

达内贵阳中心

福建省

云南省

达内昆明中心

广西省

达内南宁中心

广东省

达内广州云计算中心

海南省

达内海南中心

台湾

达内台北中心