当前位置:艾威培训主页 > 云计算与大数据 > Spark培训 > spark企业级开发实践培训 >
spark企业级开发实践培训
课程介绍:
课程对象:
1,云计算大数据从业者;2,Hadoop使用者;
3,系统架构师、系统分析师、高级程序员、资深开发人员;
4,牵涉到大数据处理的数据中心运行、规划、设计负责人;
5,政府机关,金融保险、移动和互联网等大数据来源单位的负责人;
6,高校、科研院所涉及到大数据与分布式数据处理的项目负责人;
7,数据仓库管理人员、建模人员,分析和开发人员、系统管理人员、数据库管理人员以及对数据仓库感兴趣的其他人员;
学员基础:
了解面向对象编程;了解Linux的基本使用;
了解Scala语法
课程时长:3天
课程方式:
课程大纲:
第1堂课:Spark的架构设计
1.1 Spark生态系统剖析
1.2 Spark的架构设计剖析
1.3 RDD计算流程解析
1.4 Spark的出色容错机制
第2堂课:Spark编程模型
2.1 RDD
2.2 transformation
2.3 action
2.4 lineage
2.5宽依赖与窄依赖
第3堂课:深入Spark内核
3.1 Spark集群
3.2 任务调度
3.3 DAGScheduler
3.4 TaskScheduler
3.5 Task内部揭秘
第4堂课:Spark的广播变量与累加器
4.1 广播变量的机制
4.2 广播变量使用最佳实践
4.3 累加器的机制
4.4 累加器使用的最佳实践
第5堂课:编写Spark程序
5.1 程序数据的来源:File、HDFS、HBase、S3等
5.2 IDE环境构建
5.3 Maven
5.4 sbt.
5.5 编写并部署Spark程序的实例
第6堂课:SparkContext解析和数据加载以及存储
6.1 源码剖析SparkContext
6.2 Scala、Java、Python使用SparkContext
6.4 加载数据成为RDD
6.5 把数据物化
第7堂课:深入实战RDD
7.1 DAG
7.2 深入实战各种Scala RDD Function
7.3 Spark Java RDD Function
7.4 RDD的优化问题
第8堂课:Shark的原理和使用
8.1 Shark与Hive
8.2 安装和配置Shark
8.3 使用Shark处理数据
8.4 在Spark程序中使用Shark Queries
8.5 SharkServer
8.6 思考Shark架构
第9堂课:Spark的机器学习
9.1 LinearRegression
9.2 K-Means
9.3 Collaborative Filtering
第10堂课:Spark的图计算GraphX
10.1 Table Operators
10.2 Graph Operators
10.3 GraphX
第11堂课:Spark SQL
11.1 Parquet支持
11.2 DSL
11.3 SQL on RDD
第12堂课:Spark实时流处理
12.1 DStream
12.2 transformation
12.3 checkpoint
12.4 性能优化
第13堂课:Spark程序的测试
13.1 编写可测试的Spark程序
13.2 Spark测试框架解析
13.3 Spark测试代码实战
第14堂课:Spark的优化
14.1 Logs
14.2 并发
14.3 内存
14.4 垃圾回收
14.5 序列化
14.6 安全
第15堂课:Spark on Yarn
15.1 Spark on Yarn的架构原理
15.2 Spark on Yarn的最佳实践
第16堂课:JobServer
16.1 JobServer的架构设计
16.2 JobServer提供的接口
16.3 JobServer最佳实践
第17堂课:Spark项目案例实战
17.1 Spark项目的最佳架构模式
17.2 案例的介绍和架构
17.3 案例的源码实现
17.4 调优
1.1 Spark生态系统剖析
1.2 Spark的架构设计剖析
1.3 RDD计算流程解析
1.4 Spark的出色容错机制
第2堂课:Spark编程模型
2.1 RDD
2.2 transformation
2.3 action
2.4 lineage
2.5宽依赖与窄依赖
第3堂课:深入Spark内核
3.1 Spark集群
3.2 任务调度
3.3 DAGScheduler
3.4 TaskScheduler
3.5 Task内部揭秘
第4堂课:Spark的广播变量与累加器
4.1 广播变量的机制
4.2 广播变量使用最佳实践
4.3 累加器的机制
4.4 累加器使用的最佳实践
第5堂课:编写Spark程序
5.1 程序数据的来源:File、HDFS、HBase、S3等
5.2 IDE环境构建
5.3 Maven
5.4 sbt.
5.5 编写并部署Spark程序的实例
第6堂课:SparkContext解析和数据加载以及存储
6.1 源码剖析SparkContext
6.2 Scala、Java、Python使用SparkContext
6.4 加载数据成为RDD
6.5 把数据物化
第7堂课:深入实战RDD
7.1 DAG
7.2 深入实战各种Scala RDD Function
7.3 Spark Java RDD Function
7.4 RDD的优化问题
第8堂课:Shark的原理和使用
8.1 Shark与Hive
8.2 安装和配置Shark
8.3 使用Shark处理数据
8.4 在Spark程序中使用Shark Queries
8.5 SharkServer
8.6 思考Shark架构
第9堂课:Spark的机器学习
9.1 LinearRegression
9.2 K-Means
9.3 Collaborative Filtering
第10堂课:Spark的图计算GraphX
10.1 Table Operators
10.2 Graph Operators
10.3 GraphX
第11堂课:Spark SQL
11.1 Parquet支持
11.2 DSL
11.3 SQL on RDD
第12堂课:Spark实时流处理
12.1 DStream
12.2 transformation
12.3 checkpoint
12.4 性能优化
第13堂课:Spark程序的测试
13.1 编写可测试的Spark程序
13.2 Spark测试框架解析
13.3 Spark测试代码实战
第14堂课:Spark的优化
14.1 Logs
14.2 并发
14.3 内存
14.4 垃圾回收
14.5 序列化
14.6 安全
第15堂课:Spark on Yarn
15.1 Spark on Yarn的架构原理
15.2 Spark on Yarn的最佳实践
第16堂课:JobServer
16.1 JobServer的架构设计
16.2 JobServer提供的接口
16.3 JobServer最佳实践
第17堂课:Spark项目案例实战
17.1 Spark项目的最佳架构模式
17.2 案例的介绍和架构
17.3 案例的源码实现
17.4 调优