一天征服Spark培训课程

课程介绍:

    Spark是当今大数据领域最活跃最热门的高效的大数据通用计算平台,基于RDD,Spark成功的构建起了一体化、多元化的大数据处理体系,在“One Stack to rule them all”思想的引领下,Spark成功的使用Spark SQL、Spark Streaming、MLLib、GraphX近乎完美的解决了大数据中Batch Processing、Streaming Processing、Ad-hoc Query等三大核心问题,更为美妙的是在Spark中Spark SQL、Spark Streaming、MLLib、GraphX四大子框架和库之间可以无缝的共享数据和操作,这是当今任何大数据平台都无可匹敌的优势。
    在实际的生产环境中世界上已经出现很多一千个以上节点的Spark集群,以eBay为例,eBay的Spark集群节点已经超过2000个,Yahoo!等公司也在大规模的使用Spark,国内的淘宝、腾讯、百度、网易、京东、华为、大众点评、优酷土豆等也在生产环境下深度使用Spark。2014 Spark Summit上的信息,Spark已经获得世界20家顶级公司的支持,这些公司中包括Intel、IBM等,同时更重要的是包括了最大的四个Hadoop发行商都提供了对非常强有力的支持Spark的支持。
    与Spark火爆程度形成鲜明对比的是Spark人才的严重稀缺,这一情况在中国尤其严重,这种人才的稀缺一方面是由于Spark技术在2013、2014年才被大陆这边的IT实际接触,另一方面是由于匮乏Spark相关的足够出色的中文资料和系统化的培训。为此,我们在2014 Spark亚太峰会上推出“一天征服Spark!”课程,课程内容涵盖了Spark企业级开发的所有精髓,内容循序渐进而深入浅出,适合所有对大数据感兴趣的朋友学习。

课程对象:

1,云计算大数据从业者;
2,Hadoop使用者;
3,系统架构师、系统分析师、高级程序员、资深开发人员;
4,牵涉到大数据处理的数据中心运行、规划、设计负责人;
5,政府机关,金融保险、移动和互联网等大数据来源单位的负责人;
6,高校、科研院所涉及到大数据与分布式数据处理的项目负责人;
7,数据仓库管理人员、建模人员,分析和开发人员、系统管理人员、数据库管理人员以及对数据仓库感兴趣的其他人员;

课程时长:1天

课程方式:

传统的面对面授课方式。

 

课程大纲:

第1堂课:Spark的架构设计
1.1 Spark生态系统剖析
1.2 Spark的架构设计剖析
1.3 RDD计算流程解析
1.4 Spark的出色容错机制

第2堂课:Spark编程模型
2.1 RDD
2.2 transformation
2.3 action
2.4 lineage
2.5宽依赖与窄依赖

第3堂课:深入Spark内核
3.1 Spark集群
3.2 任务调度
3.3 DAGScheduler
3.4 TaskScheduler
3.5 Task内部揭秘

第4堂课:深入实战RDD
4.1 DAG
4.2 深入实战各种Scala RDD Function
4.3 Spark Java RDD Function
4.4 RDD的优化问题

第5堂课:Spark的机器学习
5.1 LinearRegression
5.2 K-Means
5.3 Collaborative Filtering

第6堂课:Spark的图计算GraphX
6.1 Table Operators
6.2 Graph Operators
6.3 GraphX

第7堂课:Spark SQL
7.1 Parquet支持
7.2 DSL
7.3 SQL on RDD

第8堂课:Spark实时流处理
8.1 DStream
8.2 transformation
8.3 checkpoint
8.4 性能优化

第9堂课:Spark on Yarn
9.1 Spark on Yarn的架构原理
9.2 Spark on Yarn的最佳实践

第10堂课:JobServer
10.1 JobServer的架构设计
10.2 JobServer提供的接口
10.3 JobServer最佳实践

第11堂课:SparkR
11.1 SparkR的原理与实现
11.2 SparkR动手实践

第12堂课:Tachyon
12.1 Tachyon原理与架构
12.2 Tachyon动手实践

第13堂课:Spark多语言编程
13.1 使用Scala编写Spark程序
13.2使用Python编写Spark程序
13.3使用Java编写Spark程序

第14堂课:Spark项目案例实战
14.1 Spark项目的最佳架构模式
14.2 案例的介绍和技术实现