当前位置:艾威培训主页 > 云计算与大数据 > Hadoop实战培训 > Hadoop、yarn与Spark企业级最佳实践培训 >

Hadoop、yarn与Spark企业级最佳实践培训

课程介绍：

Hadoop、Yarn、Spark是企业构建生产环境下大数据中心的关键技术，也是大数据处理的核心技术，是每个云计算大数据工程师必修课。
大数据时代的精髓技术在于Hadoop、Yarn、Spark，是大数据时代公司和个人必须掌握和使用的核心内容。
Hadoop、Yarn、Spark是Yahoo！、阿里淘宝等公司公认的大数据时代的三大核心技术，是大数据处理的灵魂，是云计算大数据时代的技术命脉之所在，以Hadoop、Yarn、Spark为基石构建起来云计算大数据中心广泛运行于Yahoo！、阿里淘宝、腾讯、百度、Sohu、华为、优酷土豆、亚马逊等公司的生产环境中。
Hadoop、Yarn、Spark三者相辅相成
   Hadoop中的HDFS是大数据时代公认的首选数据存储方式；
   Yarn是目前公认的最佳的分布式集群资源管理框架；
   Spark是目前公认的大数据统一计算平台；

课程目标：

直接上手Hadoop工作，具备直接胜任Hadoop开发工程师的能力；轻松驾驭以Spark为核心的云计算大数据实战技术，从容解决95%以上的云计算大数据业务需求；
• 彻底理解Hadoop 代表的云计算实现技术的能力
• 具备开发自己网盘的能力
• 具备修改HDFS具体源码实现的能力
• 从代码的角度剖析MapReduce执行的具体过程并具备开发MapReduce代码的能力
• 具备掌握Hadoop如何把HDFS文件转化为Key-Value让供Map调用的能力
• 具备掌握MapReduce内部运行和实现细节并改造MapReduce的能力
• 掌握Spark的企业级开发的所有核心内容，包括Spark集群的构建，Spark架构设计、Spark内核剖析、Shark、Spark SQL、Spark Streaming、图计算GraphX、机器学习等；
• 掌握Spark和Hadoop协同工作，能够通过Spark和Hadoop轻松应对大数据的业务需求；
• 掌握企业线上生产系统中应用Spark /Hadoop成功案例，以及与现有企业BI平台整合的方案；

课程对象：

1，对云计算、分布式数据存储于处理、大数据等感兴趣的朋友
2，传统的数据库，例如Oracle、MaySQL、DB2等的管理人员
3，Java、C等任意一门编程语言的开发者；
4，网站服务器端的开发人员
5，在校大学生、中专生或者刚毕业的学生
6，云计算大数据从业者；
7，熟悉Hadoop生态系统，想了解和学习Hadoop与Spark整合在企业应用实战案例的朋友；
8，系统架构师、系统分析师、高级程序员、资深开发人员；
9，牵涉到大数据处理的数据中心运行、规划、设计负责人；
10，政府机关，金融保险、移动和互联网等大数据来源单位的负责人；
11，高校、科研院所涉及到大数据与分布式数据处理的项目负责人；
12，数据仓库管理人员、建模人员，分析和开发人员、系统管理人员、数据库管理人员以及对数据仓库感兴趣的其他人员；

课程时长：3天

课程方式：

面授
E-learning
远程授课

传统的面对面授课方式。

课程大纲：

主题一：Hadoop三问（彻底理解Hadoop）
1、 Hadoop为什么是云计算分布式大数据的事实开源标准软件框架？
2、Hadoop的具体是如何工作？
3、Hadoop的生态架构和每个模块具体的功能是什么？

主题二：Hadoop集群与管理（具备构建并驾驭Hadoop集群能力）
1、 Hadoop集群的搭建
2、 Hadoop集群的监控
3、 Hadoop集群的管理
4、集群下运行MapReduce程序

主题三：彻底掌握HDFS(具备开发自己网盘的能力)
1、HDFS体系架构剖析
2、NameNode、DataNode、SecondaryNameNode架构
3、保证NodeName高可靠性最佳实践
4、DataNode中Block划分的原理和具体存储方式
5、修改Namenode、DataNode数据存储位置
6、使用CLI操作HDFS
7、使用Java操作HDFS

主题四：彻底掌握HDFS(具备修改HDFS具体源码实现的能力)
1、RPC架构剖析
2、源码剖析Hadoop构建于RPC之上
3、源码剖析HDFS的RPC实现
4、源码剖析客户端与与NameNode的RPC通信

主题五：彻底掌握MapReduce（从代码的角度剖析MapReduce执行的具体过程并具备开发MapReduce代码的能力）
1、MapReduce执行的经典步骤
2、wordcount运行过程解析
3、Mapper和Reducer剖析
4、自定义Writable
5、新旧API的区别以及如何使用就API
6、把MapReduce程序打包成Jar包并在命令行运行

主题六：彻底掌握MapReduce（具备掌握Hadoop如何把HDFS文件转化为Key-Value让供Map调用的能力）
1、 Hadoop是如何把HDFS文件转化为键值对的？
2、源码剖析Hadoop读取HDFS文件并转化为键值对的过程实现
3、源码剖析转化为键值对后供Map调用的过程实现

主题七：彻底掌握MapReduce（具备掌握MapReduce内部运行和实现细节并改造MapReduce的能力）
1、 Hadoop内置计数器及如何自定义计数器
2、 Combiner具体的作用和使用以及其使用的限制条件
3、 Partitioner的使用最佳实践
4、 Hadoop内置的排序算法剖析
5、自定义排序算法
6、 Hadoop内置的分组算法
7、自定义分组算法
8、 MapReduce常见场景和算法实现

主题八：某知名电商公司Hadoop实施全程揭秘（具备掌握商业级别Hadoop的分析、开发、部署的全过程的能力）
通过电商公司现场案例展示商业级别一个完整项目的分析、开发、部署的全过程

主题九：YARN（具备理解和使用YARN的能力）
1、YARN的设计思想
2、YARN的核心组件
3、YARN的共组过程
4、YARN应用程序编写

主题十：ResourceManager深度剖析（具备深刻理解ResourceManager的能力）
1、ResourceManager的架构
2、ClientRMService 与AdminService
3、NodeManager
4、 Container
5、 Yarn的 HA机制

主题十一：NodeManager深度剖析（具备掌握NodeManager及Container的能力）
1、 NodeManager架构
2、 Container Management
3、 Container lifecycle
4、资源管理与隔离

主题十二：Spark的架构设计(具备掌握Spark架构的能力)
1.1 Spark生态系统剖析
1.2 Spark的架构设计剖析
1.3 RDD计算流程解析
1.4 Spark的出色容错机制

主题十三：深入Spark内核
1 Spark集群
2 任务调度
3 DAGScheduler
4 TaskScheduler
5 Task内部揭秘

主题十四：Spark SQL
1 Parquet支持
2 DSL
3 SQL on RDD

主题十五：Spark的机器学习
1 LinearRegression
2 K-Means
3 Collaborative Filtering

主题十六：Spark的图计算GraphX
1 Table Operators
2 Graph Operators
3 GraphX