7天Hadoop企业级培训即Rocky的28堂课

课程介绍:

如何从企业级开发的角度,不断动手实际操作,循序渐进中掌握Hadoop,直到能够直接进行企业级开始,是困惑很多对云计算感兴趣的朋友的核心问题,本课程正是为解决此问题而生,学习者只需要按照一步步的跟着视频动手操作,即可完全无痛掌握Hadoop企业级开发。
同时本课程会对Hadoop的核心源码进行剖析,使学习者具备一定的修改Hadoop框架的能力,从而能够根据实际的业务情况来打造自己的框架。
Hadoop领域5个开创先河
1,全程覆盖Hadoop的所有核心内容
2,全程注重动手实作,循序渐进中掌握Hadoop企业级实战技术
3,在授课的过程中会对Hadoop的核心源码进行深度剖析,使得学员具有改造Hadoop框架的能力
4,具备掌握Hadoop完整项目的分析、开发、部署的全过程的能力
5,直接使用企业内部的Hadoop项目和咨询解决方案项目授课

培训目标:

如何从企业级开发的角度,不断动手实际操作,循序渐进中掌握Hadoop,直到能够直接进行企业级开始,是困惑很多对云计算感兴趣的朋友的核心问题,本课程正是为解决此问题而生,学习者只需要按照一步步的跟着视频动手操作,即可完全无痛掌握Hadoop企业级开发。
同时本课程会对Hadoop的核心源码进行剖析,使学习者具备一定的修改Hadoop框架的能力,从而能够根据实际的业务情况来打造自己的框架。
Hadoop领域5个开创先河
1,全程覆盖Hadoop的所有核心内容
2,全程注重动手实作,循序渐进中掌握Hadoop企业级实战技术
3,在授课的过程中会对Hadoop的核心源码进行深度剖析,使得学员具有改造Hadoop框架的能力
4,具备掌握Hadoop完整项目的分析、开发、部署的全过程的能力
5,直接使用企业内部的Hadoop项目和咨询解决方案项目授课

课程对象:

1,对云计算、分布式数据存储于处理、大数据等感兴趣的朋友
2,传统的数据库,例如Oracle、MaySQL、DB2等的管理人员
3,Java开发者
4,网站服务器端的开发人员

学员基础:

对云计算有强烈的兴趣,能够看懂基本的Java语法,无其它任何要求。

课程时长:7天

课程方式:

传统的面对面授课方式。

 

课程大纲:

Hadoop三问    
1、 Hadoop为什么是云计算分布式大数据的事实开源标准软件框架?
2、Hadoop的具体是如何工作?
3、Hadoop的生态架构和每个模块具体的功能是什么?

Hadoop集群与管理    
1、 Hadoop集群的搭建
2、 Hadoop集群的监控
3、 Hadoop集群的管理
4、 集群下运行MapReduce程序

彻底掌握HDFS(一)    
1、HDFS体系架构剖析    
2、NameNode、DataNode、SecondaryNameNode架构
3、保证NodeName高可靠性最佳实践
4、DataNode中Block划分的原理和具体存储方式
5、修改Namenode、DataNode数据存储位置
6、使用CLI操作HDFS
7、使用Java操作HDFS
8、Hadoop 2.2.0中集群的HA高可靠架构和配置详解

彻底掌握HDFS(二)    
1、RPC架构剖析    
2、源码剖析Hadoop构建于RPC之上
3、源码剖析HDFS的RPC实现
4、源码剖析客户端与与NameNode的RPC通信

彻底掌握MapReduce(一)    
1、MapReduce执行的经典步骤    
2、wordcount运行过程解析
3、Mapper和Reducer剖析
4、自定义Writable
5、新旧API的区别以及如何使用就API
6、把MapReduce程序打包成Jar包并在命令行运行

彻底掌握MapReduce(二)    
1、 Hadoop是如何把HDFS文件转化为键值对的?
2、 源码剖析Hadoop读取HDFS文件并转化为键值对的过程实现
3、 源码剖析转化为键值对后供Map调用的过程实现
4、 Hadoop的Streaming编程的原理及用法
5、 Streaming编程不用语言实战:C/C++、Shell、Python等

彻底掌握MapReduce(三)    
1、 Hadoop内置计数器及如何自定义计数器
2、 Combiner具体的作用和使用以及其使用的限制条件
3、 Partitioner的使用最佳实践
4、 Hadoop内置的排序算法剖析
5、 自定义排序算法
6、 Hadoop内置的分组算法
7、 自定义分组算法
8、 MapReduce常见场景和算法实现

Hadoop集群高级实践    
1、 动态增加Hadoop的Slave节点
2、 动态修改Hadoop的Replication数目
3、 使用命令管理Hadoop集群实践
4、 剖析Hadoop的安全模式
5、 日志剖析实践

第二阶段
实战ZooKeeper    
1、ZooKeeper架构剖析及集群搭建
2、使用命令行操作ZooKeeper
3、使用Java操作ZooKeeper

实战HBase    
1、 HBase架构实现
2、 HBase的数据模型和存储模型
3、 使用CLI操作HBase
4、 使用Java操作HBase
5、 使用MapReduce代码向HBase中导入批量数据

实战Pig    
1、 Pig架构
2、 使用Pig操作数据的内幕
3、 使用Pig实例数据

实战Hive    
1、 Hive架构剖析
2、 Hive在HDFS中存储实现
3、 使用MySQL作为Hive的Metastore
4、 内部表、分区表、外部表、桶表
5、 视图
6、 自定义Hive的函数

实战Sqoop    
1、Sqoop架构
2、实战Sqoop把MySQL中的数据导入到HDFS中
3、实战Sqoop把HDFS中的数据导入到MySQL中
4、定义Sqoop任务

实战Flume    
1、 Flume架构体系剖析
2、 Agent配置信息
3、 动态监控文件夹中文件的变化
4、 把数据导入到HDFS中
5、 实例监控文件夹文件的变化并把数据导入到HDFS中

第三阶段
电信日志项目    
通过电信商搜集用户接打电话、上网等产生的日志对用户的电话和网络行为进行分析和监控,初步贯穿前面讲解的主要内容,使大家熟悉Hadoop一个完整项目的分析、开发、部署的全过程
论坛项目    
该项目是为课程量身定做的,完整的贯穿前面讲授的Hadoop的所有核心内容,使用Hadoop在存储和分析论坛的数据的过程中让学习者进一步巩固Hadoop的项目开发能力
电商项目    
电商业日志流量分析项目,互联网企业对海量日志的分析是Hadoop应用的一个重要用途,也是对网站流量、客户行为分析的重要途径。该项目整合Hive、Hbase、Sqoop等常用组件,涉及从后台处理到前台呈现的每一个技术环节。包括:
 •业务需求介绍
 •数据建模
 •后台算法设计
 •后台业务处理
 •前台WEB展示等