Cloudera Hadoop开发认证培训

课程介绍
通过Apache Hadoop开发课程的学习,学员可以全面掌握Hadoop的架构原理和使用场景,并通过贯穿课程的习题项目进行实战锻炼,从而熟练使用Hadoop进行 MapReduce程序开发。课程还涵盖了分布式计算领域的常用算法介绍,帮助学员为企业在利用大数据方面体现自身价值。

课程对象: 此课程面向企业软件工程师、数据库工程师、以及对Hadoop开发感兴趣的各类技术人员。

课程长度:3天

最新时间:定制课程(内训),人满开班(公开课)

传统的面对面授课方式。

 

课程大纲:

        模块一:Hadoop 基础编程
             第1个主题:Hadoop MapReduce
                    1.Hadoop JobTracker 剖析
                    2.Hadoop TaskTracker 剖析
                    3.Hadoop 任务提交流程剖析
             第2个主题: Hadoop MapReduce Streaming编程
                    1. Hadoop Streaming 和 Java MapReduce Api 差异
                    2. 使用 MapReduce 实现数据库功能
             第3个主题:MapReduce分布式程序
                    1.MapReduce流程
                    2.剖析一个MapReduce程序
                    3.基本MapReduceAPI 概念
                    4.驱动代码
                    5.Mapper
                    6.Reducer
                    7.API 使用Eclipse进行快速开发
                    8.新MapReduce API
             第4个主题:Hadoop 核心代码剖析
                    1. Hadoop Mapper 类核心代码剖析
                    2. Hadoop Reducer 类核心代码剖析
             第5个主题:HDFS分布式文件系统编程
                    1. Hadoop HDFS 剖析  
                    2. Hadoop NameNode 剖析
                    3. Hadoop DataNode 剖析
                    4. hadoop I/O 操作
                    5. 使用Hadoop HDFS API对HDFS编程
      模块二:Hadoop Mapreduce
             第1个主题:Hadoop Mapreduce高级编程
                    1.ToolRunner介绍
                    2.使用MRUnit进行测试
                    3.利用Combiners来减少中间数据
                    4.使用Configure和Close方法来进行Map/Reduce设置和关闭
                    5.编写Partitioner来优化负载平衡
                    6.直接访问Hadoop分布式文件系统(HDFS)
                    7.使用分布式缓存(Distributed Cache)
             第2个主题:MapReduce的优化
                    1. map优化
                    2. reduce优化
                    3. 小文件优化
             第3个主题:MapReduce的任务调度
                    1. Queue调度的使用
                    2. 公平调度的使用
                    3. 能力调度的使用
             第4个主题:MapReduce编程实战
                    1. Hadoop的join操作
                    2. Hadoop的二次排序
                    3. Hadoop的海量日志分析
             第5个主题:flume+hadoop日志收集实战
                    1. flume介绍
                    2. flume核心组件讲解
                    3. flume自带的组件分析
                    4. flume二次开发实战
      模块三:Hadoop集群与运维
             第1个主题:Hadoop的来源和动机
                    1.传统大规模系统存在的问题
                    2.对一种新的解决方案的需求
             第2个主题:Hadoop安装和部署准备
                    1.Hadoop系统模块组件概述
                    2.Hadoop试验集群的部署结构
                    3.Hadoop 安装依赖关系
                    4. Hadoop 生产环境的部署结构
             第3个主题:Hadoop集群安装和部署
                    1.Red hat Linux基础环境搭建 上机实验
                    2.Hadoop 单机系统版本 安装配置 上机实验
                    3.Hadoop 集群系统版本 安装和启动配置 上机实验
                    4.Hadoop 集群异常Debug 方法
                    5.Hadoop 集群简单测试方法
                    6.使用 Hadoop MapReduce Streaming 快速测试系统
             第4个主题:Hadoop组件详解
                    1.Hadoop HDFS 基本结构
                    2.Hadoop HDFS 副本存放策略
                    3.Hadoop NameNode 详解
                    4.Hadoop SecondaryNameNode 详解
                    5.Hadoop DataNode 详解
                    6.Hadoop JobTracker 详解
                    7.Hadoop TaskTracker 详解
             第5个主题:Hadoop集群配置详解
                    1.Hadoop core-site,hdfs-site,mapred-site 配置详解
                    2. Hadoop 高可用配置方法
             第6个主题:Hadoop集群配置:机架感知,开启压缩和任务均衡
                    1、Hadoop 集群安装和开启LZO压缩
                    2、Hadoop 配置集群具备机架感知
                    3、Hadoop 集群开启公平任务调度器
                    4、Hadoop 集群开启 能力任务调度器
             第7个主题:Hadoop 集群维护与管理
                    1、查看集群状态
                    2、HDFS数据管理
                    3、Mapreduce 任务管理
                    4、HDFS安全模式
                    5、模拟集群Namenode,jobtrack失效
                    6、添加删除节点
                    7、数据平衡
                    8、文件数据跨集群拷贝
                    9、集群升级
             第8个主题:Hadoop 集群规划和测试
                    1、集群规划(硬件,系统,网络)
                    2、集群性能测试
             第9个主题:Hadoop 集群监控和运维
                    1. 使用Ganglia 监控Hadoop集群
                    2. 使用Cacti 监控操作系统
             第10个主题:Hadoop HDFS高可用
                    1、Hadoop 元数据NFS备份方案
                    2、Hadoop SecondaryNameNode备份方案
                    3、Hadoop CheckpointNode备份方案
                    4、Hadoop BackupNode备份方案
                    5、Hadoop Cloudera HA Namenode 方案