产品展示

全力为中小企业提供网页设计、网站建设等店铺详情装修设计、平面设计、品牌推广等高度定制服务

课程推荐

课程描述:

了解Apache Pig、Apache Hive及Apache Impala如何通过删选、连接进行数据转换和数据分析,以及利用其它常见技术自定义用户功能。

 

培训对象:

需要使用Hadoop来进行数据分析的数据分析员,商业分析员,开发员以及系统管理员。 

 

学员基础:

建议需具备SQL、简单Unix/Linux命令和脚本编程经验。无需Hadoop基础和经验。 

 

学习内容:

Apache Hadoop基础及数据ETL(包括数据提取、转换及加载)、如何通过使用Hadoop相关工具将数据载入Hadoop并进行分析处理
如何使用Apache Pig对多个关联的数据集进行join操作以及如何分析不同的独立数据
如何使用Apache Hive:通过定义合适的表来组织数据、执行各种数据变换、简化复杂查询
如何使用Impala来对存储在HDFS里的大规模数据进行实时和交互式的分析查询
如何根据数据分析任务来选择合适的数据分析工具

 

教学大纲:
 
简介
关于该课程 

关于 Cloudera 
课程的逻辑介绍 

 

Hadoop 基础
Hadoop的动机
Hadoop 概况
HDFS
MapReduce
Hadoop 生态圈
实验场景介绍
实验: 用Hadoop工具导入数据

 

Pig简介 
什么是 Pig?
Pig的特性
Pig使用案例
和Pig交互

 

用Pig进行基本数据分析
Pig Latin 语法
数据装载
简单数据类型
Field 定义
数据输出
表结构视图
数据过滤和排序
常用功能
实验: 用Pig 执行ETL流程

 

Pig处理复杂数据
存储格式
复杂/Nested嵌套的数据类型 
成群
处理复杂数据的内置功能
迭代成群的数据 
实验: 用Pig分析广告战役的数据 

 

Pig的多数据组操作 
集成多数据组的技术 
Pig链接多数据组
组操作
数据组分裂
实验: 用Pig分析离散的数据组 

 

扩展 Pig
用参数带来灵活性 
Macros 和 Imports 
UDFs 
Contributed Functions 
用其他语言和Pig一起处理数据 
实验: 用流处理和UDFs扩展Pig 

 

Pig 故障排查和优化 
Pig故障排查> 记录日志
使用Hadoop Web 界面
演示: 用Web 界面排查一个故障的任务
Data 采样和故障排查
性能简介
理解执行计划(Execution Plan) 
提高你Pig任务性能的窍门 

 

Hive简介
什么是 Hive? 
Hive 表结构和数据存储 
对比Hive和传统数据库 
Hive vs. Pig 
Hive 使用案例
>和Hive的互操作

 

Hive的关系数据分析
Hive 数据库和表
基本HiveQL 语法
数据类型
链接数据组 
通用内建功能
实验: 在Shell, 脚本和Hue上运行运行Hive 查询 

 

Hive 数据管理
Hive 数据格式
创建数据库和 由 Hive管理的表
向 Hive装载 数据
改变数据库和表
自治表格
用视图简化查询
排列查询结果
数据的访问控制
实验: Hive的数据管理 

 

Hive 的文本处理
文本处理简介
重要的字符串(String)功能 
使用Hive 的标准表达式(Regular Expressions) 
Sentiment Analysis and N-Grams 
实验: 通过敏感性分析(Sentiment Analysis)收获洞察

 

Hive 优化
理解查询性能 
控制任务执行计划
分区
Bucketing 
索引数据

 

Hive扩展 
SerDes 
用定制脚本完成数据转型 
自定义功能
Parameterized Queries 
实验: Hive的数据转型 

 

Impala 简介
什么是 Impala? 
Impala 和 Hive和 Pig的不同 
局限和未来方向
使用Impala Shell 

 

采样Impala分析数据
基本语法
数据类型
过滤, 排序, and Limiting Results 
链接和组队数据 
提升 Impala 性能
实验: Impala的交互式分析 

 

为任务选择最优的工具
对比 MapReduce, Pig, Hive, Impala和关系数据库

首页    全部课程    大数据专题    Cloudera 数据分析师培训