培訓內容 :
目標收益
本課程將為大家全面而又深入的介紹Hadoop和Spark平臺的構建流程,涉及Hadoop和Spark系統基礎知識,概念及架構, Hadoop和Spark實戰技巧(數據挖掘和機器學習),Hadoop和Spark經典案例等。
通過本課程實踐,幫助學員對Hadoop生態系統有一個清晰明了的認識;理解Hadoop系統適用的場景;掌握Hadoop等初 中級應用開發技能;搭建穩定可靠的Hadoop集群,滿足生產環境的標準;掌握如何應用hadoop和spark完成數據挖掘和機器學習任務;了解和清楚大數據應用的幾個行業中的經典案例。
培訓對象
各類 IT/軟件企業和研發機構的軟件架構師、軟件設計師、程序員。對于懷有設計疑問和問題,需要梳理解答的團隊和個人,效果*。
學員基礎
學員學習本課程應具備下列基礎知識: 1) 了解Java語言; 2) 了解Linux系統;
3) 數據挖掘基礎
課程大綱
?
主題 內容
大數據架構概述 1. 大數據層級結構
介紹大數據系統基本架構與流程
2. Hadoop生態系統概述以及版本演化
概要介紹Hadoop生態系統及其版本演化歷史,并給出hadoop版本選擇建議。
3. Spark生態系統概述
概要介紹Spark生態系統及其特點,并與Hadoop對比
數據收集系統Flume與Sqoop 介紹如何使用flume和sqoop兩個系統將外部流式數據(比如網站日志,用戶行為數據等)、關系型數據庫(比如MySQL、Oracle等)中的數據導入Hadoop中進行分析和挖掘
大數據存儲系統HDFS與HBase 1. 1. HDFS 2.0 原理、特性與基本架構
2. 理論:介紹HDFS 2.0原理與架構,以及使用方式
3.
4. 2. HBase原理,基本架構與案例分析
5. 理論:介紹HBase應用場景、原理和架構,介紹幾個HBase典型應用案例,包括互聯網應用案例和銀行應用案例。
分布式計算技術MapReduce與Hive 1. 介紹計算框架MapReduce基本原理,架構及程序設計方式
2. 動手編寫*個MapReduce程序
3. Hive基本原理及使用方式
分布式計算技術Spark 1. 介紹計算框架Spark基本原理,架構及程序設計方式
2. Spark程序設計
數據挖掘與機器學習 1. 常見的數據挖掘與機器學習算法
2. Hadoop數據挖掘庫mahout
3. Spark數據挖掘庫mllib
應用案例1:基于Hadoop的構建數據倉庫 1. 數據倉庫基礎介紹
2. 如何利用大數據系統構建數據倉庫
使用Flume+HDFS+MapReduce+Hive構建數據倉庫
3. 數據倉庫基本架構
4. 數據倉庫應用
如報表生成
應用案例2:用戶畫像系統 1. 什么是用戶畫像系統
2. 如何構建用戶畫像系統
使用Flume/sqoop+HDFS+HBase+MapReduce/Spark+redis構建用戶標簽系統
3. 用數據挖掘方式構建用戶標簽?
應用邏輯回歸、聚類、分類等機器學習和數據挖掘算法構建用戶標簽
4. 用戶畫像系統應用
用戶畫像系統在用戶信用等級分級、大數據營銷中、用戶流失預警、潛在用戶分析、異常檢測與分析等方面的應用
應用案例3:商品推薦系統 1. 什么是商品推薦系統
2. 商品推薦系統基本架構
使用Flume+HDFS +Spark+Redis構建推薦系統
3. 推薦算法
推薦算法詳解
應用案例4:數據挖掘系統 1. 什么是數據挖掘系統
2. 數據挖掘算法的使用
以Spark為主,如何設計和實現邏輯回歸、聚類、分類等機器學習和數據挖掘算法
3. 數據挖掘的典型應用