關于舉辦 “Spark大數據處理與案例分析高級工程師”
實戰培訓班的通知
各有關單位:
當下是大數據時代,為構建大數據平臺,技術人員需要對分布式計算平臺有一定深入的理解和應用。MapReduce作為一個經典的分布式計算框架,已經廣為人知,且得到了廣泛的應用,但MapReduce自身存在很多問題,包括迭代式計算和DAG計算等類型的數據挖掘與機器學習算法性能低下,不能很好地利用內存資源,編程復雜度較高等。為了克服MapReduce的眾多問題,新型計算框架出現了。Spark已經被不少互聯網公司采用,大部分數據挖掘算法和迭代式算法在逐步MapReduce平臺遷移到Spark平臺中,包括阿里巴巴,騰訊,百度,優酷土豆,360,支付寶等互聯網公司已經在線上產品中使用spark,且取得了令人滿意的效果,另外,部分省份的運營商也正在嘗試使用spark解決數據挖掘和分析問題,部分銀行,如工商銀行,也正在嘗試spark平臺。因此*軟件行業產業培訓網決定開展“Spark大數據處理與案例分析高級工程師”實戰培訓班,本次培訓由中聯軟博(北京)科技有限公司具體承辦,望相關單位收到通知后積極參加。相關培訓事宜如下:
一、 培訓時間及地點
北京 上海 廣州 成都 常年開課
二、課程目標
本課程將為大家全面而又深入的介紹Spark、Hadoop平臺的構建流程,涉及Spark、系統基礎知識,概念及架構, Spark實戰技巧,Spark經典案例等。
通過本課程實踐,幫助學員對Spark生態系統有一個清晰明了的認識;理解Spark、系統適用的場景;掌握Spark等*級應用開發技能;搭建穩定可靠的Spark集群,滿足生產環境的標準;了解和清楚大數據應用的幾個行業中的經典案例,包括阿里巴巴等
三、培訓對象
各地*云計算物聯網產業相關負責人,各類 IT/軟件企業和研發機構的軟件架構師、軟件設計師、程序員。對于懷有設計疑問和問題,需要梳理解答的團隊和個人
四、師資介紹
張老師:阿里大數據高級專家,國內資深的Spark、Hadoop技術專家、虛擬化專家,對HDFS、MapReduce、HBase、Hive、Mahout、Storm、spark和openTSDB等Hadoop生態系統中的技術進行了多年的深入的研究,更主要的是這些技術在大量的實際項目中得到廣泛的應用,因此在Hadoop開發和運維方面積累了豐富的項目實施經驗。近年主要典型的項目有:某電信集團網絡優化、*移動某省移動公司請賬單系統和某省移動詳單實時查詢系統、*銀聯大數據數據票據詳單平臺、某大型銀行大數據記錄系統、某大型通信運營商*用戶上網記錄、某省交通*違章系統、某區域醫療大數據應用項目、互聯網公共數據大云(DAAS)和構建游戲云(Web Game Daas)平臺項目等。
五、頒發證書
參加相關培訓并通過考試的學員,可以獲得:
1.工業和信息化部頒發的《*計算機專業技術人才證書》-大數據處理高級工程師。該證書可作為專業技術人員職業能力考核的證明,以及專業技術人員崗位聘用、任職、定級和晉升職務的重要依據。
注:請學員帶一寸彩照2張(背面注明姓名)、身份證復印件一張。
六、培訓特色
本課程將分別從理論基礎知識,系統搭建以及應用案例三方面對spark進行介紹。
采用循序漸進的課程講授方法,首先講解Spark系統基礎知識,概念及架構,之后講解Spark實戰技巧,*詳盡地介紹Spark經典案例,使培訓者從概念到實戰,均會有收獲和提高。
七、培訓費用及須知
培訓費6800元。(含培訓費、資料費、考試費、證書費、講義光盤費等)。需要住宿學員請提前通知,可統一安排,費用自理。
八、培訓大綱(3天課程)
課程模塊 課程主題 主要內容(內容可以根據學員的要求可以現場調整)
模塊一 Spark
生態介紹 ? Mapreduce、storm和spark模型的比較和使用場景介紹
? Spark產生背景
? Spark(內存計算框架)
? SparkSteaming(流式計算框架)
? Spark SQL(ad-hoc)
? Mllib(MachineLearning)
? GraphX(bagel將被代)
? DlinkDB介紹
? SparkR介紹
模塊二 Spark
安裝部署 ? Spark安裝簡介
? Spark的源碼編譯
? Spark Standalone安裝
? Spark應用程序部署工具spark-submit
? Spark的高可用性部署
模塊三 Spark
運行架構和解析 ? Spark的運行架構
? 基本術語
? 運行架構
? Spark on Standalone運行過程
? Spark on YARN 運行過程
? Spark運行實例解析
? Spark on Standalone實例解析
? Spark on YARN實例解析
? 比較 Standalone與YARN模式下的優缺點
模塊四 Spark
scala編程 ? Scala基本語法與高階語法
? Scala基本語法
? Scala開發環境搭建
? Scala開發Spark應用程序
? 使用java編程
? 使用scala編程
? 使用python編程
模塊五 Spark
編程模型和解析 ? Spark的編程模型
? Spark編程模型解析
? RDD的特點、操作、依賴關系
? Spark應用程序的配置
? Spark的架構
? spark的容錯機制
? 數據的本地性
? 緩存策略介紹
寬依賴與窄依賴
模塊六 Spark 數據挖掘 ? Mllib的介紹
? graphX核心原理
? table operator和graph operator區別
? vertices、edges和triplets介紹
? 構建一個graph
? SparkR原理
? SparkR實戰
模塊七 Spark Streaming原理和實踐 ? Spark Streaming與Strom的區別
? Kafka的部署
? Kafka與Spark Streaming的整合
? Spark Streaming原理
? Spark流式處理架構
? DStream的特點
? Dstream的操作和RDD的區別
? 帶狀態的transformation與無狀態transformation
? Spark Streaming的優化
? Spark Streaming實例
? Streaming的容錯機制
? streaming在yarn模式下的注意事項
對于需結合第三方存儲機制的與流式處理方案
? 文本實例
? 網絡數據處理
? Kafka+Spark Streaming實現日志的實時分析案例
模塊八 Spark的優化 ? 序列化優化——Kryo
? Spark參數優化實戰
? Spark 任務的均勻分布策略
? Partition key傾斜的解決方案
? Spark任務的監控
? GC的優化
? Spark Streaming吞吐量優化
? Spark RDD使用內存的優化策略
? Spark在使用中的感想分享
模塊九 Spark的數據源 ? Spark與HDFS的整合
? HDFS RDD原理和實現
? Spark與Hbase的整合
? Spark與Cassendera整合
? Hbase RDD的分區讀取
? Hbase RDD的原理和實現
? Spark parallelism RDD的工作機制
模塊十 Spark Streaming應用及案例分析 ? Spark Streaming產生動機
? Spark Streaming程序設計
(1)創建DStream
(2)基于DStream進行流式處理
? Spark Streaming容錯與性能優化
(1)Spark Streaming容錯機制
(2)如何對spark Streaming進行優化
? Spark Streaming案例分析
基于Spark Streaming的用戶標簽系統,內容包括項目背景,項目架構以及實施方法
模塊十一 典型項目
案例實戰 ? 基于spark日志分析
? 個性化推薦系統:帶你揭開其神秘面紗
? 在線投放引擎
? 揭開淘寶點擊推薦系統的神秘面紗
? 淘寶數據服務架構—實時計算平臺