2022年數字資訊化培訓專案系列

大資料建模、分析、挖掘技術應用研修班的通知

各企事業單位：

隨著2015年9月國務院釋出了《關於印發促進大資料發展行動綱要的通知》，各型別資料呈現出了指數級增長，資料成了每個組織的命脈。今天所產生的資料比過去幾年所產生的資料大好幾個數量級，企業有了能夠輕鬆訪問和分析資料以提高效能的新機會，如何從資料中獲取價值顯得尤為重要，也是大資料相關技術急需要解決的問題。大資料是需要新處理模式才能具有更強的決策力、洞察發現力和流程最佳化能力來適應海量、高增長率和多樣化的資訊資產。資料建模不僅僅是任意組織資料結構和關係，還必須與終端使用者的需求和問題聯絡起來，並提供指導，幫助確保正確的資料正確使用正確的方法獲得正確的結果。

為響應科研及工作人員需求，根據《國務院關於推行終身職業技能培訓制度的意見》提出的“緊跟新技術、新職業發展變化，建立職業分類動態調整機制，加快職業標準開發工作”要求，中國管理科學研究院現代教育研究所（）聯合北京龍騰亞太教育諮詢有限公司特舉辦“大資料建模、分析、挖掘技術應用研修班”。本次培訓採用實戰培訓模式。

本次培訓由北京龍騰亞太教育諮詢有限公司、北京龍騰智元資訊科技有限公司承辦，並進行相關費用收取及發票開具。具體通知如下：

一、時間安排:

2022年8月5日 — 2022年8月9日北京（同時轉線上直播）

（5日報到，6日-9日上課）

中國管理科學研究院現代教育研究所北京龍騰亞太教育諮詢有限公司

二〇二二年四月二十日二〇二二年四月二十日

二、培訓目標

1.掌握大資料建模分析與使用方法。

2.掌握大資料平臺技術架構。

3.掌握國內外主流的大資料分析與BI商業智慧分析解決方案。

4.掌握大資料分析在搜尋引擎、廣告服務推薦、電商資料分析、金融客戶分析方面的應用。

5.掌握主流的基於大資料Hadoop和Spark、R的大資料分析平臺架構和實際應用。

6.掌握基於Hadoop大資料平臺的資料探勘和資料倉儲分散式系統平臺應用，以及商業和開源的資料分析產品加上Hadoop平臺形成大資料分析平臺的應用剖析。

7.掌握常見的機器學習演算法。

三、培訓專家

來自中國科學院計算技術研究所、清華大學、北京理工大學等科研機構和大學的高階專家，擁有豐富的科研及工程技術經驗，長期從事機器學習、資料探勘、大資料分析等領域的教學與研究工作。

四、參會物件：

各省市、自治區從事大資料分析、資料探勘、資料處理、資料建模等領域相關的企事業單位技術骨幹、科研院所研究人員和大專院校相關專業教學人員及在校研究生等相關人員，以及大資料研究廣大愛好者。

五、費用標準：

A類:5680元/人（含報名費、培訓費、資料費、證照費）。食宿可統一安排，費用自理。

1、培訓費由組織培訓班的施教機構負責收取並提供培訓發票。

2、上課前一週匯款可享受9折優惠，或報名5人以上可享受9折優惠，兩個優惠不同時享用。

3、參加線上、線下培訓學員均可享受影片錄播回放權益

B類：另加2300元考取工業和資訊化部教育與考試中心職業技術等級高階《大資料應用工程師》。

六、頒發證照：

A類：參加相關培訓並透過考核的學員，由中國管理科學研究院現代教育研究所頒發《大資料開發與應用工程師》（高階）崗位認證證照，可透過官方網站查詢，該證照可作為有關單位專業技術人員能力評價、考核和任職的重要依據。

B類：參加相關培訓並透過考核的學員，由工業和資訊化部教育與考試中心頒發《大資料應用工程師》（高階）職業技術證照，可透過官方網站查詢。該證照直接納國家人才資料庫，可作為有關單位專業技術人員能力評價、考核和任職的重要依據。

注：報到時請提交電子版彩照（大於20KB，紅藍底皆可）、身份證影印件和學歷證明覆印件各一份。

七、注意事項

1.指定報名郵箱：2374914377@qq.com。

2.報名成功後，會務組在報到前一週發具體報到通知及行車路線，並電話告知。

3.學員需自備電腦WIN10電腦64位系統，16G及以上記憶體，硬碟空間預留100G。

八、具體課程安排

時間安排課程大綱詳細內容實踐訓練

第一天

9：00-12：00

14：00-17：00

一、大資料概述 1.大資料及特點分析

2.大資料關健技術

3.大資料計算模式

4.大資料應用例項

二、大資料處理架構Hadoop 1.Hadoop專案結構

2.Hadoop安裝與使用

3.Hadoop叢集的部署與使用

4.Hadoop 代表性元件 1.Hadoop Single Node Cluster

2. Hadoop Multi Node Cluster

三、分散式檔案系統HDFS 1.HDFS體系結構

2.HDFS儲存

3.HDFS資料讀寫過程 1.建立與檢視HDFS目錄

2.從本地計算複製檔案到HDFS

3.將HDFS檔案複製到本地計算機

4.複製與刪除HDFS檔案

5.Hadoop HDFS Web瀏覽HDFS

四、分散式資料庫HBase 1.HBase訪問介面

2.HBase資料型別

3.HBase實現原理

4.HBase執行機制

5.HBase應用

第二天

9：00-12：00

14：00-17：00

五、MapReduce 1.MapReduce體系結構

2.MapReduce工作流程

3.資源管理排程框架YARN

4.MapReduce應用

六、Spark 1.Spark生態與執行架構

2.Spark SQL

3.Spark部署與應用方式 1.Python Spark 安裝

2.本地執行pyspark程式

3.在Hadoop YARN 執行pyspark

4.Spark Web UI

七、IPython Notebook執行Python Spark程式 1.Anaconda

2.IPython Notebook使用Spark

3.使用IPython Notebook在Hadoop YARN模式執行 1.在不同模式執行IPython Notebook執行Python Spark命令

2.Python 程式開發

八、Python Spark整合開發環境 1.Python Spark整合開發環境部署配置

2.Spark資料分析庫MLlib的開發部署 Spark MLlib應用程式示例

第三天

9：00-12：00

14：00-17：00

九、Python Spark決策樹二分類與多分類 1.決策樹原理

2.大資料問題

3.決策樹二分類

4.決策樹多分類 1.蒐集資料

2.資料準備：匯入並轉換資料、提取特徵欄位、提取標籤

3. Python Spark建模，訓練模型

4.預測資料

5.評估資料，給出評價指標並得到評估結果

十、Python Spark支援向量機 1.支援向量機SVM 原理與演算法

2.Python Spark SVM程式設計 1.資料準備

2.建立SVM模型，訓練模型

3.評估引數並找出最優引數

4.根據模型進行預測

十一、Python Spark 貝葉斯模型 1.樸素貝葉斯模型原理

2.Python Spark貝葉斯模型程式設計 1.建模貝葉斯模型，並進行對引數估計

2.訓練模型，得到最優引數

3.根據模型進行預測

十二、Python Spark邏輯迴歸 1.邏輯迴歸原理

2.Python Spark邏輯迴歸程式設計 1.Python Spark邏輯迴歸建模

2.根據模型進行分類

第四天

9：00-12：00

14：00-17：00

十三、Python Spark迴歸分析 1.大資料分析

2.資料集介紹

3.Python Spark迴歸程式設計 1.資料準備

2.訓練迴歸模型

3.建立評估指標

4.訓練迴歸模型，並找到最優引數

5.根據模型進行預測

十四、Spark ML Pipeline 機器學習流程分類 1.機器學習流程元件：StringIndexer、OneHotEncoder、VectorAssembler等

2.使用Spark ML Pipeline 機器學習流程分類程式設計 1.資料準備

2.建立機器學習Pipeline流程

3.使用Pipeline流程訓練

4.使用PipelineModel預測

5.評估模型準備率

十五、Python Spark 建立推薦引擎 1.推薦演算法

2.推薦引擎大資料分析使用場景

3.推薦引擎設計 1.搜尋資料

2.準備資料

3.訓練模型

4.使用模型進行推薦

十六、專案實踐 1.日誌分析系統與日誌挖掘專案實踐

a、Hadoop，Spark，ELK技術構建日誌資料倉儲

b、網際網路微博日誌分析系統專案

1.推薦系統專案實踐

a、電影資料分析與個性化推薦關聯分析專案

學習人工智慧技術與諮詢，更多前沿技術等著你！

關於大資料的建模、分析、挖掘技術應用

相關文章