大資料尋求幫助!

一身柚子味發表於2019-04-02

**

急急急急!!!最近在做一個大資料的比賽,樣題求幫助呀!!!

**
根據專案背景及專案需求內容描述,Data Solution公司決定委派大資料應用研發部,以專案需求為基礎,充分利用你們掌握的大資料技術與應用專業知識及專業核心技能,與其他小組配合構建資料採集與分析環境,完成資料分析系統的研發,同時,高質量的完成招聘需求分析報告,向客戶交付。
為了能夠順利完成專案,公司委派的專案經理已經制定了專案整體計劃,完成了專案工作任務拆分。按照專案的整體工作任務安排,分配給你們小組的任務如下:
任務一:平臺運維(15分)
當前,平臺組已完成了資料分析叢集環境的初步部署,叢集採用完全分散式部署,包括1臺master、2臺slave,已完成HDFS、Hive、Yarn、Zookeeper四個基礎元件的部署工作,資料分析叢集可正常執行,要求你們小組完成資料採集元件Flume的部署及配置,確保安裝後的元件能夠正常執行。

  1. 在slave1主機安裝資料採集元件Flume並啟動,通過命令檢視程式,確認Flume程式已啟動,確定Flume命令是當前系統的合法命令。
  2. 配置Flume Agent,按照以下要求進行引數設定:
    (1)設定Flume監聽5555網路埠;
    (2)將從網路埠接收到的資料落地到hdfs以下目錄下:
    /raw_data/receive/
    (3)檔名稱格式以[YYYYMMDD]_為字首;
    (4)每接收10M資料落地一個檔案,當接收資料不足10M時,每15分鐘落地一個檔案。
  3. 執行Flume配置驗證程式(由競賽平臺提供),生成Flume驗證程式執行結果檔案。
    注:本部分僅考核參賽選手大資料平臺運維能力,為避免賽題錯誤傳遞,本部分完成的Flume配置結果不作為後續任務執行基礎,不影響後續任務執行,競賽平臺可為未完成配置的參賽隊伍提供可正確執行的平臺。
    任務二:資料採集與資料預處理(20分)
    使用競賽平臺提供的網路爬蟲伺服器,編寫、配置網路爬蟲程式碼,配置資料採集系統介面,完成從提供的資料來源中採集資料,提交到競賽平臺。
    注:本部分僅考核參賽選手資料採集技能,為避免賽題錯誤傳遞,本部分結果資料不作為後續任務輸入,不影響後續任務執行,競賽平臺可為未完成採集的參賽隊提供文字資料。
    由參賽選手分析專案需求,充分考慮後續競賽任務的延續性及可實施性,自行完成資料來源選擇、資料採集模式設計、工作步驟及流程設計,完成資料採集工作。
    任務三:資料清洗與分析(25分)
    使用Java語言編寫MapReduce程式對落地到HDFS的原始資料進行清洗(原始資料中已包含職位描述的分詞結果),組裝成指定的資料格式後將清洗後的資料載入到Hive資料倉儲中,使用HQL語句對資料進行聚類分析。
  4. 編寫MapReduce程式,讀取並解析落地到HDFS 上/raw/receive目錄下的檔案資料,清洗職位名稱為空、職位描述為空、詞列表為空的資料,將清洗後的資料儲存在HDFS上/clean/目錄下,清洗後的職位資料各欄位用|分割。
  5. 從清洗後的檔案將清洗後的資料載入到Hive表中。
  6. 執行HQL命令,完成以下資料的分析統計:
    (1)統計各崗位資料總量
    (2)以天為單位統計崗位名稱為大資料的資料總量
    (3)統計崗位名稱為大資料的關鍵詞的數量
    注:本部分僅考核參賽選手資料清洗及分析能力,為避免賽題錯誤傳遞,本部分資料清洗及分析結果不作為後續任務執行基礎,不影響後續任務執行,競賽平臺可為未完成資料清洗及分析的參賽隊伍提供資料統計結果。
    任務四:資料視覺化(20分)
    大資料平臺已將統計資料推送到資料視覺化系統資料庫中,且資料視覺化頁面HTML、CSS已編寫完成,後臺處理程式腳手架已搭建完成。要求使用Python語言基於Flask開源框架完成資料視覺化後臺處理邏輯,完成資料訪問及組織,基於Jinja2模板引擎完成前端資料處理,向前端ECharts元件傳輸資料,最終實現資料視覺化。
  7. 基於Flask-SQLAlchemy框架編寫資料庫對映模型,完成崗位數量統計資料庫表結構對映模型、以天為單位的崗位數量統計資料庫表結構對映模型、崗位關鍵詞數量統計資料庫表結構對映模型。
  8. 編寫視覺化後臺處理程式,按照三個資料統計圖表的資料格式進行資料封裝,並將封裝後的資料傳遞到Jinja2模板的自定義變數中。
  9. 在前端頁面中,使用Jinja2模板引擎獲取相關統計圖表資料並傳遞給前端頁面中相應的EChart元件。
  10. 執行程式,訪問本地視覺化網頁URL,檢視資料視覺化Web頁面。
    任務五:編制分析報告(15分)
    根據資料視覺化顯示內容,分別對職位數量統計結果、大資料崗位數量趨勢及大資料崗位技術技能關鍵詞進行分析,對大資料行業市場需求進行判斷,提出大資料技術與應用專業培養目標建議(包括人才規模建議及技術技能建議)。

相關文章