年薪500萬大資料工程師:講解大資料建模方法和經驗

大資料群722680258發表於2018-03-12

年薪500萬大資料工程師:講解大資料建模方法和經驗

大資料

前言:建模的過程和方法是不斷髮展和完善的。可以說,不同的資料型別、不同的業務場景和不同的需求將有不同的建模方法。我同意他們的觀點。但我想說的是,無論您的資料是什麼,在大資料中構建自己的資料模型是很正常的。

1。資料準備

兩。開展探索性資料分析

三。初始模型的建立

四。模型迭代構造

分享大資料學習交流群:722680258零基礎中高階視訊資料,歡迎加入不定期分享資源資料準備:在大資料計算中沒有太多的資料,相反的資料越多越好。只要資料量很大?不,我寧願要一小部分潛在礦石,我不會去同一堆山。當您的資料儘可能大時,一定要注意資料的質量。資料的質量通常體現在資料的時間維度和資料的粒度上。時間維度當然是儘可能長的,我們已經計算了降雨量,如果你要預測未來一年的降雨量,你得到一年的資料來預測明年的資料,我肯定沒有把這個地區過去一百年的資料預測到下一次的客觀降雨。至於資料的粒度,很多人認為資料的大小是小的,或者粒度是好的,我有不同的看法。我認為資料粒度反映在資料的劃分上,我們對已有資料進行劃分,能夠反映資料的粒度,如果能得到資料量,而維數是一樣的,與大量的資料分割資料關聯,另一個劃分是很粗糙的,結果是不言而喻的。

年薪500萬大資料工程師:講解大資料建模方法和經驗

工程師

探索性資料分析的實現:我們的資料分割槽是資料本身的反映。這一步允許您理解資料,獲得資料之間的關係,以及我們對資料的直覺。當然,我們對資料和直覺的理解與簡歷有關。如果您對現有資料一無所知,您如何進行探索性資料分析?我認為資料視覺化是資料分析的關鍵。與計算機相比,人腦是無法與計算機相比的。我們需要視覺化介面來顯示資料。這有助於我們分析資料,如SAS,IBM的視覺產品,SAP或qliketech,和圖片,已被商業化。對於資料勘探,它永遠不會停止。我認為圖形資料是一個很好的方式,但你可能有更好的方式來適合你。有一篇關於資料分析的文章。我記得一個新句子。我也同意作者的觀點。也就是說,什麼時候停止探索。探討這句話的意思,蕭邊振沒有停止,知道什麼時候停止探索,是整理你的資料來探索如何找到一個標準,不是你的資料在浩瀚的大海?

建立初始模型:這是至關重要的一步,無論你是否深入研究了資料,你都不能跳過一步。我沒有失敗。我只發現了10000條不成功的道路。“我沒有失敗,”愛迪生說。除非建立初始模型,否則該模型的潛在影響無法準確評估。這是一個很好的決策樹,實踐是檢驗真理的唯一標準。

年薪500萬大資料工程師:講解大資料建模方法和經驗

鼓勵師

模型迭代構造:這應該是最長的建模時間,或者是一個沒有階段的階段的結束。每一次迭代都是實踐的反饋。您要構建的模型是不同的場景。這是一個講故事的模型。故事越多越好。通常沒有具體的標準來確定你是否有更好的建模,但事實是我們的業務或需求將有一個強制性的時間視窗。例如,下個月客戶需要您的列表,所以您需要做的是在有限的時間內迭代您的模型。

相關文章