大資料科學新發展展望:不得不知的四大趨勢

大資料學習發表於2019-06-04

從2012年開始,幾乎人人(至少是網際網路界)言必稱大資料,似乎不和大資料沾點邊都不好意思和別人聊天。從2016年開始,大資料系統逐步開始在企業中進入部署階段,大資料的炒作逐漸散去,隨之而來的是應用的蓬勃發展期,一些代表成熟技術的標誌性IPO在國內外資本市場也不斷出現。轉眼間,大資料幾年前經歷的泡沫正在無可爭議地轉移到人工智慧身上。可以說,在過去的一年,AI所經歷的共同意識“大爆炸”與當年的大資料相比,有過之而無不及。最近風口又轉移到區塊鏈上了,某種程度上也成為業內人士焦慮的一種誘因了。

大資料科學新發展展望:不得不知的四大趨勢

但無論技術熱點如何變換,我們能看到的是,隨著行業沉下心來進行實質的落地,大資料生態也越來越細分。今天就我和大家來談談大資料領域的一些新變化、新趨勢。

在這裡還是要推薦下我自己建的大資料學習交流群:529867072,群裡都是學大資料開發的,如果你正在學習大資料 ,小編歡迎你加入,大家都是軟體開發黨,不定期分享乾貨(只有大資料軟體開發相關的),包括我自己整理的一份最新的大資料進階資料和高階開發教程,歡迎進階中和進想深入大資料的小夥伴加入。

一、資料治理與安全 Data Governance& Security

就發展趨勢而言,這個可以放在第一位來講講。

多年來,資料已經在企業中不斷快速積累。物聯網(IoT) 更是不斷加速資料的生成。

對於許多企業來說,大資料的解決方案就是利用類似於開源的Apache Hadoop等技術作為基礎支援,建立資料湖(Data Lake),即建立整個企業的資料管理平臺,用於以本機格式儲存企業的所有資料。資料湖將透過提供一個單一的資料儲存庫來消除資訊孤島,整個組織都可以使用該儲存庫來進行業務分析、資料探勘等各種應用。當有了資料湖之後,大家會傾向於認為這東西將會成為一個全方位和萬能的大資料集,例如點選流資料、物聯網資料、日誌資料等都會被要求進入這個湖中,而這些資料很難處理的問題卻會被忽略。

但是,除非你知道資料湖裡具體有什麼,並且能夠訪問到合適的資料進行分析,否則資料湖再大也沒有意義。因此,最後大家都會意識到許多資料湖是表現不佳的資源,人們不知道其中儲存著什麼內容,如何進行訪問,或者如何從這些資料中獲取洞察力。

但是,方便地找到想要的東西、同時管理好許可權並不容易。除了資料湖以外,治理的另一個主題是以安全的、可審計的方式為任何人提供對可靠資料的便捷訪問。

所以,站在管理並使用好公司資料資產的角度而言,資料治理猶如公司的頂層制度和宣言一樣需要被重視,並且用相應的策略、流程等來進行落實。最終目的是透過實現資料治理,來提升資料管理、確保資料質量、形成開放共享的新局面等。此外,資料治理也是決策、職能以及操作流程有機組合的系統,並且人們對這些資料資產承擔責任。

二、致力於協作的資料工作臺發展

在大多數大型企業裡,大資料的採用是從少數獨立專案開始的,個推也是如此:譬如這裡做一點Hadoop叢集,那裡用一用分析工具,跑一個簡單業務模型,以及意識到需要設立一些新的職位(資料科學家、首席資料官)等等。

現在,業務場景越來越豐富,異質性也越來越突出,各種各樣的工具在整個企業範圍內得到了使用。在公司的組織範圍內,集中化的“資料科學部門”正在逐漸讓位於更加去中心化的組織,原因在於集中化的部門越來越走向瓶頸,也更容易造成資源的流失。

這個由資料科學家、資料工程師以及資料分析師組成的群體,正日益嵌入到不同的業務部門裡。因此,對於平臺來說需求已經很明顯了,那就是要讓一切都能協作到一起來,因為大資料的成功正是建立在設立一條由技術、人以及流程組成的裝配線基礎之上的。

因此,一些全新的協作平臺型別(譬如 Jupyter等)正在加快出現,引領著所謂的DataOps(與DevOps對應)領域的發展。

三、資料科學自動化

資料科學家(Data Scientist)依然是市場上炙手可熱的爭奪物件。但是我們在周圍卻很少見到這類人,哪怕是財富前1000強的公司也為無法招到更多“資料科學家”而感到困擾。而在一些組織裡,資料科學部門正在從使能者演變為瓶頸。

與此同時,AI的大眾化以及自服務工具的蔓延使得資料科學技能有限的資料工程師,甚至是資料分析師在執行一些基本操作時變得更加容易了,而這些操作直到最近仍然是資料科學家的領地。在自動化工具的幫助下,企業大量的大資料工作,尤其是那些簡單枯燥的工作,將由資料工程師和資料分析師進行處理,而不必麻煩有著深厚技術技能的資料科學家。當然,即便如此,資料科學家目前還不需要太過“恐懼”。

在可預見的未來裡,自服務工具和自動化模型將會“增強”資料科學家而不是消滅他們,會解放他們,讓他們把焦點放在需要判斷、創造力、社會化技能或者需要垂直行業知識的任務上,那樣才能更加體現科學家的名號。

四、大資料管理員的崛起

大資料管理員(BDA)也對標於資料庫管理員(DBA),雖然兩個英文字母只是變換了一下順序,但是其內涵相差甚遠。一個非常明顯的趨勢是,企業將對一個新崗位角色產生需求,即大資料管理員。DBA大家已經非常熟悉,但它與大資料時代下的資料管理員,有非常大的差別。大資料學習交流群:251956502

資料管理員處於資料使用者和資料工程師之間。為了取得成功,資料管理員在進行大資料系統的維護工作之外,還必須瞭解資料的含義以及掌握應用於資料中的一些技術。

資料管理員需要清楚整個組織內需要執行的資料分析型別,哪些資料集非常適用於這項工作,以及如何將資料從原始狀態轉換為資料使用者執行這項工作所需的形態和形式。資料管理員應使用像自助服務資料平臺這樣的系統來加快資料使用者訪問基本資料集的端到端流程,而無需製作無數的資料副本。

結語

以上四個方面是資料科學在實踐發展中提出的新需求,誰能在這些方面得到好的成績,誰便會在這個大資料時代取得領先的位置。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69917001/viewspace-2646689/,如需轉載,請註明出處,否則將追究法律責任。

相關文章