2019年大資料領域十大趨勢盤點

雲端計算頻道發表於2019-01-31

如今,幾乎每家企業都在大談數字化,推動數字化創新。其實,在整個變革過程中,資料才是最重要的一環。所以,“資料變成現代企業競爭的新石油資源”,這種說法一點都不誇張,大家都在試圖搶佔更多資料。但實際上,到今天為止,從大量收集資料到轉化為實際的資料價值,還有一定的挑戰。只有那些能夠解決大資料挑戰的企業,才能真正在數字化創新的成果中獲益。

那麼,2019年大資料領域到底有哪些新趨勢呢 ?本文總結了十大要點!

1. 資料管理仍然是一個巨大難題

大資料分析背後的邏輯,再清楚不過。在大量資料中發現隱藏的資訊模式,並透過機器學習模型發現這些模式,用於生產,以自動化模式進行操作。在必要時,還要重複清洗一些資料。

看上簡單,實際上從概念到投入生產環境,存在著巨大溝壑。特別對於初學者來說,從不同的資料庫收集資料需要ETL和很多專業的資料庫技能。清洗資料並根據大資料進行機器學習訓練,也需要大量的時間和金錢,尤其在使用深度學習技術時,挑戰更大。也就是,要想透過大資料探勘出有價值的內容,需要特殊技能,甚至需要一整套更高明的解決方案。正是這樣的原因,資料管理依然有提高的空間,資料工程師也因此成為最受企業賞識的職業角色。

2. 資料孤島問題激增

這不是一個很難理解的問題。在五年前,Hadoop正處於鼎盛時期,從那時開始,我們就在想把所有資料(用於分析和事務工作負載)合併到一個平臺上。由於種種原因,這一想法從未真正實現。其中最大的難題是,不同的資料型別有不同的儲存需求。關係型資料庫、圖形資料庫、時間序列資料庫、HDFS和物件儲存都有各自的優缺點。如果開發人員將所有的資料都塞進一個適合所有人的資料湖中,那麼他們就無法最大限度地發揮優勢。

在某些情況下,將大量資料收集到一個地方是有意義的。例如,像S3這樣的雲端儲存為企業應用提供了靈活且具有成本效益的儲存,而Hadoop可以用於非結構化資料儲存和分析。但對於大多數企業來說,他們採取的方式,只是選擇建立了新的架構平臺,當平臺越來越多,資料孤島問題也就隨之擴散。

3.流媒體分析技術迎來最具突破性的一年

處理新資料的速度越快,您的企業就會越好。這就是實時或流媒體分析背後的驅動力。但是現實情況是是,實現起來相當困難,而且成本也很高。現在,隨著企業分析團隊的成熟和技術的不斷進步,這種情況正在發生變化。

NewSQL資料庫、記憶體中的資料網格和專用的流分析平臺正在圍繞一個共同的功能聚合,即對傳入資料的超快處理,使用機器學習模型來自動化決策。如果再與Kafka、Spark和Flink等開源流框架中的SQL功能結合起來,企業就可以在2019年取得真正意義上的進展。

4. 資料治理帶來了風險

有些人把資料稱為“新石油”。它也被稱為“新貨幣”。不管拿什麼比喻,資料是有價值的,這一點已達成共識。但是,如果不小心對待,資料治理會帶來風險。一項線上調查顯示,2018年有近6000萬美國人受到身份認證盜竊的影響,比2017年增加了300%。資料洩露問題已經將大資料推到了風口浪尖。

大多數企業都已經意識到,大資料的野蠻增長時代將結束。雖然暫時沒有人會對資料濫用處以罰款,但是可以肯定的是,這種行為將不再被大眾容忍。

5. 隨著技術的發展,大資料技能也在不斷變化

人力資源通常是大資料專案中最大的成本,因為人最終是構建、執行並讓大資料投入使用的執行者。找到擁有合適技能的人,對於將資料轉化為價值是絕對關鍵的,不管你使用的是什麼技術。

但隨著技術的進步,我們所理解的技能外延,也在發生著新變化。到2019年,你會看到把神經網路投入生產的人才,會更加炙手可熱。

在純粹的資料科學家中,Python繼續在語言中佔據主導地位。儘管對於瞭解R、SAS、Matlab、Scala、Java和C語言來說,只瞭解Python的人,還欠缺很多技能。

隨著資料治理的加速發展,資料管理員會成為最受歡迎的人才,能夠使用核心工具(資料庫、Spark、Airflow等)的資料工程師,將會看到新的發展機會。

實際上,自動化技術的進步,企業可以透過簡單的資料分析完成更多的工作。與統計和編碼方面的專業知識相反,資料和業務方面的知識可能會讓你在大資料的道路上走得比你想象的更遠。

6. 深度學習變得更紮實

深度學習帶來了前所未有的顛覆力,為人工智慧的高速發展奠定了鑑定的基礎。但到2019年,這一勢頭絲毫沒有減弱的跡象。企業將繼續嘗試像TensorFlow、Caffe、Keras、PyTorch和MXnet這樣的深度學習框架,以尋求將大量資料集實現商業化。

企業將把深度學習擴充套件到最初的用例之外,比如計算機視覺和自然語言處理(NLP),並找到實現這種強大技術的新方法。大型金融機構已經發現,神經網路演算法在識別欺詐方面比“傳統”機器學習方法更有效,對於新用例的探索將在2019年繼續前行。

7. Kubernetes擴充套件趨勢明

軟體定義世界,而作業系統可以控制軟體。對於開發人員來說,Kubernetes可以編排大資料的底層應用。

Kubernetes來源於谷歌,用於管理和編排雲中的虛擬Linux容器,它已經成為大資料生態系統中最熱門的技術之一。當多雲和混合部署變得越來越普遍,Kubernetes是將所有應用結合在一起的粘合劑。

大資料軟體供應商曾經把軟體執行在Hadoop上,現在卻想辦法執行在Kubernetes上。可以說,支援Kubernetes,已經成為軟體供應商的首要需求,甚至包括Hadoop供應商。

8.雲安全不容忽視

雲市場很大,而且越來越大。2018年,三大公有云供應商的增長率接近50%。尤其在有了大量的大資料工具、技術以及廉價的儲存空間之後,雲更成為最佳選擇。

到2019年,會有越來越多的小型企業和初創企業成為主流的公有云提供商的客戶,這些雲提供商正投入大筆資金建設隨時可執行的大資料平臺,其中包括自動學習、機器學習、分析資料庫和實時流分析等。

未來,規模較大的公司也會發現雲端計算難以抗拒,他們可能看重的不只是成本。目前,這些大公司上雲的阻力依然是安全問題,他們不敢把所有雞蛋放在一個雲的籃子裡。

9. 新技術將會出現

當今推動創新的許多主流大資料框架和資料庫都是由矽谷的網路巨頭建立的,並作為開源軟體釋出。沒有跡象表明大資料發展有什麼不好的訊息,如果非要說有什麼不同的話,那就是大資料創新正在加速。

2019年,大資料技術人員最好能在他們的大資料平臺架構中保留儘可能多的靈活性。由於效能的原因,我們很容易將應用程式與特定的技術結合起來,但是當出現更好更快的技術時,這可能會讓我們陷入另外一個坑。

所以,儘可能保持應用程式的松耦合狀態,但又不失緊密整合的能力,因為最終必須將原有的系統拆分並重新構建。

10. 大資料將推動智慧地球的發展

如今,智慧裝置正不斷地收集資料,並已遍佈於我們的周圍環境。

在消費者需求的驅動下,智慧裝置正以驚人的速度激增。在亞馬遜Alexa和谷歌Assistant這兩大領先平臺上,智慧裝置生態系統如雨後春筍般湧現,為消費者提供了將遠端訪問和人工智慧融入照明、暖通系統、門鎖和家電等一切事物的機會。

在5G無線網路的推動下,如今在智慧家居領域所發生的一切,將很快在全球範圍內發生。消費者將能夠與多種裝置互動,在我們所到之處提供新的個性化服務。

總之,2019年,大資料將在多個領域取得進展。雖然大資料和人工智慧帶來了大量的技術挑戰、法律問題和倫理障礙,但大資料帶給世界的好處實在太大,不容忽視。

來自 “ https://www.datanami.com/2019/01/21/10-big-data-tr ”,原文連結:http://blog.itpub.net/31545808/viewspace-2565352/,如需轉載,請註明出處,否則將追究法律責任。

相關文章