為什麼說 NLP 將是未來資料領域的珠峰?

dicksonjyl560101發表於2018-07-28

人工智慧或許是人類最美好的夢想之一。追溯到公元前仰望星空的古希臘人,當亞里士多德為了解釋人類大腦的執行規律而提出了聯想主義心理學的時候,他恐怕不會想到,兩千多年後的今天,人們正在利用聯想主義心理學衍化而來的人工神經網路,構建的超級人工智慧成為最能接近夢想的聖境,並一次又一次地挑戰人類大腦認知的極限。


在以大資料、雲端計算為背景的技術框架支撐下,網際網路發展極為迅速,過去一個技術或者行業熱點從誕生到消亡需要幾年乃至更長的時間,但是最近幾年,其生命週期在不斷縮短,大多數的熱點從產生到消亡只需要1-2年,有些僅僅是半年甚至幾個月的時間。


網際網路行業越來越凸顯出快魚吃慢魚的特點。從技術本身也有體現,比如2012-2014年是移動網際網路的熱潮,Android 和 iOS App 開發工程師當時非常流行。隨後,2015大資料、雲端計算之年,2016年後大資料時代,2017年被稱為人工智慧元年,2018年炒得最火的是區塊鏈和幣圈。 在網際網路以這種迅雷不及掩耳之勢的發展速度下,作為初學者就很容易被各種技術概念迷惑,找不到自己想要的突破口和深入的領域,即便是計算機從業者有時候也分不清到底如何定位自己未來的技術方向。


資料領域的發展將何去何從?


首先,我們從中國網際網路的四大浪潮說起。


網際網路從1994年誕生(加入國際網際網路)到現在才短短的24年,就在這24年裡,我們經歷了四次非同凡響、一次比一次更徹底的發展大高潮。

第一次網際網路大浪潮(1994年—2000年),以四大門戶和搜尋為代表,能做網站的工程師就可以被稱為技術牛人;

第二次網際網路大浪潮(2001年—2008年),從搜尋到 PC 端社交化網路的發展,我們的社交形態發生了根本的變化,從線下交流正轉變為線上交流,大量的資料開始生成;

第三次網際網路大浪潮(2009年—2014年)PC 端網際網路到移動網際網路,此時各種 App 如雨後春筍般的冒出來,儘管後來有很多 App 都死了,但是移動網際網路幾乎顛覆了整個中國老百姓個人生活和商業形態,改變著我們每一個人的生活、消費、社交、出行方式等。

第四次網際網路大浪潮(2015—至今),是在前三次發展基礎上,以大資料、雲端計算為背景發展起來的人工智慧技術革命,分散式計算讓大資料處理提速,而昔日隕落的巨星深度學習此刻再次被喚醒,並很快在影像和語音方面取得重大突破,但在自然語言方面卻顯得有些暗淡,突破並不是很大。儘管有很多人都去從事計算機視覺、語音等方面的工作,但隨著 AI 的繼續發展,NLP 方向正顯得越來越重要。


接著,我們總結一下資料領域成就和挑戰。


有一個不可否認的事實,當前從事網際網路的人們已經制造出了海量的資料,未來還將繼續持續,其中包括結構化資料、半結構化和非結構化資料。我發現,對於結構化資料而言,在大資料、雲端計算技術“上下齊心”的大力整合下,其技術基本趨向成熟和穩定,比如關係型資料庫以及基於 Hadoop 的 HDFS 分散式檔案系統、Hive 資料倉儲和非關係型資料庫 Hbase,以及 Elasticsearch 叢集等資料儲存的關聯式資料庫或者 NoSQL,可以用來管理和儲存資料;基於 MapReduce、Spark 和 Storm、Flink 等大資料處理框架可以分別處理離線和實時資料等。而半結構化、非結構化的資料,除了以 ELK 為代表的日誌處理流程,過去在其它限定領域基於規則和知識庫也取得了一定的成果,因其自身的複雜性,未來更多領域應用都具有很大的困難和挑戰。


最後,我們看看國內外人工智慧領域的工業現狀。


今年5月19日我有幸在北京國家會議中心參加了2018全球人工智慧技術大會(GAITC)。在大會上,從中國科學院院士姚期智提出人工智慧的新思維開始,其重點講述了人工神經網路為代表的深度學習以及量子計算機將是未來發展的新思維;緊接著中國工程院院士李德毅分享了路測的學問——無人駕駛的後圖靈測試,提出未來無人駕駛挑戰應該是讓無人駕駛具有司機的認知、思維和情感,而不是當前以 GPS 定位和動力學解決無人駕駛的問題;接下來微軟全球資深副總裁王永東向我們展示的微軟小冰,大家一起見證了微軟小冰在社互動動、唱歌、作詩、節目主持和情感方面不凡的表現,而本人也真實測試了一下,小冰現在的表現已經非常優秀了。然而要達到一個成年自然人的水平,在某些方面還不能完全表現出人的特性。

 

人工智慧產業的快速發展,資本市場大量資金湧入,促使中國人工智慧領域投融資熱度快速升溫,這充分表明資本市場對於人工智慧發展前景的認可。《2018年人工智慧行業創新企業 Top100》釋出,據榜單顯示:進入2018年人工智慧行業創新企業前十名的企業分別是:百度、阿里雲、美圖秀秀、華大基因、科大訊飛、微鯨科技、華雲資料、愛馳億維、青雲、七牛雲。 作為人工智慧的一個重要組成部分,自然語言處理(NLP)的研究物件是計算機和人類語言的互動,其任務是理解人類語言並將其轉換為機器語言。在目前的商業場中,NLP 技術用於分析源自郵件、音訊、檔案、網頁、論壇、社交媒體中的大量半結構化和非結構化資料,市場前景巨大。


為什麼說未來資料領域的珠穆朗瑪峰是中文自然語言處理?


正是基於上面對中國網際網路發展的總結,對當前資料領域所面臨的挑戰以及資本市場對人工智慧的認可分析,未來資料領域的重點是自然語言處理技術及其在智慧問答、情感分析、語義理解、知識圖譜等應用方面的突破。對於我們國內中文來說,如何更好的把前面所說的應用在中文處理上,顯得更為重要和急迫。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/29829936/viewspace-2168542/,如需轉載,請註明出處,否則將追究法律責任。

相關文章