度小滿的NLP技術突破能給小微企業帶來什麼?

naojiti發表於2021-03-16

一家企業的技術實力究竟怎麼樣,國際頂級賽事的比拼,絕對是一塊試金石。

最近,在微軟舉辦的MS MARCO 比賽中的文件排序Document Ranking(文件排序)任務中,來自度小滿金融科技的AI-NLP團隊就重新整理了記錄,超越三星、微軟、谷歌、史丹佛、清華大學等一眾參賽者,榮登榜首(截至2021年3月12日)。

度小滿的NLP技術突破能給小微企業帶來什麼?

2018年,度小滿金融才開始獨立運營,並組建了技術團隊。兩年多的時間,一家金融科技公司究竟是如何一步步實現了國際頂級賽事的能力飛躍?對於一家商業公司來說,學術領域的突破又意味著什麼,是否能轉化為真實的產業價值,改變普通人的金融生活?

這些都是“第一名”的光環背後,更值得我們關注的東西。

過去的成績:技術基因決定故事走向

看到這個新聞,大家的第一反應可能是“是微軟飄了還是谷歌提不動刀了”,這個比賽究竟是幹嘛的?

簡單說一下MS MARCO挑戰賽。它是自然語言處理NLP領域的權威比賽,基於微軟構建的大規模英文閱讀理解資料集MARCO(Microsoft MAchine ReadingCOmprehension),需要參賽者為使用者輸入的問題找尋到最貼切、最需要的答案,並對答案進行排序。

以這次度小滿技術團隊重新整理紀錄的文件排序Document Ranking(文件排序)任務為例,就至少面臨以下幾個挑戰:

首先,MARCO資料集採用的是來自搜尋引擎 BING 的使用者真實搜尋行為和點選日誌,最大程度地模擬和還原了使用者使用搜尋引擎的真實場景,因此資料標註並不完全,這會直接影響模型的效能表現;

度小滿的NLP技術突破能給小微企業帶來什麼?

其次,MARCO資料集規模非常大,包含數百萬個問題和對應的近千萬篇文件,而每一個問題都會提供多篇來自搜尋結果的網頁文件,相當於要在一堆文件中判斷出哪一個是使用者真正想要的,這需要機器對多篇文件進行綜合理解才能判斷出答案。

此外,MS MARCO挑戰賽由於權威性高、應用價值大,吸引非常多的工業界巨頭和學術機構來參與,競爭十分激烈。要贏過來自海外谷歌、韓國三星AI研究院、史丹佛大學,國內的清華大學等等的其他隊伍,難度更是直線上升。

而度小滿NLP團隊提交的模型,不僅以0.416的eval分數大幅領先其他團隊,還在第一名的位置維持了一個多月的時間,這不得不讓人好奇,他們到底是怎麼做到的?

經過訪談我們得知,度小滿NLP團隊首次提出了DML文字排序演算法,通過自主研發的自適應預訓練語言模型對query(使用者搜尋的真實問題)和document文字進行深度理解,利用了數十萬資料來訓練模型,經過召回、重排等多個階段,給出最終排序。

完成突破的過程毫無疑問是充滿艱苦的。度小滿的技術人員透露,參賽隊伍每天幾乎都工作10-15個小時,中間做了非常多的創新和嘗試,不斷優化和改進演算法。可話又說回來,技術創新最終比拼的還是“腦力”。度小滿金融2018年才開始獨立運營,兩年內就能積累起挑戰國際AI巨頭的實力嗎?

度小滿的NLP技術突破能給小微企業帶來什麼?

原來,度小滿在成立初始,就抱著將NLP等科技引入金融業務當中的理想,建立起了一支AI團隊。其中一部分人來自百度,眾所周知,百度是中國NLP領域的一面技術旗幟,曾獲得過包括國家科技進步獎在內的諸多權威獎項,這種技術基因也為度小滿所沿襲。而另一方面,度小滿也以十分嚴格的標準吸納技術人才,建構起了一支實力強勁的技術隊伍。

團隊建起來了,安心支援自家的核心業務就好,為什麼非得去國際賽場上“找虐”呢?

一方面,金融領域需要各種語言、語義相關的NLP技術和新方法來提升業務能力,來對風控模型、使用者畫像等進行升級,用更先進的演算法來提升專案,也是度小滿從成立之初就追求的。而國際頂級賽事,自然成了不容錯過的絕佳“練兵場”。

桃李不言,下自成蹊。度小滿在NLP領域的突破,看似奇異,背後卻有著綿長的技術信仰、強烈的業務訴求支撐其前行。

現實的困境:NLP如何為小微企業插上翅膀

所有過往,皆為序章。

比起度小滿為什麼要參加國際比賽,可能更讓人難以理解的是,重新整理紀錄對你我普通人來說有什麼意義?這種疑問,恰恰說明科技賦能產業的改造潛力遠比我們想象中更深。

詩人塞繆爾·約翰遜曾說,語言是科學的唯一工具。事實上,今天度小滿NLP領域所追尋的突破,也是在為金融科技和普通人之間搭建起一座橋樑。

度小滿所提交的模型,其所具備的強有力的文字理解和匹配能力,可以輕鬆應用於金融、徵信等多個領域中,賦能給中小企業者。

度小滿的NLP技術突破能給小微企業帶來什麼?

我們知道,中小企業融資難是個重要而複雜的問題。在現實中小微企業融資有著幾座難以逾越的高山:

1.融資成本高:由於小微企業的經營規模小,風險係數高,一般還沒有抵押物,許多金融機構不願意放貸,或是設定更高的利息水平;

2.風控難度大:資料碎片化,缺乏長期信用評級,無法完整地瞭解小微企業的整體情況,判斷其償債能力,往往難以獲得銀行和資本市場的信任;

3.週轉場景多,現金流壓力大,而傳統融資渠道稽核慢、放款慢,著急情況下很容易被黑灰產或不良小貸機構欺騙。

在近幾年的政府的工作報告中,多次提及要“幫助小微企業降低綜合融資成本”。而通過公開資料我們發現,度小滿針對小微企業主的年化貸款利率僅有3.65%。而全國銀行業新發放普惠性小微貸款的利率平均達到5.93%(2020年資料)。2020年,度小滿累積為小微企業主提供了3000億元的無抵押信用貸款,人均放款額同比增加35%。

更低的利率,不低的額度,度小滿憑什麼這麼敢?技術,就是所有不確定性中最大的確定性。

度小滿在MS MARCO比賽中所運用到的資料探勘、閱讀理解等NLP技術,就已經在度小滿的小微風控模型中投入了實際應用,通過對企業公章、徵信報告等非結構化資訊進行深度挖掘和理解,為風控模型提供了更豐富的特徵和資料維度,從而可以更高效精準地識別風險因素,提升小微企業的融資效率,幫助其抵禦黑產侵害。

度小滿的NLP技術突破能給小微企業帶來什麼?

舉個例子,在挑戰賽中,度小滿NLP團隊需要解決一個技術難題:沒有被點選的搜尋結果有可能是錯的,但也有可能是對,如果系統錯過了這些沒有被點選、但是正確的資訊,其排序結果可能無法呈現出最佳效果。

而在小微企業融資場景中,同樣存在很多這樣的資訊,比如有的使用者並沒有提供相關資訊或行為,系統就需要對這些沒有標註的樣本,準確地判斷出其風險等級。

推動AI、NLP技術走向產業側,或許是提升小微企業融資效率、降低融資成本的解決方案中,最重要的議題之一,

就拿度小滿來說,首先,藉助NLP技術跨越信任的高山。對非結構化資料的挖掘,能夠從經營行為、營業範圍、財務年報等等更多維度的資訊中加深對使用者的洞察,準確判斷出對方的資質,解決傳統風控模型樣本不足、評級不準的問題,為資本市場與小微企業之間建立信任;

其次,利用AI智慧化地識別出更多風險指標。傳統風控模型需要人根據業務需要和經驗,確定哪些特徵是有幫助的,而度小滿藉助AI可以讓機器自動去學習相關特徵,可以將資料得到充分利用,效率更高,徵信結果更準確。

度小滿的NLP技術突破能給小微企業帶來什麼?

最後,通過技術協同來提升金融服務的可靠性與安全性。AI、NLP領域的技術能力並沒有讓度小滿忽視傳統金融工具的價值,事實上,在讓智慧系統給出判斷的同時,度小滿也會結合一些業內成熟應用的統計方法作為參考,對小微企業的償債能力和風險係數進行綜合評估。

在度小滿的努力中,自然語言的奧祕被拆解,化成千行百業的智慧化升級契機,小微企業可以在複雜變幻的商業環境中更快速地獲得支援、尋覓新機。這或許可以回答很多人的疑問:為什麼企業要跟學術機構一起在頂級賽事上同臺競技?

答案就在於,每一次技術領域的點滴突破,都有可能改變一些行業的既有規則,化不可能為可能,助力更多小微企業飛向更光明的未來。

未來的企望:科技與產業的更多握手可能

可以看到,想要在資本市場和小微企業之間建構起信任橋樑,既需要技術積累,又要有對實體經濟、小微企業業態的真實洞察與服務理念,這恰好也是度小滿一直以來努力的方向。

除了前面提到的風控等場景之外,其實在小微企業的金融需求中,還存在許多痛點。比如需要反覆前往網點當面證明自己的資質、等待人工稽核等等,在這些環節中,度小滿也從使用者角度結合技術想了很多解決防範。

比如利用OCR技術將對方提供的電子化票的據進行識別處理,線上上就能稽核,實現申請秒批,有效緩解小微企業的資金壓力。

藉助AI預測,度小滿也會在貸後運用機器人流程自動化(RPA)還款提醒,降低後期的運維成本,也讓小微企業主避免因逾期還款而帶來的負面影響。

對於合作伙伴來說,藉助度小滿的技術能力,可以對更多潛在優質客戶進行準確識別,帶來業務上的良性增長。

也可以說,度小滿目前所扮演的,既是風險的守門員,也是增長的主推手,這是極為稀缺的產業角色。

度小滿的NLP技術突破能給小微企業帶來什麼?

從技術特徵上推演,NLP技術的潛力能夠落地的場景和需求還有很多。具體要如何激發出技術的能量,這個問題就交給度小滿去操心吧。對於小微企業主來說,只需要安心經營未來,不必為資金貸款終日憂心,這就是平凡至美的人間煙的火味。

技術的根系越深遠,越能歷久彌長地將價值輸送到每一個產業細枝末節當中,直至浸潤每一個人的心田。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31561483/viewspace-2763213/,如需轉載,請註明出處,否則將追究法律責任。

相關文章