微軟亞洲研究院推出時空預測開源工具FOST,應對各行業共性預測需求

微軟技術棧發表於2021-12-25

(轉載自微軟研究院AI頭條)

編者按:2020年新冠疫情肆虐全球,為了控制疫情蔓延,找到應對措施,美國疾病控制中心公佈了大量疫情相關資料,向全世界頂級科研機構救助,希望科學家們可以利用技術能力,提供具有較高參考價值的預測資料,從而幫助制定有效的控制策略。微軟亞洲研究院基於時空預測技術,訓練了針對新冠疫情的預測模型,並於2020年下半年被美國疾控中心採納使用。在過去的近一年中,該預測模型的表現整體優於全球其它四十幾家科研機構提供的預測模型。日前,微軟亞洲研究院基於此前的技術積累,正式推出了面向全行業的時空預測開源工具 FOST。

什麼是時空概念?“時”是指時間序列,“空”即空間上的相互影響和聯絡。例如,物流行業每個站點的歷史派件量是時序關係,而各中轉/配送站點間又存在空間上的聯絡;再比如,在新冠疫情防控中,各級行政區域的每日感染病例數字,單獨來看是時序關係,而彼此之間的關聯則屬於空間關係。

“時空”因素在各行業中的廣泛存在,使時空預測成為眾多行業進行科學決策、優化效率的關鍵。近日,微軟亞洲研究院推出了面向全行業、具有高度通用性與易用性的時空預測開源工具 FOST(Forecasting Open Source Tool)。存在相關需求的企業和機構可以基於這一便捷易用的工具生成高效的時空預測解決方案。

2943bd0a73e3902144b6113ed53285aa.jpg

共性抽象:時空預測開源工具FOST

近年來在與行業夥伴的緊密合作中,微軟亞洲研究院的研究員們發現,時空預測需求普遍存在於物流、電信、醫療、交通等許多行業中。然而,當前大部分的時空預測還只是停留在研究階段,真正應用時,大家只是相互借鑑思路,想要解決實際問題還需要各自從頭開始一點點摸索,並沒有一個簡單、易上手的通用工具。

基於與多家企業在時空預測上的合作研究,微軟亞洲研究院的研究員們抽象出了行業共性問題,將多年的技術和經驗積累進行轉化,推出了具有極高行業通用性的時空預測工具 FOST。

df2cf86932d5714118423dddeb09885d.png
FOST 架構圖

要使時空預測工具兼顧通用性和可用性,需解決三個常見問題:第一是資料的質量問題,這就需要降低資料噪音,減小資訊缺失的影響;第二是時序上要能對趨勢、週期、突發等各類維度具有良好的包容性;第三則是在空間維度上打破以往預測模型只能單點預測的侷限性,能夠在空間結構中準確預測並利用關聯影響。

為此,微軟亞洲研究院為時空預測工具 FOST 整合了三大功能模組,來應對多種複雜時空條件下的預測:

  • 資料處理:資料降噪,提升資料質量
    在 FOST 中,資料的收集由使用者自主完成,這既保證了能夠基於多樣的場景資料訓練出不同的業務場景模型,又保證了使用者資料的隱私安全。之後,FOST 會針對存在噪音等問題的質量低下的資料進行清洗,提升資料質量,確保模型訓練的準確度。
  • 時序解碼:輕量級時序神經網路
    在時序預測上,微軟亞洲研究院採用了輕量級深度時序神經網路。
    深度時序神經網路主要用來捕捉實際業務場景中的複雜歷史規律。以物流行業為例,可能資料顯示某幾個站點在夏季派件量比平時多,那麼是否就可以推測出下個夏天派件量同樣會上漲呢?實際的關聯關係通常並不是這麼簡單就可以推斷出來的。深度時序網路的作用就是找出其中的複雜關聯和細節規律。
    但深度時序神經網路往往面臨訓練速度慢,對於噪聲敏感的問題。同時在資料量不充足的情況下,容易過擬合訓練資料。因此,微軟亞洲研究院在深度時序神經網路的基礎上通過對時序資料降維,使結構輕量化,從而加速訓練效率並穩定預測結果。
  • 空間解碼:圖神經網路構建層次圖
    在空間層上,微軟亞洲研究院採用了圖神經網路,通過節點間的空間聯絡,來建模訊號變化在空間上的相互影響和關聯。例如在疫情資料預測中,一個地區的疫情結果會受到其他區域,尤其是相鄰地區的影響,所以預測時也不能忽略空間上的關聯。對此,微軟亞洲研究院利用圖神經網路,在預測疫情發展資訊時,也將其他省市的資訊參考進來,進一步提升預測的精度。引入圖卷積網路後,無論是針對縣區的細粒度預測,還是省市級別的粗粒度預測,結果的準確性都大大提升。

微軟亞洲研究院副院長劉鐵巖表示,“FOST 不是一個自上而下的研究產物,也並不是一開始就有明確計劃要進行研發的,而是經過與產業界的深度接觸後,我們發現了很多行業在時空預測方面存在的共性需求,包括問題挑戰、解決方案等多個層面。因此,我們決定將共性問題抽象出來做成一個通用的開源工具,幫助更多企業藉助先進的人工智慧技術節省精力、成本,提升運營及創新效率。”

憑藉高通用性,應對眾多行業時空預測需求

在與時間、空間概念密切相關的行業中,時空預測工具 FOST 如何運作併發揮作用?

依然以較為典型的物流行業為例。如果物流企業希望通過 FOST 對某個大站點的次日派件量進行預測,首先,企業需要在底層的深度時序神經網路模組中輸入近一段時期的時間序列資料,包括這個站點的每日總出庫量和總收件量,及以該站點為終點或中轉站的派件量,之後模型的時序模組會先學習歷史資料中的特徵,並表示為隱空間中的一組向量。

接下來則需要進一步疊加相鄰站點的時序規律資訊進行空間上的資訊聚合。一個例子是站點與其相鄰站點之間往往存在這樣的關係——當相鄰站點快遞件數增加時,就會將一部分快件傳送給該站點。在這種情況下,當在時序上預測出該站點次日派件量為200件,同時又看到空間層上相鄰站點次日快遞件數預計會急劇增加時,就可以預估出該站點次日的派件量可能將遠超200件,這樣就將站點空間上的關聯關係也融入到了模型中。

320a46383527a180dfc2a64d498a479a.png

上述僅是物流行業的例子。很多其他行業場景,如網路基站流量預測、交通流量預測、電力輸送預測,與物流行業同樣存在共通的時空概念,時空預測工具 FOST 在這些行業上的作用原理也基本類似。

不過要注意的是,對於關聯性越大的節點,在預測時就越要優先考慮他們的關聯關係,否則如果將所有關聯資訊都進行無差別計算,那計算量將會巨大到難以承受。比如原本就已經有數千個地點,如果還要將所有地點間的關係都考慮進來,這樣的計算量對伺服器的要求會非常高,是一般企業所無法承擔的一筆開銷。對此,微軟亞洲研究院也做了很多優化,包括在圖隨機取樣時會優先考慮強關聯的資訊,從而提高整個預測工具的執行效率。

此外,在某些行業中,空間概念未必僅停留在地理空間層面。例如,在醫療行業的糖尿病患者病情預測中,同一類糖尿病的不同患者,就可視作多個不同空間。一個病人的病情發展規律可以作為歷史參考,幫助預測出其他患者的病情發展趨勢。

微軟亞洲研究院的時空預測開源工具給各行業使用者提供了一個簡單易用的深度學習“利器”。通過使用 FOST,使用者不僅可以有效提升業務場景預測的準確率,還可以避免從頭開發類似平臺的重複工作。未來,微軟亞洲研究院將在當前版本的基礎上,持續優化時空預測工具上模型的準確性和訓練效率,助力更多企業和機構通過構建時空預測能力創造更大的價值。

相關文章