每月都有數百萬人通過網路給出積極或者消極的醫療反饋。一些人會在論壇上抱怨無效的處方,或者討論哪種藥的治療效果最好;另外一些人則會在部落格上描述自己的症狀,以及減輕的方法。
MIT 孵化的初創公司dMetrics 相信這種網路聊天對於醫療行業來說是資訊寶藏。「在醫療領域有一個非結構化資料的巨大世界,這些資料需要被翻譯成有用的資訊。」Paul Nemirovsky說。他和 Ariadna Quattoni共同成立了dMetrics公司。
這家初創公司開發了一個平臺「DecisionEngine」,該平臺可以使用機器學習和自然語言處理(自然語言處理可以幫助電腦更好地理解人類對話)來挖掘數十億關於藥物、醫療裝置和其他醫療產品的對話中的有價值的資訊。這些討論出現在部落格、Facebook、Twitter、論壇中,甚至是新的文章或者視訊後的評論中。 從這些大量的雜亂無章的資料中,軟體可以從中洞察消費者的決策。
Nemirovsky 說,「從這些對話中,我們可以看到人們做了什麼、沒有做什麼、想要做什麼、可能會做什麼、在過去做了什麼,以及他們需要什麼、害怕什麼、期待什麼。」 Nemirovsky解釋說,如今 dMetrics 具有一個資料庫,這個資料庫包含了與病人報告的疾病、解決方案和結果相關的每一條公共評論,這些資訊來自於數百萬的網路資源中,涉及到了超過 14000 種醫療產品的資訊。
該公司的客戶(包括財富 500 強和非盈利組織)可使用 dMetrics 的軟體來回答一些具體的問題,例如有多少病人,出於什麼特殊的原因,在特定的時間內,使用一種具體的藥物,或者哪些消費者在考慮放棄該公司的藥物,轉而使用競爭對手生產的藥物。 儘管專注於醫療行業,dMetrics 公司(總部位於紐約布魯克林)也與金融和政治組織的消費者一起測試這個平臺。例如,信用卡公司可以分析為什麼消費者會偏愛某一些信用卡;政治學家可以使用這款軟體來分析人們關心的問題,以及人們對於自己觀點的堅持程度。 「對於所有型別的問題,你不僅需要理解人們的用詞,而且需要理解這些詞語背後的概念,」Nemirovsky 說。
解讀語言和表達
Nemirovsky 說,其他軟體通常都依賴本體(正式命名和定義)來感知整體人氣和品牌知名度。例如,軟體會統計某一個單詞(例如某一個具體藥物的名字)的提及次數,從而決定其是否重要,它也可以檢測「積極」詞彙或者「消極」詞彙。
「但是語言和表達並不是這樣工作的,作為人類,我們要更加複雜一點,」Nemirovsky 說。 據 Nemirovsky 介紹,DecisionEngine 可以更好地提煉出文字中的含義,因為這款軟體(現在包含了大約 200 萬行程式碼)一直被訓練用於識別不同的單詞和同義詞、解釋語法和語義。「線上文字的分析非常困難,其中包含了俚語、拼寫錯誤、Run-on sentences(指我們連線句子時沒有使用適當的標點符號來連線兩個或兩個以上的句子)和瘋狂的標點符號。討論也都是雜亂無章的。」
Nemirovsky 建議可以將這款軟體視為一個三級漏斗,當漏斗變得越來越窄時,分析就越精細。在漏斗的頂端,該軟體會挖掘出與特定醫療產品相關的單詞或者短語,並找到所有提及的地方,同時過濾出其中的一些噪聲資訊,例如假冒的網站和使用者或垃圾郵件。接下來的一級則涉及到將評論者的親身經歷與市場推廣材料和新聞等資訊相分離。最下面的一層則篩選出人們的決定和回應,例如使用或打算使用產品;經歷了害怕或者困惑;轉而使用一種不同的藥物等。
Nemirovsky 以網上論壇的評論為例進一步解釋了這款軟體,「例如,現在我在服用藥物 A,同時也使用 10 毫克的藥物 B,效果不錯。明天我要去見我的醫生,看能不能在我目前的藥物中加入藥物 C。就我個人而言,藥物 A 脾氣非常古怪,只有當我有好的睡眠質量、吃得好、鍛鍊好,並且每週使用該藥物次數有限的情況下才對我有效果。」 Nemirovsky 說,其他的軟體也許僅僅檢測其中的積極和消極詞彙(例如「好」、「不錯」Vs.「古怪」、「有限」等)。
而 DecisionEngine 卻可以識別更多的資訊,包括藥物 A 和藥物 B 的結合使用和效果;藥物 B 的用量;對藥物 C 的考慮;當個人生活習慣(例如「好的睡眠質量」)不同時藥物 A 的不同效果;評論者對三種藥物的同步使用;對專業醫護人員的拜訪計劃等。 這些關於資訊的深入分析使得客戶能很快採取措施。例如,如果消費者打算換藥,製藥公司希望瞭解換藥的原因是不是他們沒有正確使用藥物,並找到一種方式來解決這個問題。 Nemirovsky 說,最近,一家制藥公司使用 DecisionEngine 來確定一種抗過敏藥是否可以改善一小組病人的生活質量。通過分析這些病人的具體問題,該公司發現該藥物具有非常理想的積極效果,且效果遠超其他幾家競爭公司的產品。
該公司在監管提交階段(這是任何醫療產品進入市場的重要步驟)使用了這些研究結果。「監管部門在審批中考慮線上病人報告是很罕見的現象,」Nemirovsky 說。
人人都是專家
在 2000 年代後期的MIT,Nemirovsky(當時還是 MIT 媒體實驗室研究生)和 Quattoni(當時正在電腦科學與人工智慧實驗室學習)因為共同的遠大目標走到了一起:通過大資料讓每個人都成為專家。他們當時的計劃是將機器學習和自然語言處理結合起來,從而翻越非結構化資料這座大山,將相關資訊提供給任何想要這些資訊的人。
「如果你能夠在正確的時間為人們提供正確的資訊,那麼任何人都可以成為專家。」Nemirovsky 說。 在開發這款軟體的過程中,他們發現醫療對大多數人的日常生活是一個非常重要的話題。「就醫的病人情況非常複雜,有時病人拜訪醫生之後,可能更加不確定自身的情況。然後他們就會上網發聲,我到底怎麼回事?我應該怎麼辦?」
因此他們決定將研究重心集中在醫療行業,並向 MIT 創業指導服務中心(VMS)求助。MIT 創業指導服務中心為他們指明瞭一些創業公司需要解決的問題:籌資、運營、市場營銷、法律問題以及其他相關問題。「一些現在看起來非常明顯的問題,對於那時的我們來說真是一點都不明顯。VMS 幫助了我們很多,尤其是第一次創業的時候。」Nemirovsky 說。
Nemirovsky 畢業後不久,他和 Quattoni 便在波士頓創立了 dMetrics 公司,之後才將公司搬到了布魯克林。經過多年的打拼,該初創公司的僱員從兩人發展到了 16 人(其機器學習和自然語言處理的研究已經被學術期刊引用超過 4500 次),並且獲得了四項美國國家科學基金會的資助,用於繼續開發技術。
dMetrics 接下來的目標將其軟體應用到醫療、政治和消費金融領域之外的更多領域,旨在讓這些資料可以幫助到每一個人。Nemirovsky 說,dMetrics 的目標與早期在 MIT 時的目標並沒有太大差異,「我們的願景是讓每一個人都可以自由獲取專業知識。」