IBM通過超級計算機使用大資料來解決大問題

IBM喜歡大資料,獲取的越多,就越能向使用者銷售出更多的伺服器、儲存和服務。但是由於IBM獲取的大資料容量已經過大,導致這家公司的研發人員很難駕馭這些資料。

舉例來說,IBM位於矽谷阿爾馬登研究中心的專家勞拉·哈斯(Laura Haas)去年就曾詢問同事,她為什麼不能使用更大的資料集。哈斯當時就曾表示,單是準備資料就花費了他80%的時間。哈斯意識到,IBM研究時間被資料分析耗費的越多,該公司的專家就會耗費更多的時間和精力用於擴充套件資料集,從而放緩研發的步伐。

很明顯,這種事情應當交付給專業的資料科學家來解決,但是這樣的迴圈只能讓情況變得更加糟糕。還有,它似乎有悖於大資料的常規,因為依據儲存能力的擴充套件或是感測器成本的下滑,大資料的價值並不受摩爾法則或是克來德法則(Kryder’s Law,每10.5年硬碟驅動器的資訊密度就要增長1000倍,也就是說,每13個月儲存密度就要翻一番)支配。

當然,大資料更適用於“麥特卡夫定律” (Metcalfe’s Law)。該定律指出,網路的價值等於網路使用者數的平方數;增加網路和其他通訊技術的接入使用者數量,將獲得巨大效益。 對IBM的研發人員而言,情況也確實如此。為解決這一問題,IBM矽谷阿爾馬登研究中心在去年秋季推出了“加速發現實驗室”(Accelerated Discovery Lab)。這個實驗室有著非常大、開放的空間,能夠裝配舒適的傢俱、白板以及許多的螢幕,更別提迴圈參與的專案團隊、系統管理員、訪問客戶、人類學家和IBM Watson超級計算機。正如這個實驗室的名稱所暗示的那樣,它的目標是使用多元化、鄰近、物理空間的最優組合破解程式碼。

目前擔任該實驗室技術和運營總監的哈斯對此表示,“我們把它稱為哺育‘戰略意外發現。’這就如同是在淋浴時或飲水機旁找到靈感一樣。我們希望把人們聚集在足夠寬闊的環境中,讓他們享受於此。通過利用房間的連線,資料的連線以及能夠掌握使用者正在做什麼的能力,培育意外發現。”

加速發現實驗室的第一個專案是利用Watson超級計算機在新領域的自然語言處理能力,藥物研究則是首選。通過與貝勒醫學院計算機生物學家的合作,IBM的資料科學家開始在數以百萬計的論文、專利和臨床研究中採集資料,並最終把他們的注意力集中在了腦腫瘤抑制基因TP-53上。在幾個月之內,研發團隊就找到了四個候選產品。“加速發現實驗室”展露額和專案開發總監傑夫·威爾瑟(Jeff Welser)表示,“通常找到一個產品就需要約一年的時間。”

這個速度確實已相當快,但能否更快一點?該實驗室的使命之一,便是對自有空間的研究假設。哈斯表示,“我們當前嘗試在專案開始就記錄下來,看看這些白板和螢幕能否會獲得明顯的成效。”

雖然IBM當前還沒有計劃在其它研發中心建造類似的實驗室,但是哈斯希望有朝一日能夠開發出一款軟體工具,幫助公司管理自有資源。

自:騰訊科技