資料科學早已不是新穎事物了,不過對資料品質的須要卻是這幾年才激增起來的。這可不是一陣時興或舊詞新用,而是一場革命。大至總統選舉,小至總部設在廚房餐桌的小守業公司的各種決策,已不再是建設於直覺與猜想之上,而是植根於切實可靠的資料。
資料科學開展突飛猛進,當初各種資料工具已經構成了一個巨集大的生態系統。我花了一個多月以嘗試給這個生態系統勾勒出一個明晰的輪廓,在接上去的文章裡會引見給大家。
資料科學本身效能交叉,許多資料公司與工具難以歸類。但總體來說,它們分屬資料專家任務流程中的三個主要部分:資料獲取、資料解決、資料分析。
為何要勾勒這個資料生態資訊系統?
我花了少量時間與資料專家交換,瞭解他們的任務流程、難點及處置打算。資料科學工具不可勝數,這個生態系統表當然無奈將其逐一列舉,不過最罕見的軟體、公司及推進這些工具開展的開源順序都已蘊含其中。
資料專家不能只生存在R言語或Excel表格裡。他們需求工具來獲得品質拔尖且可用於預測分析的資料。其實我感覺這正是統計學家和資料專家的區別所在。在我看來,統計學家利用資料停止迴歸分析。而資料專家需求實在獲取資料、停止迴歸分析、溝通結果、展示形式,並逾越所在機構過後的侷限,立足於制高點帶領大家尋求實在可行的打破開展。鑑於他們需求兼顧整個資料通道,我宿願這個資料生態系統可能列舉出資料專家門罕用的重要工具和利用方法,以及工具之間的互動聯絡。
如今乾貨來了!
第一部分:資料來源
資料是整個資料生態系統的源頭。總的來說,資料來源可分為資料庫、運用和第三方資料三類。
資料庫
結構化資料庫早於非結構化資料庫出現。結構化資料庫每年有約250億美元的市場,你可能在資料生態系統圖裡看到婦孺皆知的Oracle,和一些新創公司譬如MemSQL等。結構化資料庫儲存有限的資料列,普通由結構化查問言語(SQL)運轉,用於資料可靠欠缺至關重要的畛域,比如說財政和經營。
對結構化資料庫有一個重要假定,那就是查問資料時必需能失去分歧且欠缺的結果。想一想誰絕對需求這樣一種結構化資料庫?對了,就是你的銀行。它們儲存賬戶資訊、個體姓名、借款等等,必需隨時候毫不差地知道你賬戶中的金額。
而另外一種則是非結構化資料庫。道理之中,非結構化資料庫是由資料專家們開拓的,由於資料專家眼中的資料與賬戶並不相反。資料專家不太在意查問結果絕對分歧,他們更關注資料的靈敏性。因此,非結構化資料在許多方面升高了對資料儲存和查問的要求。
很多非結構化資料庫是谷歌獲失利利的間接產物。谷歌嘗試把網際網路儲存在資料庫中,高頻交易合法性,其野心和工程之巨集大可想而知。MapReduce是一種用於這種資料庫的技術,只管它必定程度上沒有結構化查問言語 (SQL)那麼強大,然而使用者可能依據需求來調整和擴大它們的資料。MapReduce的資料利用甚至已經超出了谷歌的初始預期。比如如今谷歌可能在一切網站間查問,並根據網站之間的互相連結來調整搜查結果。這種可量化的靈敏查問使谷歌獲得了渺小的競爭劣勢,因此雅虎和其餘公司以鉅額投資來開發這種技術的開源版本,名叫Hadoop。
此外,非結構化資料庫通常所需的儲存空間通常更小。在過去資料儲存十分低廉,因此幾年前,一些主要的網際網路公司不得不每隔幾個月就清空一次資料庫。如今這種情況已難以構想了。
從強大的引薦引擎,到世界級的翻譯系統,到令人難以置信的存貨治理,都建設於這些資料之上。非結構化資料庫普通來說沒有結構化資料庫那麼精確,但關於許多運用(尤其是資料科學界),這個折衷是值得的。舉例來說,比如你的非結構化資料庫在100個機器上運轉,然而其中有一個當機了。這時你僅用99臺機器(而非100臺)來決議向使用者引薦觀看一部特定的電影,也齊全可行。這種型別的資料庫看重靈敏性,量化以及速度,哪怕不能隨時保障齊全精確。
還有一個更有名的例子。一個軟體公司建立了一個基於Hadoop的非結構化資料庫軟體Cloudera。來看看它有多大的生長空間吧:7年前,我接到風投的電話,他們預期Cloudera在寰球有10到15家公司的市場,去年Cloudera已獲得了將近10億美元的融資。
隨著資料專家取代財務和會計,成為最主要的資料生產者,資料庫將會越來越走進每一個體的生存 。
商業運用
十年前,沒有人想過能把重要的商業資料存在雲端,如見這卻早已成為了事實。這興許是商業的IT基礎結構的最大轉變之處。
我在資料庫生態系統中列出了四種主要的商業運用,區分是銷售、營銷、產品和生產者,每一種效能都有多種SaaS運用可供抉擇。SalesForce 應該是首先掀起這股趨向的並最先獲失利利的。他們把軟體開發的指標人群是終端使用者(銷售團隊),而非單個的技術長。這對他們的使用者十分有用,在此程式中,大家也能看到公司客戶可以信賴地把重要公司資料放在雲端。
銷售資料不再存在於使用者自己裝置的內部資料庫,而是被放在雲端,由努力於保障資料可用且鞏固的雲端公司提供效勞。其餘公司也紛繁效仿這種做法。當初基本上每個商業部門都有一個對應的資料運用。Marketo儲存營銷資料,MailChimp儲存電子郵件,Optimizely儲存A/B測試資料,Zendesk儲存顧客滿意度,諸如此類。
為什麼這是相干的呢?當初每個商業部門都有強大的資料庫,由資料專家分析並用於預測分析。資料量很大,卻零散地分佈在多個運用之中。比如說你在SugarCRM 中檢查某個生產者的資訊,然而當你想知道這名顧客的效勞記載時,需求去ZenDesk中檢查。而假設你想要知道他能否支付了最近的賬單,則要去查Xero。一切的資料都被存放在不同的地點,網站和資料庫中。
商業資料被轉移到了雲端,可能存放更多的資料了,然而這些資料被零散地存放在全世界的不同效勞器的不同運用裡。
第三方資料
第三方資料出現得比結構化和非結構化資料庫都早得多。Dun & Bradstreet從1841年就末尾賣資料了。隨著資料對每個機構都愈發重要,這個畛域也將會獲得長足的開展。
在資料庫生態系統圖中,我大體把第三方資料分紅四個畛域,區分是商業資訊資料,社交媒體資料,網頁爬蟲和地下資料。
商業資訊資料末尾最早。我上面提到了Dun & Broadstreet,商業資料購置對許多商業機構來說都至關重要。商業資料能回答一切B2B公司至關重要的效果:我們們的銷售團隊該找誰談?當初,這些資料更被裁減運用至網上地圖和高頻買賣等畛域。新創的資料賣方如Factual,不只售賣商業資料,更偏差於從這些高盈利的新型畛域起步。
社交媒體資料只管是新興產物,但開展很快。經過智慧PR公司對社交媒體中的文字作情感分析,營銷人員可以實在地瞭解到品牌熱度與影響力,並有效評價品牌價值。你可能從Radian6 和DatSift裡看到全副細節。
接上去我們們來看看網路爬蟲,我個體以為這是一個很有開展後勁的畛域。假設可以把一切網站都作為資料來源,由資料科學團隊開展和分析,真不知道還有多少新型商業和技術會由此而生。當初從事網路爬蟲的重要公司包含 import.io和kimono,我以為這個畛域將在接上去幾年呈現爆炸式的增長。
最後,當然還要提及群眾資料。假設沒有資料專家團隊的反對, 不知道奧巴馬總統能否還可以贏得2004年的大選,這能夠也是起初奧巴馬大力推進 Data.gov 的緣由。許多地方政府也緊隨其後。亞馬遜網路效勞 存放了許多驚人的群眾資料,囊括從衛星影像到坦然公司的郵件等各個方面。這些巨集大的資料系列可能協助擴充套件新型商業,訓練更智慧的演算法,並處置許多實踐效果。這個畛域開展快速,甚至出現了 Enigma.io 這種專門協助企業利用群眾資料的公司。
開源工具
開源資料儲存的種類激增,尤其是在非結構化資料的儲存方面,Cassandra, redistribute, Riak,Spark, CouchDB 和MongoDB 等都大受歡迎。它們多數專一於公司運用,另外也著重於資料工程的生態系統。經過這個互動式地圖 你將可能一睹最受歡迎的開源資料儲存及開採工具的概貌。