圖靈獎獲得者:資料科學家或將取代業務分析師?
商業智慧BI會給你一張大數字表格;資料科學家會給你一個預測模型那麼,如果你是這家公司的執行長,你寧願擁有哪一個?
你更願意擁有預測模型。
因此,在未來十年或二十年內將發生的事情是,資料科學家將取代商業分析師,成為研究零售資料的人。此外,資料科學家還將做所有這些其他的事情。因此,這將是一個更大的市場,它將使目前的商業業務分析師被淘汰。
在瞭解資料庫系統的基礎知識方面,可能沒有比Michael Stonebraker 博士更好的談話物件了,他與 Eugene Wong 在 1974 年建立了第一個工作關聯式資料庫系統 INGRES。更了不起的是,從那以後的40年裡,他一直跟上資料庫系統的發展步伐。在加州大學伯克利分校,他很快就為物件關聯式資料庫管理系統 Postgres 擴充套件了 INGRES 的工作。後來,他在麻省理工學院共同設計了 Aurora/Borealis 流處理引擎、C-Store 面向列的 DBMS、H-Store 事務處理引擎(後來成為 VoltDB)、SciDB 陣列資料庫管理系統,以及Data Tamer 資料管理系統。2014 年,計算機協會授予 Stonebraker圖靈獎,
這是他在thenewstack接受採訪摘要:
資料倉儲是面向歷史客戶的資料記錄。倉庫被商業智慧人員訪問,他們試圖實現更好的庫存週轉或更好地瞭解他們的客戶,或其他。而這與資料科學家想做的事情非常非常不同。
現在有一個新興的資料庫系統使用者社群,他們自稱為資料科學家。我最喜歡的資料科學應用的例子是我三四年前聽過的一個創業公司的商業推介。他們與拉斯維加斯的一家大酒店合作。該酒店希望將每晚的客房收入最大化。而這顯然是每個酒店都想做的事。你可以降低你的價格,把房間填滿,或者你可以收取高價,有很多空房間,或者你可以有動態定價,根據提前多久,你對人們收取多少錢。
因此,如果你是一個資料科學家:為什麼我不收集大量的歷史資料,為什麼我不收集大量的其他特徵,比如現在有多少遊客在拉斯維加斯,天氣如何,等等。
所以你有很多特徵,例如天氣,歷史上的平均溫度。和歷史酒店入住率。您獲得了很多特徵,並且您擁有儘可能多的歷史記錄。然後你想為這些特徵擬合一個預測模型。
預測模型希望根據所有這些不同的特徵來預測酒店入住率或您想要收取的價格。因此,如果您可以建立擬合模型,請檢視模型輸出,然後根據該預測模型的建議設定價格。
所以這是資料科學家所做的一種事情。這只是一種非常、非常、不同於資料倉儲或線上事務處理的活動。
假設我有一個資料倉儲,可以顯示現在的銷售情況。還有一整套商業智慧工具,可讓您查詢更多歷史資料並以任何您想要的方式對其進行切片和切塊,並獲得一些商業洞察力。所以這些人被稱為業務分析師。但是如果你把完全相同的資料交給資料科學家,他會說,我會為你建立一個預測模型,預測什麼會賣,然後你就可以做正確的事。
那麼,如果你是這家公司的 CEO,你更願意擁有哪一個?您寧願擁有預測模型。
通用電氣有 75 個採購系統,所有這些不同採購系統的原因是通用電氣非常分散或孤立。這 75 個採購系統中的每一個都有一個供應商資料庫。為了每年節省 1 億美元,你必須整合或統一這 75 個獨立構建的資料庫,總共有大約 900 萬個供應商。
這些都是獨立構建的。沒有全域性Key的概念,也沒有唯一供應商 ID 的概念。你必須用非常不完善的資料拼湊出同樣的客戶是誰。因為在您的資料庫中,它可能是 Staples, Incorporated,其地址位於 Gaithersburg。在我的資料庫中,它只是名為 Staples,地址在波士頓。
因此,目前的公司 Tamr 所做的是大規模統一這些不同的資料庫。它是一個 AI 機器學習系統,它將 Staples 的兩個表示拼湊在一起,這兩個表示實際上是同一件事。它會進行資料清理或主資料管理,他們編寫了 500 條規則。根據這 500 條規則,他們在 2000 萬筆交易中分類了 200 萬筆。
而 500 條規則大約是一個人所能掌握的規則。我從未見過有 5,000 條規則的規則系統,因為技術無法擴充套件。因為人類無法理解大量的規則。
機器學習會擴充套件,規則系統不會擴充套件:可以將將 200 萬條此類分類記錄用作預測模型的訓練資料,並將預測模型擬合到 2000 萬條支出記錄和分類 2000 萬條記錄使用 200 萬作為訓練資料。
另一個簡單的例子是歐洲的汽車公司豐田。因此,從歷史上看,豐田一直按國家/地區進行汽車分銷。所以西班牙子公司,法國子公司,等等。所以問題是,如果你在西班牙買了一輛豐田汽車,然後搬到法國,豐田汽車就會患上健忘症。因為你是西班牙客戶,而法國人根本不知道你是誰。
因此,豐田正在將 40 種語言的 250 個不同資料集中的 3000 萬歐洲客戶統一到一個統一的客戶資料庫中,以便他們能夠提供更好的客戶服務。所以另一個巨大的機器學習應用程式。
這種資料統一或資料整合或資料清理,資料準備,都是相同的東西,將不同的資料集放在一起。
相關文章
- 資料科學家或將取代業務分析師? - Michael資料科學
- 圖靈獎獲得者:大資料、AI、網路安全將是改變世界的“三大元素”圖靈大資料AI
- 49位科學家上榜,清華方璐、復旦周鵬等獲得科學探索獎
- (轉)陳寶權教授訪談圖靈獎獲得者Ivan Sutherland圖靈
- Python或將成資料科學家首選語言Python資料科學
- 圖靈獎得主 Bengio:深度學習不會被取代圖靈深度學習
- 資料分析師、資料科學家、大資料專家三個職位的區別資料科學大資料
- 資料科學家會被機器學習工程師取代嗎? - KDnuggets資料科學機器學習工程師
- 為什麼圖靈獎獲得者戴克斯特拉如此痛恨BASIC語言圖靈C語言
- 進階指南:如何從資料分析師轉型為資料科學家?資料科學
- 競技世界首席資料科學家巴川:資料科學,未來或將成為民族核心競爭力資料科學
- Twitter將向科學家開放全部資料
- 【資料科學家】如何成為一名資料科學家?資料科學
- 一個瘋子居然獲得北京市科學技術獎?
- Reddit網友談資料分析師和資料科學家的職業區別資料科學
- 圖靈獎得主John Hopcroft:電腦科學的新方向圖靈
- 《資料科學實戰》作者Cathy O'Neil訪談問題有獎徵集(圖靈訪談)資料科學圖靈
- 產品資料分析師的頭銜是否可重新命名為“資料科學家”? - Reddit資料科學
- 資料科學家必須知道的20件事!–資訊圖資料科學
- 【民間圖靈獎】讀《圖靈的祕密》寫讀後感獲圖靈水杯圖靈
- 淺讀 John Backus 圖靈獎獲獎演講論文圖靈
- 資料分析師與資料科學家有什麼不同? - Reddit資料科學
- 《機器學習實戰》作者Peter Harrington:如何成為一位資料科學家(圖靈訪談)機器學習資料科學圖靈
- 太陽能光伏公司:天合光能獲得660W+系列元件科學技術獎元件
- 2017圖靈獎出爐:Google母公司董事長和傑出科學家共獲殊榮圖靈Go
- 諾貝爾獎獲得者喬治·帕裡西對複雜系統的研究如何改變科學? - thewire
- 圖靈社群回饋讀者獲獎名單(第二期)圖靈
- 圖靈社群回饋讀者獲獎名單(第一期)圖靈
- 這七家BAT公司,誰家資料科學家更多BAT資料科學
- 如果倫敦地鐵圖是資料科學家畫的……資料科學
- ChaCha:獲得融資1400萬美元 或將成為Google顛覆者Go
- 業界 | 資料科學家“恐怖故事”資料科學
- 資料科學家的命令列技巧資料科學命令列
- 公民資料科學家的侷限性資料科學
- 資料科學家面試如何準備?資料科學面試
- 資料科學家準則(轉載)資料科學
- 數學最高獎項阿貝爾獎釋出,首位女性數學家獲獎
- 美國大資料產業地圖和資料科學家必備工具-資料處理大資料產業地圖資料科學