圖靈獎獲得者:資料科學家或將取代業務分析師?

banq發表於2022-02-12

商業智慧BI會給你一張大數字表格;資料科學家會給你一個預測模型那麼,如果你是這家公司的執行長,你寧願擁有哪一個?
你更願意擁有預測模型。
因此,在未來十年或二十年內將發生的事情是,資料科學家將取代商業分析師,成為研究零售資料的人。此外,資料科學家還將做所有這些其他的事情。因此,這將是一個更大的市場,它將使目前的商業業務分析師被淘汰。
 
在瞭解資料庫系統的基礎知識方面,可能沒有比Michael Stonebraker 博士更好的談話物件了,他與 Eugene Wong 在 1974 年建立了第一個工作關聯式資料庫系統 INGRES。更了不起的是,從那以後的40年裡,他一直跟上資料庫系統的發展步伐。在加州大學伯克利分校,他很快就為物件關聯式資料庫管理系統 Postgres 擴充套件了 INGRES 的工作。後來,他在麻省理工學院共同設計了 Aurora/Borealis 流處理引擎、C-Store 面向列的 DBMS、H-Store 事務處理引擎(後來成為 VoltDB)、SciDB 陣列資料庫管理系統,以及Data Tamer 資料管理系統。2014 年,計算機協會授予 Stonebraker圖靈獎,
這是他在thenewstack接受採訪摘要:
 
資料倉儲是面向歷史客戶的資料記錄。倉庫被商業智慧人員訪問,他們試圖實現更好的庫存週轉或更好地瞭解他們的客戶,或其他。而這與資料科學家想做的事情非常非常不同。
現在有一個新興的資料庫系統使用者社群,他們自稱為資料科學家。我最喜歡的資料科學應用的例子是我三四年前聽過的一個創業公司的商業推介。他們與拉斯維加斯的一家大酒店合作。該酒店希望將每晚的客房收入最大化。而這顯然是每個酒店都想做的事。你可以降低你的價格,把房間填滿,或者你可以收取高價,有很多空房間,或者你可以有動態定價,根據提前多久,你對人們收取多少錢。
因此,如果你是一個資料科學家:為什麼我不收集大量的歷史資料,為什麼我不收集大量的其他特徵,比如現在有多少遊客在拉斯維加斯,天氣如何,等等。
所以你有很多特徵,例如天氣,歷史上的平均溫度。和歷史酒店入住率。您獲得了很多特徵,並且您擁有儘可能多的歷史記錄。然後你想為這些特徵擬合一個預測模型。
預測模型希望根據所有這些不同的特徵來預測酒店入住率或您想要收取的價格。因此,如果您可以建立擬合模型,請檢視模型輸出,然​​後根據該預測模型的建議設定價格。
所以這是資料科學家所做的一種事情。這只是一種非常、非常、不同於資料倉儲或線上事務處理的活動。
假設我有一個資料倉儲,可以顯示現在的銷售情況。還有一整套商業智慧工具,可讓您查詢更多歷史資料並以任何您想要的方式對其進行切片和切塊,並獲得一些商業洞察力。所以這些人被稱為業務分析師。但是如果你把完全相同的資料交給資料科學家,他會說,我會為你建立一個預測模型,預測什麼會賣,然後你就可以做正確的事。
那麼,如果你是這家公司的 CEO,你更願意擁有哪一個?您寧願擁有預測模型。
 
通用電氣有 75 個採購系統,所有這些不同採購系統的原因是通用電氣非常分散或孤立。這 75 個採購系統中的每一個都有一個供應商資料庫。為了每年節省 1 億美元,你必須整合或統一這 75 個獨立構建的資料庫,總共有大約 900 萬個供應商。
這些都是獨立構建的。沒有全域性Key的概念,也沒有唯一供應商 ID 的概念。你必須用非常不完善的資料拼湊出同樣的客戶是誰。因為在您的資料庫中,它可能是 Staples, Incorporated,其地址位於 Gaithersburg。在我的資料庫中,它只是名為 Staples,地址在波士頓。
因此,目前的公司 Tamr 所做的是大規模統一這些不同的資料庫。它是一個 AI 機器學習系統,它將 Staples 的兩個表示拼湊在一起,這兩個表示實際上是同一件事。它會進行資料清理或主資料管理,他們編寫了 500 條規則。根據這 500 條規則,他們在 2000 萬筆交易中分類了 200 萬筆。
而 500 條規則大約是一個人所能掌握的規則。我從未見過有 5,000 條規則的規則系統,因為技術無法擴充套件。因為人類無法理解大量的規則。
機器學習會擴充套件,規則系統不會擴充套件:可以將將 200 萬條此類分類記錄用作預測模型的訓練資料,並將預測模型擬合到 2000 萬條支出記錄和分類 2000 萬條記錄使用 200 萬作為訓練資料。
 
另一個簡單的例子是歐洲的汽車公司豐田。因此,從歷史上看,豐田一直按國家/地區進行汽車分銷。所以西班牙子公司,法國子公司,等等。所以問題是,如果你在西班牙買了一輛豐田汽車,然後搬到法國,豐田汽車就會患上健忘症。因為你是西班牙客戶,而法國人根本不知道你是誰。
因此,豐田正在將 40 種語言的 250 個不同資料集中的 3000 萬歐洲客戶統一到一個統一的客戶資料庫中,以便他們能夠提供更好的客戶服務。所以另一個巨大的機器學習應用程式。
這種資料統一或資料整合或資料清理,資料準備,都是相同的東西,將不同的資料集放在一起。
 

相關文章