資料科學家或將取代業務分析師? - Michael
商業智慧BI會給你一張大數字表格;資料科學家會給你一個預測模型那麼,如果你是這家公司的執行長,你寧願擁有哪一個?
你更願意擁有預測模型。
因此,在未來十年或二十年內將發生的事情是,資料科學家將取代商業分析師,成為研究零售資料的人。此外,資料科學家還將做所有這些其他的事情。因此,這將是一個更大的市場,它將使目前的商業業務分析師被淘汰。
在瞭解資料庫系統的基礎知識方面,可能沒有比Michael Stonebraker 博士更好的談話物件了,他與 Eugene Wong 在 1974 年建立了第一個工作關聯式資料庫系統 INGRES。更了不起的是,從那以後的40年裡,他一直跟上資料庫系統的發展步伐。在加州大學伯克利分校,他很快就為物件關聯式資料庫管理系統 Postgres 擴充套件了 INGRES 的工作。後來,他在麻省理工學院共同設計了 Aurora/Borealis 流處理引擎、C-Store 面向列的 DBMS、H-Store 事務處理引擎(後來成為 VoltDB)、SciDB 陣列資料庫管理系統,以及Data Tamer 資料管理系統。2014 年,計算機協會授予 Stonebraker圖靈獎,
這是他在thenewstack接受採訪摘要:
資料倉儲是面向歷史客戶的資料記錄。倉庫被商業智慧人員訪問,他們試圖實現更好的庫存週轉或更好地瞭解他們的客戶,或其他。而這與資料科學家想做的事情非常非常不同。
現在有一個新興的資料庫系統使用者社群,他們自稱為資料科學家。我最喜歡的資料科學應用的例子是我三四年前聽過的一個創業公司的商業推介。他們與拉斯維加斯的一家大酒店合作。該酒店希望將每晚的客房收入最大化。而這顯然是每個酒店都想做的事。你可以降低你的價格,把房間填滿,或者你可以收取高價,有很多空房間,或者你可以有動態定價,根據提前多久,你對人們收取多少錢。
因此,如果你是一個資料科學家:為什麼我不收集大量的歷史資料,為什麼我不收集大量的其他特徵,比如現在有多少遊客在拉斯維加斯,天氣如何,等等。
所以你有很多特徵,例如天氣,歷史上的平均溫度。和歷史酒店入住率。您獲得了很多特徵,並且您擁有儘可能多的歷史記錄。然後你想為這些特徵擬合一個預測模型。
預測模型希望根據所有這些不同的特徵來預測酒店入住率或您想要收取的價格。因此,如果您可以建立擬合模型,請檢視模型輸出,然後根據該預測模型的建議設定價格。
所以這是資料科學家所做的一種事情。這只是一種非常、非常、不同於資料倉儲或線上事務處理的活動。
假設我有一個資料倉儲,可以顯示現在的銷售情況。還有一整套商業智慧工具,可讓您查詢更多歷史資料並以任何您想要的方式對其進行切片和切塊,並獲得一些商業洞察力。所以這些人被稱為業務分析師。但是如果你把完全相同的資料交給資料科學家,他會說,我會為你建立一個預測模型,預測什麼會賣,然後你就可以做正確的事。
那麼,如果你是這家公司的 CEO,你更願意擁有哪一個?您寧願擁有預測模型。
通用電氣有 75 個採購系統,所有這些不同採購系統的原因是通用電氣非常分散或孤立。這 75 個採購系統中的每一個都有一個供應商資料庫。為了每年節省 1 億美元,你必須整合或統一這 75 個獨立構建的資料庫,總共有大約 900 萬個供應商。
這些都是獨立構建的。沒有全域性Key的概念,也沒有唯一供應商 ID 的概念。你必須用非常不完善的資料拼湊出同樣的客戶是誰。因為在您的資料庫中,它可能是 Staples, Incorporated,其地址位於 Gaithersburg。在我的資料庫中,它只是名為 Staples,地址在波士頓。
因此,目前的公司 Tamr 所做的是大規模統一這些不同的資料庫。它是一個 AI 機器學習系統,它將 Staples 的兩個表示拼湊在一起,這兩個表示實際上是同一件事。它會進行資料清理或主資料管理,他們編寫了 500 條規則。根據這 500 條規則,他們在 2000 萬筆交易中分類了 200 萬筆。
而 500 條規則大約是一個人所能掌握的規則。我從未見過有 5,000 條規則的規則系統,因為技術無法擴充套件。因為人類無法理解大量的規則。
機器學習會擴充套件,規則系統不會擴充套件:可以將將 200 萬條此類分類記錄用作預測模型的訓練資料,並將預測模型擬合到 2000 萬條支出記錄和分類 2000 萬條記錄使用 200 萬作為訓練資料。
另一個簡單的例子是歐洲的汽車公司豐田。因此,從歷史上看,豐田一直按國家/地區進行汽車分銷。所以西班牙子公司,法國子公司,等等。所以問題是,如果你在西班牙買了一輛豐田汽車,然後搬到法國,豐田汽車就會患上健忘症。因為你是西班牙客戶,而法國人根本不知道你是誰。
因此,豐田正在將 40 種語言的 250 個不同資料集中的 3000 萬歐洲客戶統一到一個統一的客戶資料庫中,以便他們能夠提供更好的客戶服務。所以另一個巨大的機器學習應用程式。
這種資料統一或資料整合或資料清理,資料準備,都是相同的東西,將不同的資料集放在一起。
相關文章
- 圖靈獎獲得者:資料科學家或將取代業務分析師?圖靈資料科學
- Python或將成資料科學家首選語言Python資料科學
- 資料分析師、資料科學家、大資料專家三個職位的區別資料科學大資料
- 資料科學家會被機器學習工程師取代嗎? - KDnuggets資料科學機器學習工程師
- 進階指南:如何從資料分析師轉型為資料科學家?資料科學
- 競技世界首席資料科學家巴川:資料科學,未來或將成為民族核心競爭力資料科學
- Twitter將向科學家開放全部資料
- 【資料科學家】如何成為一名資料科學家?資料科學
- Reddit網友談資料分析師和資料科學家的職業區別資料科學
- 產品資料分析師的頭銜是否可重新命名為“資料科學家”? - Reddit資料科學
- 資料分析師與資料科學家有什麼不同? - Reddit資料科學
- 這七家BAT公司,誰家資料科學家更多BAT資料科學
- 業界 | 資料科學家“恐怖故事”資料科學
- 資料科學家的命令列技巧資料科學命令列
- 公民資料科學家的侷限性資料科學
- 資料科學家面試如何準備?資料科學面試
- 資料科學家準則(轉載)資料科學
- “資料科學家”或許不再性感,但“資料團隊”的產業化才剛開始資料科學產業
- 資料科學家需要的基礎技能資料科學
- 資料科學家最需要什麼技能?資料科學
- 如何成為資料科學家? - kdnuggets資料科學
- 什麼是全棧資料科學家?全棧資料科學
- 資料科學家的15項原則資料科學
- IT屌絲如何成為資料科學家?資料科學
- Python正在取代R,成為資料科學界新寵Python資料科學
- 為什麼Spark將成為資料科學家的統一平臺Spark資料科學
- 資料科學家已死?AutoML使得資料科學更加普及化 - enterpriseai資料科學TOMLAI
- Spotify如何改進資料科學家的資料發現?資料科學
- 資料工程師、掌握資料分析,成為資料科學家、資料庫遷移專家工程師資料科學資料庫
- 【資料科學家】跨入商業分析、資料科學、挖掘領域必須哪些基本數學知識資料科學
- 美國資深資料科學家暢聊:資料分析與北美電商資料科學
- Python機器學習 5個資料科學家案例解析Python機器學習資料科學
- KDNuggets:資料科學家使用工具調查資料科學
- 成為資料科學家的入門專案資料科學
- 蹩腳資料科學家的10種現象資料科學
- 美國大學爭相培養資料科學家資料科學
- 崛起的書呆子令人敬畏–資料科學家資料科學
- 資料科學50年,資料科學家是否依然是21世紀最性感的職業?資料科學