資料分析師與資料科學家有什麼不同? - Reddit

banq發表於2022-03-07

對於那些實際上具備這兩個角色所需技能的人,是什麼讓您決定成為資料分析師而不是資料科學家?

 

我放棄了成為資料科學家的職業夢想。現在,我使用 SQL 後端構建 .NET 報告應用程式。我覺得我在預測建模中所做的所有工作從未被使用過,但我的應用程式每天被 50 多人使用。作為一名資料分析師,我知道我的輸出直接被 CXO 消耗,並沒有太多需要追趕學習!

我們所說的資料科學在實踐中根本不是科學:

他們把所有的時間都花在學習模型上,然後什麼都不用,基本上只做 SQL 查詢和儀表板報告。

資料科學DS在實踐中不是一個數學或統計重的領域,也不是任何真正擅長統計的人都應該進入的領域。

實際的電腦科學CS和統計研究一直是這樣做的,並且從未改變。

  • 現實商業世界中的資料科學通常只是資料儲存和檢索操作的程式碼。這可能非常令人不滿意,並且感覺像是對您全部能力的完全侮辱。
  • 在任何資料科學專案中,我花在運算上的時間都比花在數學上的時間多。
  • 坦率地說,我稱您的日常操作包括高階統計或手動測量貝葉斯概率。就像我的公司聲稱我們的工作需要使用 Python 編碼和統計資料一樣,只是意識到日常任務是執行來自 Google Analytics/Adobe Analytics 的報告。
  •  5 年和 3 份工作後,我現在終於意識到,大多數 DS 角色只是美化的商業智慧/產品分析工作。
  • 毫不誇張地說,10 個“資料科學”工作中有 9 個是美化的資料分析或商業智慧

好的 DS 職位應該在前線,並得到公司的大力支援。

我公司的資料科學家做了一些非常棒的工作。目前在一家大型健康保險公司工作。

他們所做的工作是真正有意義的工作,專注於改善健康結果。像:

  • 預測自殺傾向以開展外展活動並減少自殺未遂
  • 改善健康措施的社會決定因素,以優化我們在服務不足地區的足跡(初級保健)
  • 用於改善治療路徑的健康結果確定性模型

還有很多更平凡的事情,例如優化 OCR 型別模型以使醫療保健系統更接近數字時代(最佳讀取患者表格等以進行攝取)。

對於資料科學家來說,這絕對是有意義的工作,而且它可以在合適的公司獲得豐厚的回報。

我的資料科學和分析團隊在美國一家大型醫療系統工作:

我們一直在努力為醫生主管和非臨床管理人員工作,他們很難知道如何與我們的團隊合作。

每個人都 "想要資料科學",但卻要求非常不明確和變化的交付物,在確定我們可以管理的具體變數/KPI方面缺乏理解,這可以明顯改善健康結果和提高病人安全。

這可能會使某些想在80%以上的時間裡進行 "真正的資料科學 "的人感到憤怒,因此我們不僱用這些人,我們必須僱用那些在幫助臨床研究人員、操作人員和質量改進人員定義問題陳述、理解資料可以或不可以幫助什麼,然後部署我們技能的人。

對於那些要求我們提供時間的高管來說也是如此--如果他們不能定義他們的問題,不能投入時間來共同創造一個有意義的資料產品,我就不參與。

是的,我們最終做了很多描述性的分析,但我們也提供了規範性的分析,以便從一個巨大的機構中轉變醫療服務的提供,而這個機構的定位是非常......非常緩慢的,這對我們的病人來說是不夠好的。

 

在很多其他公司,我可能會被稱為資料科學家。但我主要不是從事ML工作,所以大多數分析專家不會這樣稱呼我。我做一些初始建模,大量的資料庫工作(資料建模,編寫管道),一些儀表盤,一些特別的研究("為什麼會發生這種事情? 如果我們這樣做或那樣做會怎麼樣?")。

我直接與整個公司的利益相關者合作。我通常是第一個聽到他們的業務問題並確定解決方案的範圍。我喜歡這部分工作,這可能是我還沒有 "轉型 "到一個完整的DS角色的原因。說實話,95%以上的商業問題/疑問不需要用ML來解決。我可以迅速提供洞察力並告知這些決策,這創造了很多價值。

我對預測性建模也不那麼感興趣。我喜歡老式的統計學--推理,因果關係,能夠解釋為什麼事情會發生,或者如果做了其他事情會怎麼樣。

我可以把迴歸分析放在一起,比我們DS團隊的大多數人都要好。

但只是把資料扔進一個模型以獲得最低的損失分數對我沒有吸引力。

當需要一個預測模型時,我可以和利益相關者一起工作,做一些有趣的部分--弄清楚業務背景,目標變數應該是什麼,哪些資料應該和不應該被用作預測因素。

因此,當我把它交給DS團隊的時候,剩下的就是獲取資料和編碼模型的繁瑣工作了。

至於薪酬,一個好的高階資料分析師至少抵得上兩個初級資料分析師。而且他們很難找到,因為人們寧願選擇DS職位。為了取代我,我的公司必須僱用至少兩個人,而且要花幾個月的時間來找到他們,再花幾個月的時間來讓他們適應工作。如果他們是好的,他們可能會在一年內離開,去找一個DS職位,或者要求更多的薪水來堅持下去。我並不害怕提醒我的老闆這一點,並要求適當的補償。我做得很好。

 

如今,在許多科技行業中,這種角色在產品方面有一個DS頭銜(並有相應的薪酬)。

我完全同意。大多數時候,ML對於業務/產品的需求來說是一個過於複雜的解決方案。我以前也有過這樣的經理,他們的目標是 "建立的模型數量",而不是他們推動的任何種類的影響,這簡直是為了ML而ML。

我個人認為,找出正確的問題,從這些問題的答案中得出什麼樣的見解,然後通過對這些見解採取行動來推動最終的結果,這些戰略方面比躲起來只是試圖優化一些影響最小的無聊模型要有趣和有意義得多。

題外話,我認為行業向擴大DS頭銜以包括更多的分析師角色的遷移是正確的舉措--基於使用多少ML的把關是接近DS的錯誤方式,我認為這往往是關於理解如何使用資料來幫助企業/產品做出正確的決定,這往往需要簡單的解決方案......而這是可以的。

 

建造的模型數量......這實際上是我公司設定的戰略目標......

我們現在正在生產 X,他們告訴我們他們希望在今年年底前達到 4X。沒有關於使用哪些或如何實施或解決哪些問題的指導(因為他們認為這會刺激我們,我猜)。當許多模型被推出並沒有做好任何事情時,他們會感到震驚。

 

“資料科學”是一個廣泛的領域(就像“電腦科學”是一個廣泛的領域一樣)。資料/分析團隊應該配備很多工具(通過員工的不同技能組合),併為每個問題選擇正確的解決方案。有時這是儀表板,有時是 EDA 和見解/建議,有時是用於分析或自動化的預測模型。

 

這是一個非常非常大的問題。答案:

  • 黃金標準是產生一個IV,並設計實驗的其餘部分以排除混淆因素。
  • 幾乎所有的觀察性資料(即沒有產生的變數)都不能有力地推斷出因果關係。
  • 如果措施1在措施2之前,或者有強大的文獻顯示某些變數之間存在因果關係,那麼一些觀察性資料集的某些元素可以給出 "弱 "因果推斷。從邏輯上講,這仍然不能給你提供因果推斷,但它可以增加你對結果的因果解釋的信心。
  • 在一些特定的情況下,某些型別的純觀察性資料可以通過分析產生合理有力的因果解釋結果。我實際上不記得這些技術了,因為每次我讀到這些技術時,都會發現它們永遠不會適用於我的具體情況,但我認為這涉及到以特定方式分析方差或干擾。

 

人們並不經常要求那麼具體的東西。即使他們這樣做,我也會問他們需要它的原因和背景。我試圖瞭解他們為什麼需要一個模型或分析,他們更想回答什麼問題,他們需要它來做什麼決定。

例如,一個營銷人員可能會來找我說,"我需要一個X的預測"。當我問及原因時,原來他們的老闆只是想知道X的增長是由於一個活動還是由於季節性。這是一個很好的問題。但我可以把圖表放在一起,顯示...

  • 活動前一週的每日平均X值
  • 活動期間的每日平均X值
  • 也許是歷史上每日X的最大值、中位數和最小值。
  • 也許是每日X的時間序列圖

我可以在大約10分鐘內把這些東西放在一起。如果運動期間的日均X相比之下大得多,那麼我們可以回答這個問題:是的,增長很可能是由於運動,而不是季節性。

當然,一個模型可以給我們一個更精確的答案。但我們需要它嗎?

也許不是為了回答這個一次性的問題。也許值得為未來準備好季節性預測。

如果是這樣的話,我會和我們的DS團隊合作,在生產中使用一個模型,將公示的X預測和範圍吐到資料庫中。

一般來說,我們把一次性的工作做得很低。如果我們投入更多的精力,我們堅持認為它是自動化的。

 

如果您具有非常專業的領域知識(例如流行病學或金融學),分析師的工作可能更適合您的技能組合。

從我在求職網站上看到的情況來看,分析師的就業市場似乎大於資料科學家的市場(至少在英國公共部門)。如果你不住在大城市附近,你可能很難找到任何資料科學職位。但是,可能會有更多的分析師職位申請者。

我在美國也看到了這一點。大多數公司都需要分析師。並非每家公司都需要或擁有足夠的機器學習資料。此外,需要兩者的公司仍然需要更多的分析師。分析工作肯定有更多機會。我認為 DS 的工作會吸引更多的申請者,因為每個人都聽說這份工作有多性感以及薪水有多少,所以很多人只申請 DS 的工作。

 

通常,一家公司的分析師人數要比 DS 多得多。同樣的想法是,醫院的初級保健醫生比專家多得多。例如,我工作的公司有一個由 5 名分析師組成的團隊,只有 1 名“資料科學家”,而資料科學家實際上更多地與工程團隊合作而不是分析師。

 

ML模型是產品,ML工程師所做的是,在大多數地方涉及研究和部署以及兩個階段的基礎工具。通常是非常聰明、有趣和好看的。

ML模型是用來改善公司的產品/銷售/運營的--資料科學,在大多數地方,這只是研究,實施只是為了研究的工具,其他人實現結論,他們通常知道更多的理論,比ML工程師更適應前沿的發展,有時會有合作。通常說的是謎語,對丟擲的硬幣非常痴迷

沒有ML,主要是在管道之間移動/儲存/載入資料,以一種成本效益高的方式,可以使公司成功或失敗 - 資料工程師。通常是令人討厭的,看起來很滑稽。

不知道什麼是分析師,根據公司的不同可以有很多不同的東西,但它通常是一個 "較低 "的入門門檻,需要較少的東西(研究/工程),在較高的水平上,分析師可以與資料科學家沒有區別,有幾個例子是比玩強大模型的拋硬幣者有更具體的影響。

 

儘管我希望有一套行業標準的職位和相關職責,但這可能因公司而異。但在我的腦海裡,他們是這樣分裂的。

  • 資料科學家:設計 ML 模型並在公司資料中進行研究的人。
  • ML 工程師:將負責將資料科學家制作的模型應用到“生產”環境中。
  • 資料工程師:他們構建資料管道以在公司周圍移動資料。
  • 資料分析師:構建儀表板和報告以供管理層審查。經常與業務部門合作定義指標和 KPI。

沒有幫助的是,這些人將一起工作,他們的職責可能會重疊(ML 和資料工程師就是一個很好的例子),這可能會使水變得渾濁。

 

在我現在的公司,DS是ML工程師。所以我們的DS實際上更多的是與我們的工程團隊合作,而不是與我們的資料分析師/分析團隊合作。他們基本上是建立自己的模型,然後與工程團隊合作,實施/測試它們。

我們有幾個資料工程師,幫助編碼和管理我們的資料倉儲。他們瞭解我們所有的報告是如何生成的,並幫助建立新的儀表盤、表格等。他們主要是每天都在使用SQL。他們與DS的技能組有很多重疊,所以他們經常合作。

分析師員為我們的客戶和公司本身做任何分析員的要求(內部基準,儀表板)。我們的工作生活平衡得很好,我真的不確定這是否值得為我所在的DS職位加薪。我每天工作幾個小時,同時領取工資。因為我們獨立工作,所以我很容易說,啊,這個專案因為資料問題要再花一個月,最後期限就會延長。由於我們的DS與工程團隊的工作非常密切,他們不可能真的叛變,在一個分析上躲上兩個月,如果這有意義的話。但是,我確實認為DS能解決的問題絕對是神奇的,如果我在10年內莫名其妙地感到無聊,我可以看到自己走這條路,笑。

 

一些公司進一步將您描述資料分析師的方式分為兩個角色:

  • BI(商業智慧)分析師:構建利益相關者要求的儀表板,但不分析儀表板或確定其中應包含哪些 KPI。
  • 資料分析師:分析資料,無論是來自這些儀表板還是查詢他們自己的資料集,並根據他們的分析提供見解和建議。

 

我的正式頭銜是資料科學家,但 5 年來,我是公司(中型)唯一一個甚至從事“大資料”工作的人,所以我做了各種各樣的工作,主要是分析。從來沒有建立過一個模型,而是建立了一些相當複雜的分析解決方案,到目前為止它很有趣,所以我沒有抱怨。如果我被要求建立 BI ML 模型以呈現給管理層,而不是在後臺進行更多技術方面的分析,我可能會少很多樂趣。

 

我現在是一名 PM,但我仍然做很多分析和資料科學,因為我是一名 4 年的 PM。雖然這兩個角色之間的區別不是很清楚(兩者之間有一個連續統一體,而且大多數都在中間),但我也明白你的意思。

我研究了很多資料科學並做了相當多的工作。但基本分析往往更有用,尤其是當您非常瞭解業務和基礎資料時。

我見過很多聰明的人在做數學上優雅的工作,但實際上並沒有做那麼多。所做的事情往往是更多的工程用例,他們正在自動化某些東西。這不是我有太多經驗的地方。

 

資料科學已經成為一個過飽和的泡沫。只要薪水合適,我會接受公司給我的任何職位。當然,我會成為你每年170k美元的看門人,或者資料分析師、工程師或科學家

 

相關文章