資料科學中最痛苦的方程式:資料 + 假設 = 預測 - Kozyrkov

banq發表於2021-06-07

邏輯推理 = 資料 + 假設,(統計)資料並不能給你真相;在統計學中,你所知道的並不是你希望你知道的。
以下是一些標準的誤解:
  • “如果我找到正確的方程,我就能知道未知數。”
  • “如果我對我的資料進行足夠的數學運算,我可以減少我的不確定性。”
  • “統計可以將資料轉化為真理!”

它們聽起來像童話故事,難道不是嗎?因為他們就是童話!
如何基於過去預測未來?在過去和將來之間有一條鴻溝,你如何可能從你知道的東西跳到你不知道的東西?你需要一座橋樑來跨越那個鴻溝……而那座橋樑就是”假設“,所有資料科學中最痛苦的方程式:資料 + 假設 = 預測。
 

什麼是假設?
如果我們真正掌握了所有的事實(而且我們知道我們的事實實際上是真實的事實),我們就不需要”假設“(或統計學家)。”假設“是你用來彌合你所知道的和你希望知道的之間差距的醜陋補丁。當你遺漏了事實的時候,你必須用它們來計算。
說得更直白一點:“假設”並不是事實,它是你編出來的胡說八道,正是因為你的知識中有巨大的漏洞。如果你有用你的過度自信來欺負別人的習慣,花點時間提醒自己,把任何基於假設的東西都稱為真理是一種延伸。最好開始把整個事情當作一個個人決策工具,不完美但總比沒有好(在特定情況下)。

統計是你在一個不確定的世界裡盡力做到最好的嘗試。

“假設”總是需要的。
 

假設是下判斷做決定的一部分
給我看一個“無假設”的現實世界的決定,我會快速說出一大堆你甚至都不知道自己在做的隱含假設。

當你讀報紙時,你是否假設所有的事實都被核實了?當你制定2020年的計劃時,你是否認為不會出現全球大流行?如果您分析了資料,您是否認為捕獲的資訊沒有錯誤?你假設你的隨機數發生器是隨機的嗎(當你選擇網上購物時,你是否認為從你的銀行賬戶中提取的金額是正確的?你最後吃的零食呢,你以為不會毒死你嗎?當你吃藥的時候,你知道它的長期安全性和有效性嗎?或者你認為呢?

不管你喜不喜歡,假設都是決策(下判斷或做決定)的一部分。

(banq注:假設是上下文的上文,判斷結果是上下文的下文,中間是你下判斷的邏輯推演,業務邏輯)
一個對真實世界資料的恰當的探索應該包含一系列寫下來的假設,在這些假設中,資料科學家可以清楚地說出他們必須切入的視角。
兩個人可以從同樣的資料得出完全不同的有效結論!所需要的只是使用不同的假設。
統計資料為您提供了一種更周到的決策工具,但沒有一種正確的方法可以使用它。這是一個個人決策工具。
 

科學?
當科學家使用統計資料得出結論時,這意味著什麼?很簡單,他們已經形成了一種觀點,並決定與世界分享:科學家的工作就是不情願地形成意見。
 

相關文章