資料科學中最痛苦的方程式:資料 + 假設 = 預測 - Kozyrkov
邏輯推理 = 資料 + 假設,(統計)資料並不能給你真相;在統計學中,你所知道的並不是你希望你知道的。
以下是一些標準的誤解:
- “如果我找到正確的方程,我就能知道未知數。”
- “如果我對我的資料進行足夠的數學運算,我可以減少我的不確定性。”
- “統計可以將資料轉化為真理!”
它們聽起來像童話故事,難道不是嗎?因為他們就是童話!
如何基於過去預測未來?在過去和將來之間有一條鴻溝,你如何可能從你知道的東西跳到你不知道的東西?你需要一座橋樑來跨越那個鴻溝……而那座橋樑就是”假設“,所有資料科學中最痛苦的方程式:資料 + 假設 = 預測。
什麼是假設?
如果我們真正掌握了所有的事實(而且我們知道我們的事實實際上是真實的事實),我們就不需要”假設“(或統計學家)。”假設“是你用來彌合你所知道的和你希望知道的之間差距的醜陋補丁。當你遺漏了事實的時候,你必須用它們來計算。
說得更直白一點:“假設”並不是事實,它是你編出來的胡說八道,正是因為你的知識中有巨大的漏洞。如果你有用你的過度自信來欺負別人的習慣,花點時間提醒自己,把任何基於假設的東西都稱為真理是一種延伸。最好開始把整個事情當作一個個人決策工具,不完美但總比沒有好(在特定情況下)。
統計是你在一個不確定的世界裡盡力做到最好的嘗試。
“假設”總是需要的。
假設是下判斷做決定的一部分
給我看一個“無假設”的現實世界的決定,我會快速說出一大堆你甚至都不知道自己在做的隱含假設。
當你讀報紙時,你是否假設所有的事實都被核實了?當你制定2020年的計劃時,你是否認為不會出現全球大流行?如果您分析了資料,您是否認為捕獲的資訊沒有錯誤?你假設你的隨機數發生器是隨機的嗎(當你選擇網上購物時,你是否認為從你的銀行賬戶中提取的金額是正確的?你最後吃的零食呢,你以為不會毒死你嗎?當你吃藥的時候,你知道它的長期安全性和有效性嗎?或者你認為呢?
不管你喜不喜歡,假設都是決策(下判斷或做決定)的一部分。
(banq注:假設是上下文的上文,判斷結果是上下文的下文,中間是你下判斷的邏輯推演,業務邏輯)
一個對真實世界資料的恰當的探索應該包含一系列寫下來的假設,在這些假設中,資料科學家可以清楚地說出他們必須切入的視角。
兩個人可以從同樣的資料得出完全不同的有效結論!所需要的只是使用不同的假設。
統計資料為您提供了一種更周到的決策工具,但沒有一種正確的方法可以使用它。這是一個個人決策工具。
科學?
當科學家使用統計資料得出結論時,這意味著什麼?很簡單,他們已經形成了一種觀點,並決定與世界分享:科學家的工作就是不情願地形成意見。
相關文章
- 什麼是資料分析中的“資料”? - Cassie Kozyrkov
- 人的資料科學與機器資料科學資料科學
- 資料科學資料科學
- 讓科學重回資料科學資料科學
- 資料科學的原理與技巧 一、資料科學的生命週期資料科學
- 資料科學入門 (一) —— 資料資料科學
- 資料科學、資料工程學習路線資料科學
- Python資料科學(七) 資料清理(Ⅱ)Python資料科學
- Python資料科學(六) 資料清理(Ⅰ)Python資料科學
- 資料科學的原理與技巧二、資料生成資料科學
- 【資料科學家】如何成為一名資料科學家?資料科學
- Python資料科學(三) python與資料科學應用(Ⅲ)Python資料科學
- Python資料科學(二) python與資料科學應用(Ⅱ)Python資料科學
- Python資料科學(一) python與資料科學應用(Ⅰ)Python資料科學
- (資料科學學習手札137)orjson:Python中最好用的json庫資料科學JSONPython
- 通往資料科學之路資料科學
- 資料分析中最缺少的是資料探索工具?
- 資料科學求職建議:掌握5種型別的資料科學專案資料科學求職型別
- 資料科學的基本內容資料科學
- Python資料科學(四) 資料收集系列Python資料科學
- 什麼是資料科學?資料科學
- 大資料與生命科學大資料
- Spotify如何改進資料科學家的資料發現?資料科學
- 資料分析與資料探勘 - 04科學計算
- (資料科學學習手札135)tenacity:Python中最強大的錯誤重試庫資料科學Python
- Python資料科學(八)- 資料探索與資料視覺化Python資料科學視覺化
- Python資料科學(五) 資料處理和資料採集Python資料科學
- mysql 資料假刪 保持資料唯一MySql
- 資料科學家的命令列技巧資料科學命令列
- 公民資料科學家的侷限性資料科學
- 足球比賽中的資料科學資料科學
- 資料科學中的 Spark 入門資料科學Spark
- 資料科學的整合與細分資料科學
- 資料科學的歷史,從洞穴壁畫到大資料資料科學大資料
- 學習資料科學的五大免費資源資料科學
- ApacheCN 程式設計/大資料/資料科學/人工智慧學習資源 2019.4Apache程式設計大資料資料科學人工智慧
- 使用Mac自帶的apache製作測試假資料MacApache
- Python 資料科學之 PandasPython資料科學