讀人工不智慧:計算機如何誤解世界筆記06_機器學習
躺柒發表於2024-02-29
1. 技術世界
1.1. 為了創造一個更加公正的技術世界,我們在創造技術的時候,需要接受更多不同的聲音
1.2. 在電腦科學中,很難說清楚‘簡單’和‘幾乎不可能’的區別
1.3. 談論計算太難了,這導致了很多誤解
1.3.1. 計算機在某些方面表現得非常優秀,而在另外一些方面表現得非常糟糕
1.3.2. 當人們誤判計算機在執行任務時的參與程度時,社會問題就會產生
1.4. 蹣跚學步的孩子一般可以在不踩到玩具的情況下在房間內行走(當然,她可能會偏不這樣幹),但機器人做不到
1.5. 使用機器人也有一些可預見的缺陷,那些擁有掃地機器人和寵物的人已經率先發現了
1.5.1. 如果你知道你的狗可能會把家裡弄得一團糟,那就別安排你的掃地機在無人看管的情況下工作
1.5.2. 家裡有小動物,什麼事情都有可能發生
1.6. 計算文化中存在的溝通問題,就有一部分是由日常語言的不精確性和數學語言的精確性所致
1.6.1. 在數學中,一切語言都是高度精確的
1.6.2. 在生物學中,“cell”(細胞)的得名是由於羅伯特·胡克在1665年發現細胞的時候,想起了修道院中僧侶們居住的單人房(cell)的牆壁
1.6.3. Web開發框架Django,是以其發明者最喜歡的爵士吉他手金格·萊恩哈特(Django Reinhardt)的名字命名的
1.7. 機器學習隱含著計算機有自主權的意味,並且由於它能“學習”,因此具有某種程度的感知能力
1.7.1. “學習”這個詞通常適用於諸如人類這種有感知能力的生命體(或有部分感知能力的動物)
1.7.2. 意味著機器可以在它已預程式設計好的、常規的、自動化的任務中得到改進
1.7.3. 儘管“學習”有某種隱含的意味,但不代表機器就能獲得知識、智慧或者自主選擇權
1.8. 想象力也讓事情變得更加複雜
1.8.1. 如何定義人工智慧,取決於你對未來的信念
1.8.2. 我們沒有任何理由相信奇點即將到來。你可以想象未來的樣子,但你的想象不能佐證你對未來可能性的預測
1.9. 但凡是理智的聰明人,對未來會發生什麼是無法達成共識的
1.9.1. 部分原因是沒有人能看到未來
1.10. 在增量學習模式下,演算法會隨新資料的到來而持續改進
1.11. 不平等是不公平的,但並不罕見
1.11.1. 如果機器學習模型只是簡單地複製實際的世界,那我們就無法走向一個更加公正的社會
2. 機器學習
2.1. “機器學習”實在太新了,共識太少,所以語言學的定義沒能跟上現實也就不足為奇了
2.2. 1959年,“機器學習”這個術語被《牛津英語詞典》收錄
2.3. 1959年 《IBM公司研究與開發雜誌》(IBM Journal)卷3,我們的計算機具有足夠的資料處理能力和計算速度,可以好好利用機器學習技術
2.4. 在2000年出版的第三版中,《牛津英語詞典》開始將“機器學習”視作短語
2.4.1. 機器學習(machine learning)名詞(計),計算機從經驗中學習的能力,是一種基於新採集的資訊改進演算法的能力
2.5. 機器學習是學習一個資料集的一些屬性,並將它們應用到新資料上。因此,在機器學習中,評估一個演算法的常見做法是將資料分成兩組:一組為訓練集,用以學習資料屬性;另一組為測試集,用以檢測資料屬性
2.6. 所謂機器“學習”,並不意味著機器有一個由金屬製成的大腦,而是指機器根據人類定義的衡量指標,在執行單個特定任務時更加準確
2.6.1. 這種學習並不等同於智力
2.7. 型別
2.7.1. 監督學習
2.7.1.1. 計算機被“教師”給定一組示例的輸入資料和所需的輸出資料,目的是透過將輸入資料對映到輸出資料,習得一般規則
2.7.2. 無監督學習
2.7.2.1. 給學習演算法輸入的資料不帶標籤,使其自行在資料中發現結構
2.7.2.2. 無監督學習的目的可以是無監督學習本身(發現資料中的隱藏模式)或者透過無監督學習達到其他目的(特徵學習)
2.7.3. 強化學習
2.7.3.1. 計算機程式在一個動態環境中執行某個動作,並與環境發生互動
2.7.3.1.1. 如駕駛車輛,或與對手玩遊戲
2.7.3.2. 程式會在試探它的問題空間時收到環境返回的獎勵和懲罰方面的反饋
2.8. 訓練資料
2.8.1. 訓練資料是用於訓練和調整機器學習模型的已知資料集
2.8.2. 三種機器學習都依賴於訓練資料
2.8.3. 機器學習演算法可被應用於已知資料集
2.8.3.1. 隨機森林、決策樹、最近鄰、樸素貝葉斯或隱藏式馬爾可夫等
2.8.3.2. 演算法是計算機執行任務需要遵循的一系列步驟或過程
2.8.4. 網上的資源庫收錄了很多有意思的資料集,可用於機器學習實踐
2.8.4.1. 面部表情資料集
2.8.4.2. 寵物資料集
2.8.4.3. YouTube影片資料集
2.8.5. 為數不多的標誌性資料集被髮布到網路上,成為當代所有人工智慧的基石
3. 計算機擁有智力?
3.1. 國際象棋不是對智力進行的測試,它只測試一種技能
3.1.1. 下象棋的技能
3.2. 象棋代表智力其實基於一種錯誤的文化前提
3.2.1. 認為優秀的棋手頭腦聰明,比周圍的人更有天賦
3.3. 許多聰明的人擅長國際象棋,但國際象棋或任何單一的技能並不代表智力
4. 泰坦尼克號
4.1. 可得性啟發法
4.1.1. 首先浮現在腦海裡的情景通常是我們認為最重要或最常發生的故事
4.2. 在一個不平等的世界裡,如果我們根據世界的實際情況來制定定價演算法,那麼女性、窮人和少數族裔客戶就會不可避免地被收取更多的費用
4.2.1. 種族、性別和階級會以各種明顯和不正當的方式影響商品的定價
4.2.2. 貧窮往往意味著要為日常必需品支付更高的費用
4.2.3. 使用分期付款計劃購買傢俱,總價格比直接購買要高
4.2.4. 發薪日貸款的利率遠遠高於銀行貸款利率
4.2.5. 貧窮的租戶經常被迫為住房支付更多費用
4.3. Pclass代表乘客的社會經濟階層,這可能是一個有用的預測指標
4.4. 票價是“泰坦尼克號”倖存者資料的數學分析中最具影響力的因素
4.4.1. 這不是什麼值得害怕的事,也並不會引領我們墮入全球被超智慧計算機統治的境地
4.5. 得出支付更高票價的乘客更有可能在海難中倖存這一結論,是非常不明智的
4.5.1. 支付高票價的人要比支付低票價的人富有,這使我們可以向富人收取較低的保險費
4.5.2. 保險的重點就在於讓風險在大量人群中平均分配
4.5.3. 可以為保險公司賺更多錢,但推銷出去的不是最好的產品
4.5.4. 從保險業到旅遊業,價格最佳化無處不在
4.5.5. 價格最佳化常常造成價格歧視
4.5.5.1. Homedepot.com和旅遊網站會依據使用者瀏覽網站時使用的是手機還是電腦,分別顯示不同的價格
4.6. 性別也是一個可供合理推算的預測指標
4.7. “婦女和兒童優先”是海難逃生的常用原則
4.7.1. 這條原則可以追溯到1852年英國皇家海軍艦艇“伯肯黑德”在南非海岸擱淺的事故
4.7.2. 這不是一條放之四海而皆準的原則,但它的有效頻次用於社會分析是足夠的
4.8. 船長下了命令:“讓婦女和兒童上船,然後把小艇放下。”
4.8.1. 在右舷的大副默多克認為,船長讓婦女和兒童優先上救生艇
4.8.2. 在左舷的二副萊特勒認為,船長只允許婦女和兒童上救生艇
4.8.3. 關鍵在於兩名副官,而不是救生艇的編號
4.8.3.1. 虛假因果關係的問題
4.9. 棄船逃生的方法
4.9.1. 塞耶盡他所能跳到遠離船身的地方
4.9.1.1. 塞耶活了下來
4.9.2. 朗則跳到了船身近處的海里
4.9.2.1. 朗被吸入了無底的深淵
4.9.3. 計算機的預測僅僅基於票價等級、年齡和性別,但實際的關鍵因素是他們最後那一跳的差異
4.10. 朗遇難的隨機性,正是造成我們對“泰坦尼克號”乘客倖存情況的統計預測不可能達到100%準確的原因
4.10.1. 因為人類不是統計資料,也永遠不會是統計資料
4.11. 不是所有重要的東西都能被計算在內
4.11.1. 計算機無法從資料集中跳脫出來,並且找到可能重要的額外因素,但是人類可以
5. 資料的不合理有效性原則
5.1. 除非你處處留心可能出現的偏差和無序,否則人工智慧就只是表面看起來那樣利落
5.2. 尤金·維格納在文章《數學在自然科學中不合理的有效性》中探討了為什麼那麼多物理學規律可以使用如此簡單的數學公式(如f=ma或e=mc2)來巧妙地表達
5.3. 涉及人類的科學被證實,比起涉及基本粒子的科學,它們對精簡優雅的數學更具抵抗力
5.4. 這種資料驅動的方法會讓機器忽略許多人類認為非常重要的因素
5.4.1. 以資料為驅動所做的決策,很少有完全符合複雜規則的
5.5. 計算機能在足夠的時間內正確處理足夠多的事情,以至於我們可能會傾向於認為它基本上是正確的
5.5.1. 但它也有可能因錯誤的原因而得到正確的結果
5.6. 社會問題的決策不僅僅是計算,因此如果我們僅使用資料來做涉及社會和價值判斷的決策,社會問題就會隨之而來
5.7. 有些事情是機器永遠也學不會的,而人類的判斷、強化和解釋永遠都是有必要的
5.8. 我們的大腦總會把真實的事件和虛構的寫實小說混淆在一起
5.8.1. 這種混淆使得我們對風險的理解更加複雜
5.9. 大資料世界裡有一個公開的秘密:所有的資料都是髒資料,無一例外
5.9.1. 資料是由人們四處走動和計算,或是人類製造的感測器收集來的東西
5.9.2. 在所有看似有序的數字序列中,都有噪聲資料的存在