讀人工智慧時代與人類未來筆記06_機器學習的力量

躺柒發表於2024-05-18

1. 挑戰

1.1. 不同的目標和功能需要不同的訓練技術

1.2. 我們必須關注人工智慧的潛在風險

1.2.1. 應對日益盛行的人工智慧將帶來的風險,是一項必須與該領域的進步並行的任務

1.3. 我們不能將其開發或應用隨便交予某個群體,無論這個群體是研究人員、公司、政府還是民間社會組織

2. 機器學習的三種形式

2.1. 監督學習

2.1.1. 監督學習是一種卓有成效的方法,可以用於建立一個模型來預測響應新輸入的輸出

2.1.2. 人工智慧開發人員使用了一個包含示例輸入的資料集,並且這些示例根據期望的輸出或結果分別進行了標記

2.1.3. 發現Halicin的人工智慧便是由監督學習產生的

2.2. 無監督學習

2.2.1. 在無監督學習中,訓練資料只包含輸入

2.2.2. 在只有大量資料的情況下,開發人員可以使用無監督學習來提取可能有用的見解

2.2.3. 無監督學習允許人工智慧在沒有任何結果資訊的情況下識別模式或異常情況

2.2.4. 透過無監督學習訓練的人工智慧可以識別出人類可能因為模式間的微妙差別、資料規模過大或兩者兼有而錯過的那些模式

2.2.5. 此類人工智慧也和人類自學者一樣,可能給出古怪荒謬、毫無意義的結果

2.3. 強化學習

2.3.1. 在強化學習中,人工智慧不是被動地識別資料之間的關係,它是受控環境中的“智慧體”,會觀察並記錄環境對其行為的反應

2.3.1.1. 強化學習需要人類參與建立人工智慧訓練環境(即使人類在訓練過程中不提供直接反饋):人類定義了模擬器和獎勵函式,人工智慧則在此基礎上進行自我訓練

2.3.2. 即使是在模擬的、簡化的環境中,比如一場國際象棋比賽,一步走棋也可能引發一連串的機會和風險

2.3.3. 在裝配線上精準模擬機器人的操作顯然比在擁擠混亂的城市街道上更容易

2.3.4. 其結果便是,指導人工智慧在人工環境中自我訓練通常並不足以產生最佳表現,還需要有反饋

2.3.5. 獎勵函式的任務就是提供這種反饋,為的是向人工智慧表明它的方法有多成功

2.3.5.1. 作為替代,程式設計師將這種獎勵函式自動化,謹慎而又精確地指定該函式如何執行及如何模擬現實的性質

2.3.5.2. 在理想情況下,模擬器提供真實的體驗,獎勵函式則促進有效的決策

2.3.5.3. 為了獲得有意義的結果,對模擬器和獎勵函式的周密規範至關重要

3. 機器學習的力量

3.1. 在農業領域,人工智慧使得農藥的精確管理、疾病的檢測和作物產量的預測更為便利

3.2. 在醫學領域,人工智慧促進了新藥的發現、現有藥物新應用的鑑定,以及對未來疾病的檢測或預測

3.2.1. 人工智慧已透過識別細微的放射指標,比人類醫生更早地發現了乳腺癌

3.2.2. 透過分析視網膜照片發現了失明的原因之一是視網膜病變

3.2.3. 透過分析病史預測糖尿病患者的低血糖

3.2.4. 透過分析遺傳密碼發現了其他遺傳性疾病

3.3. 在金融領域,人工智慧被用來幫助推進貸款批准(或拒絕)、收購、合併、破產宣告和其他交易流程

3.4. 千百年來,人類一直無法跨越文化和語言鴻溝進行清晰的溝通

3.4.1. 由於存在語言之間的理解誤差,而且無法用一種語言向另一種語言的使用者傳達資訊,人類彼此之間產生了誤解,阻礙了貿易,甚至引發了戰爭

3.4.2. 在巴別塔的故事中,這種語言的阻隔是人類不完美的象徵,也是對人類傲慢的痛苦懲罰

3.5. 機器翻譯水平突飛猛進

3.5.1. 與其說是因為應用了神經網路或機器學習技術,不如說是這些方法全新的、創造性的應用催生了這一進步

3.5.2. 從機器學習的基本構建模組開始,開發人員能夠以巧妙方式繼續創新,並在這個過程中解鎖新的人工智慧

3.5.3. 要將一種語言轉換為另一種語言,譯者需要捕捉特定的模式,即順序依賴關係

3.5.4. 與傳統的監督學習相比,語言翻譯研究人員採用了“平行語料庫”(parallel

corpora)技術,這種技術在訓練中不需要輸入和輸出之間有具體對應關係

3.5.4.1. 這種方法極大地限制了訓練資料量以及可用的文字型別

3.5.4.1.1. 政府文字和暢銷書經常被翻譯,但期刊、社交媒體、網站和其他非正式作品一般並無此待遇

3.5.4.2. 這種訓練人工智慧粗略匹配(而非翻譯)文字主體的過程,即為平行語料庫技術

3.5.4.3. 被用於訓練的是高度近似的或部分的資訊

3.5.5. 當谷歌翻譯開始採用使用平行語料庫訓練的深度神經網路時,其效能提高了60%,而且此後一直在不斷提高

3.5.6. 自動化語言翻譯的巨大進步有望令商業、外交、媒體、學術界和其他領域均為之一變,因為人們可以比以往任何時候都更容易、更快捷、更廉價地接觸到非母語

3.6. 機器學習不僅拓寬了人工智慧的適用範圍,還徹底改變了人工智慧本身,甚至在以往的方法曾取得成功的領域(如基於符號和規則的系統)也莫不如此

3.6.1. 標準的神經網路可以識別輸入和輸出之間的關聯模式,比如那些抗生素的一系列化學屬性

3.6.1.1. 谷歌的BERT就是一種旨在改進搜尋的雙向轉換器

3.6.2. 翻譯文字和分類影像的能力是一回事,生成(亦即建立)新文字、新影像和新聲音的能力則是另外一回事

3.7. 生成式神經網路,卻可以實現建立

3.7.1. 生成式神經網路使用文字或影像進行訓練

3.7.2. 它們產生新的文字或影像,這些文字或影像是合成的,但也是真實的

3.7.2.1. 從概念上講,它們與其“前輩”已有所不同

3.7.2.2. 這些所謂的生成器的應用是令人驚愕的

3.7.2.2.1. 如果它們被成功應用於編碼或寫作,那麼作者可以簡單地建立一個大綱,然後讓生成器來填充細節
3.7.2.2.2. 生成器還可能被用來進行深度偽造,即對人們從未做過的事情或說過的話進行虛假描述,且足以亂真

3.7.3. 生成器將豐富我們的資訊空間,但如果沒有監督,它們也可能模糊現實和幻想之間的界限

3.7.4. 能夠產生類人文字的GPT-3是最值得關注的生成式人工智慧之一

3.7.4.1. 它開啟了將語言翻譯轉化為語言生產的新局面

3.7.5. 經過對主要來自網際網路的大量資料的訓練,轉換器還可以將文字轉換為影像或進行反向操作,即擴充套件和壓縮描述,並執行與此類似的任務

3.8. 當一項技術變得更加強大、更加普遍時,其發展也必然伴隨著挑戰

3.8.1. 我們大多數人最常使用的線上功能“個性化搜尋”就是一個例證

3.8.1.1. 人工智慧可以記住搜尋引擎以前被問及的事情及其作為回應而產生的概念

3.8.1.2. 從理論上講,這對使用者也越來越有幫助

3.8.2. 線上流媒體服務也在如法炮製,它們利用人工智慧使針對電視節目和電影的建議更明確、更積極,或給出人們希望獲得的更多答案

3.8.3. 隨著人工智慧對人們的瞭解越來越深入,獲得的結果大體上還是積極的

4. 生成對抗網路

4.1. 簡稱GAN

4.1.1. 一種常見的生成式人工智慧訓練技術是讓兩個學習目標互為補充的網路進行對抗

4.2. 生成器網路的目標是產生潛在的輸出,而判別器網路的目標是防止產生不良的輸出

4.3. 生成器的任務是進行頭腦風暴,而判別器的任務是評估哪些想法是相關的和現實的

4.4. 在訓練階段,生成器和判別器交替訓練,訓練判別器時保持生成器不變,反之亦然

4.5. 經過GAN訓練的人工智慧可以在人們起草電子郵件時建議補全句子,或者允許搜尋引擎完成部分查詢

4.6. 程式設計師可能很快就能省力了,他們只要勾勒出所需程式的大綱,然後將大綱交給人工智慧完成即可

5. 過濾

5.1. 過濾可以幫助引導選擇

5.1.1. 在現實世界中,外國遊客會僱用導遊,並根據自己的宗教信仰、國籍或職業,讓導遊帶他們參觀他們認為最值得去的歷史古蹟或最有意義的景點

5.2. 過濾也可以透過省略和遺漏資訊而成為一種審查制度

5.3. 在網路空間,過濾會自我強化

5.3.1. 它會放大一些主題和來源,並出於實際需要而對其他內容視而不見

5.3.2. 這種事實上的遺漏的後果是雙重的:既可以讓個人變得閉目塞聽,也可以讓這些個體彼此難以一致

相關文章