讀AI未來進行式筆記01深度學習
躺柒發表於2024-06-03
1. AI
1.1. AI已經發展成一門涵蓋許多子領域的重要學科
1.2. 機器學習是迄今為止AI應用最成功的子領域
1.2.1. 在這個領域中,最大的技術突破就是深度學習
1.3. “人工智慧”“機器學習”和“深度學習”的時候,可能不會把它們的概念區分得那麼清楚,有時候,這幾個詞會被混用
1.4. 2016年,基於深度學習技術開發的圍棋棋手AlphaGo擊敗了韓國棋手李世石,令世界為之震驚,而深度學習也藉此徹底點燃了人們對AI的熱情
2. 深度學習
2.1. 第一篇闡述深度學習的學術論文發表於1967年
2.1.1. 這項技術卻花了近50年的時間才得以蓬勃發展,之所以經歷了這麼長的時間,是因為深度學習需要海量的資料和強大的算力,才能訓練多達幾千層的神經網路
2.2. 如果把算力比作AI的引擎,那麼資料就是AI的燃料,直到最近10年,算力才變得足夠高效,資料才變得足夠豐富
2.2.1. 如今,智慧手機所擁有的算力,相當於1969年美國國家航空航天局(NASA)把尼爾·阿姆斯特朗送上月球時所用電腦算力的數百萬倍
2.2.2. 2020年的網際網路資料量幾乎是1995年時的1萬億倍
2.3. 受人類大腦內部複雜的神經元網路的啟發,深度學習模擬生物神經網路,構建出包括輸入層和輸出層在內的人工神經網路,當將資料輸入該網路的輸入層後,在輸出層就會顯現出相應的處理結果
2.3.1. 中間層
2.3.1.1. 又稱隱藏層
2.4. 儘管深度學習的最初靈感來源於人類的大腦,但二者的運作方式截然不同
2.4.1. 深度學習所需要的資料量遠比人腦所需要的多得多
2.4.2. 一旦經過大資料訓練,它在相同領域的表現將遠遠超過人類
2.4.2.1. 尤其是在數字的量化學習
2.4.2.1.1. 挑選某人最可能購買的產品
2.4.2.1.2. 從100萬張臉中挑選最匹配的一張
2.4.3. 人類在同一時間內只能把注意力放在少數幾件事情上面,而深度學習演算法卻可以同時處理海量資訊,並且發現在大量資料背後的模糊特徵之間的關聯,這些模糊特徵不僅複雜而且微妙,人類往往無法理解,甚至可能不會注意到
2.5. 沒有這些外在的人類規則,深度學習的效果其實會更好
2.6. 深度學習的訓練方法是,針對特定的應用場景,給人工神經網路的輸入層“投餵”大量資料樣本,同時給輸出層“投餵”相應的“正確答案”,透過這樣的訓練,不斷最佳化人工神經網路的內部引數,使根據輸入生成最接近“正確答案”的輸出的機率最高
2.6.1. 在訓練過程中,可以將深度學習視為解決目標函式最大化問題的一種數學運算
2.6.2. 目標函式是由每次的訓練主題決定的
2.7. 人工神經網路的訓練是一個數學處理過程
2.7.1. 透過不斷調整網路中的數百萬個引數(有時甚至是數十億個引數),來最大限度地提高“只要輸入有貓的圖片,就輸出‘有貓’的判定”的機率,以及“只要輸入沒有貓的圖片,就輸出‘無貓’的判定”的機率
2.8. 深度學習幾乎在任何領域都能發揮識別、預測、分類、合成的作用
2.9. 在藉助大量資料進行訓練時,深度學習可以針對每一個使用者提供定製化的服務——基於海量資料中較相似使用者的資料,對每個使用者做出貼切的預測,以達到千人千面的效果
3. 人腦和AI“腦”的差別和擅長
3.1. 深度學習的能力非常強大,然而它並不是“包治百病”的靈丹妙藥
3.1.1. 不具備人類在面對決策時獨一無二的汲取過去的經驗、使用抽象概念和常識的能力
3.2. 與人類相比,深度學習想要充分發揮作用,離不開海量的相關資料、單一領域的應用場景以及明確的目標函式
3.2.1. 這三項缺一不可,如果缺少其中任何一項,深度學習將無用武之地
3.2.2. 如果資料太少,AI演算法就沒有足夠多的樣本去洞察資料背後的模糊特徵之間的有意義的關聯
3.2.3. 如果問題涉及多個領域,AI演算法就無法周全考慮不同領域之間的關聯,也無法獲得足夠的資料來覆蓋跨領域多因素排列組合的所有可能性
3.2.4. 如果目標函式太過寬泛,AI演算法就缺乏明確的方向,以至於很難進一步最佳化模型的效能
3.3. 圖
4. 行業的應用
4.1. 網際網路行業的領頭企業成為AI技術的第一批受益者也就不足為奇了
4.2. 在網際網路之外,深度學習觸手可及的下一個行業是金融業
4.2.1. 擁有單一領域(保險業)海量的高質量資料,而且這些資料都與業務指標緊密相連
4.2.2. 透過對海量資料進行學習,實現更好的財務成果(基於使用者信用評級降低違約率)、更高效的即時交易(藉助AI和應用程式),以及更低的成本(無須人工)
4.3. AI還有一個非常有趣的優勢,就是資料越多越好,資料越多元化越好
4.3.1. 透過不斷蒐集資料(包括那些讓人類專家大跌眼鏡的稀奇古怪的資料),AI可以做出更精確的判斷,從而創造更多的利潤
4.3.2. 所有這些資訊都會成為證據,說明很多關於你的情況,包括你身為投保人的相對風險,而這些資料都可以透過你的手機應用程式來獲取
4.3.3. 在這些資訊中,有的一看就是價值很高的,有的看起來價值一般,但是深度學習的強大之處就在於它可以在所有資訊的特徵中找到微妙的組合,對組合特徵中豐富的有價值的資訊做更深層的洞察,而這個過程是人類無法理解、無法做到的
5. 深度學習的問題
5.1. 深度學習會使AI比你更瞭解你自己
5.1.1. AI也會掌握你的缺點
5.1.2. 奈飛平臺2020年的高分紀錄片《智慧陷阱》就展現了AI個性化推薦如何讓人們在無意識中被操縱,使AI應用程式背後的利益方達成目的
5.1.2.1. 如果人們對AI的個性化推薦上癮,這類應用程式就可能縮窄人們的視野、扭曲事實的真相、加劇社會的分化,對人類的情緒、心理健康、幸福感等方面造成負面影響
5.1.3. 資訊繭房
5.1.3.1. 你在手機上的每次點選都會啟用價值數十億美元的超級計算機,它會根據從20億使用者的行為中學習到和提取到的經驗,對準你的大腦,企圖左右你的思維
5.1.4. AI所訓練的目標函式通常針對的是單一目標,例如賺錢(或者更多的點選量、廣告),因此,AI有可能過度熱衷於企業的目標績效,而不考慮使用者的福祉
5.1.4.1. 一種通用的方法是讓AI的目標函式變得不再單一
5.1.4.2. 設計目標函式時需要考慮人類的福祉,並讓人類更大程度地參與資料標註和目標函式的設計
5.1.4.3. 不僅需要對AI的複雜目標函式展開更加深入的研究,而且需要對“所花費的有意義的時間”“維護社會公平”“幸福”等概念進行量化
5.1.5. 解決方案
5.1.5.1. 一種方法是制定法規,對某些傷害人類福祉的行為給予處罰
5.1.5.2. 另一種方法是對企業承擔社會責任的行為進行評價
5.1.5.3. 一種方法是建立第三方監管機構,監督企業對技術是否有不當使用
5.1.5.4. 特別困難但又特別有效的一種方法是,確保AI技術持有者的利益與每個使用者的利益達成100%的一致
5.2. 會使不公平和偏見得以延續
5.2.1. AI完全基於資料最佳化和結果最佳化進行決策,理論上應該比大部分人更加不受偏見的影響,但是,其實AI也可能產生偏見
5.2.2. 倘若用於訓練AI的資料不夠充分、全面,對某些群體的覆蓋率不足,那麼就會產生偏見
5.2.3. 倘若訓練資料全部收集自一個有偏見的環境,那麼資料本身就可能帶有偏見
5.2.4. 微軟的Tay對話機器人和OpenAI的語言模型GPT-3,都生成過歧視少數群體的言論
5.2.5. AI可以基於面部微表情精準地推斷一個人的性取向,這種AI應用就可能導致不公平和偏見
5.2.6. 薩赫傑的“低種姓”並不是直接標註給AI系統的,而是AI系統透過歷史資料和個人特徵推斷出來的
5.2.6.1. 薩赫傑並沒有被直接貼上“達利特”的標籤,但因為他的資料和特徵與“達利特”高度相關
5.2.7. 如果把帶有偏見的AI應用於醫學診斷或者司法判定,那麼其風險將無法想象
5.2.8. 解決方案
5.2.8.1. 使用AI的公司應該披露AI系統被用在哪裡以及使用目的
5.2.8.2. AI工程師應該接受一套職業道德準則的培訓
5.2.8.2.1. AI工程師應該接受一套職業道德準則的培訓
5.2.8.3. 工程師使用的AI訓練工具應該嵌入嚴格的測試機制,以對基於樣本比例不公平的資料訓練出來的計算模型發出警告或徹底禁止生成模型
5.2.8.4. 應該制定AI審計法
5.2.8.4.1. 這與傳統的財務審計或稅務審計類似,AI公司被舉報後,政府需要派遣專家對其進行審計
5.2.8.4.2. 如果一家公司在AI的倫理道德或者公平性方面多次被投訴,它的AI演算法就必須接受審計,以檢查、確定其是否存在不公平、偏見或隱私保護方面的漏洞
5.3. 不可解釋性
5.3.1. 人類總是能解釋人類決策背後的原因,因為人類的決策過程本身比較簡單,是基於經驗積累得出的規則
5.3.2. 經過海量資料訓練而得出的數學方程組,要把這個方程組精確地簡化成一個人類可以聽得懂的“原因”,基本上是不可能的
5.3.3. 無論是出於法律的考量,還是出於使用者的期望,許多關鍵的AI決策都需要給出一個解釋
5.3.3.1. 為了解決這一問題,人們目前正在進行許多相關的研究,這些研究試圖簡化、總結AI複雜的邏輯過程,或者發明具有可解釋性框架的AI演算法,從而使AI變得更加“透明”
5.4. 任何強大的技術都是一把雙刃劍
5.4.1. 電力可以為人類社會的日常設施提供動力,但如果人直接碰觸電,就可能喪失性命
5.4.2. 網際網路讓一切變得更加方便,但也大幅降低了人對事物的專注力
5.4.3. 所有的新技術都有缺點
5.4.3.1. 歷史表明,許多技術的早期漏洞都將隨著時間的推移而得到糾正或被徹底解決
5.4.3.1.1. 防止人類觸電的斷路器
5.4.3.1.2. 查殺電腦病毒的防毒軟體
5.4.3.2. 未來透過改進技術和完善政策法規,將會解決深度學習(乃至AI)所帶來的大部分問題,比如不公平、偏見、不透明