前 OpenAI 研究員、特斯拉人工智慧主管 安德烈-卡爾帕西(Andrej Karpathy) 解釋說,當人們“詢問人工智慧”時,他們實際上是在與人類資料標記者的平均回答進行互動,而不是與神奇的人工智慧系統進行互動。
安德烈-卡爾帕西是OpenAI的創始成員之一,並在2015年至2017年擔任研究科學家。2023年2月,他再次加入OpenAI,但後來在同年2月離職,開始個人創業專案
以下是他最新的觀點:
人們對 "向人工智慧詢問 "的含義過於誇大。人工智慧是透過模仿人類標註者的資料訓練出來的語言模型。
如果說 "向人工智慧提問 "有點神秘,其實不如說是 "向網際網路上的平均資料標註者提問"。
粗略地說,你並不是在詢問某個神奇的人工智慧,您在詢問的是人類資料標註者。
他們的平均答案被有損地提煉成了 LLM 統計token翻滾器。當使用者 "向人工智慧提問 "時,他們實際上是在與人類資料標註者提供的平均答案互動。
當然,這仍然非常有用。有人建議我們詢問人工智慧如何管理政府等,我就寫了這個觀點。
總之,你不是在問人工智慧,而是在問它的平均資料標籤器的一些混合體。
例如,當你問到 "阿姆斯特丹的十大景點 "之類的問題時,一些受僱的資料標註員可能在某個時候看到了類似的問題,然後用谷歌和 Trip Advisor 或其他工具研究了 20 分鐘,得出了 10 個景點的清單,然後這些清單就成了正確答案,從而訓練人工智慧給出該問題的答案。如果微調訓練集中沒有確切的問題地點,神經網路就會根據預訓練階段獲得的知識(網際網路文件的語言建模),推匯出一個統計上相似的氛圍列表。
例如:他們聘請專業醫生來貼標籤。你不需要標記每一個可能的查詢。你貼上足夠的標籤,LLM學會以訓練有素的醫生的風格回答醫學問題。對於新的問題,LLM可以在一定程度上依靠和轉移從閱讀所有網際網路檔案和論文等對醫學的一般理解。
例如,著名的Terence Tao(頂級數學家)為LLM貢獻了一些訓練資料。這並不意味著LLM現在可以在他的水平上回答所有的數學問題,潛在的知識和推理能力可能只是不存在於潛在的模型中。
但這確實意味著你得到了比redditor或其他東西更好的東西。
所以基本上“普通貼標籤者”可以是專業人士--程式設計師、醫生等,各種專業知識。這不一定是網際網路上的一個隨機人。這取決於LLM公司如何招聘這些資料標籤角色。他們越來越多地試圖僱用更多的高技能工人。 然後你向那些人的一種模擬提出問題,盡LLM的最大能力。
人工智慧助手如何獲得“個性”
大型語言模型要經過兩個階段的訓練。首先,它們從大量網際網路內容和其他資料中學習。然後,在微調過程中,它們會針對“人類”和“助手”角色之間的對話進行訓練,其中人類註釋者會定義助手的響應。
當人工智慧模型用“這是一個有爭議的問題”這樣的短語來回應有爭議的話題時,這是因為人類標記者被指示使用這樣的語言來保持中立。
微調過程教會人工智慧如何像一個樂於助人的助手一樣工作,同時保留其基礎知識,但調整其風格以匹配微調資料。許多人將兩年前ChatGPT的爆炸性成功歸功於這一微調過程——它讓使用者感覺他們是在與一個真實的、善解人意的人交談,而不僅僅是一個先進的自動完成系統。
概括
- 前 OpenAI 研究員 Andrej Karpathy 解釋說,當使用者“向人工智慧”提問時,他們實際上是在與人類資料標記者提供的平均答案進行互動,而不是與具有自身知識和推理能力的“神奇人工智慧”進行互動。
- LLM 的訓練分為兩步:首先,它從大量的網際網路文件中學習,然後對“人類”和“助手”角色之間的對話進行訓練,其中助手的回答由人類註釋者提供,從而讓 LLM 學會模仿這個角色。
- 對於專業學科領域,會聘請專家資料標註員,但這並不一定意味著 LLM 可以回答這些專家級別的所有問題,因為底層知識和推理技能可能無法在模型的訓練資料中完全捕獲。