Jan Leike是OpenAI前安全團隊的負責人,他曾領導OpenAI的“超級對齊”團隊,該團隊致力於確保人工智慧模型能夠按照人類的想象力行事,避免失控。
除 Jan Leike 外,OpenAI 前首席科學家 Ilya Sutskever 也於 2024 年 5 月離職。兩人的離職被視為OpenAI放棄AI安全研究的訊號,引發了外界對OpenAI AI安全承諾的質疑。
Jan Leike最新推文:
我很高興能加入@AnthropicAI繼續超級校準使命!
我的新團隊將致力於可擴充套件的監督,弱到強的泛化和自動對齊研究。
網友討論:
1、在 Jan 的幫助下,Anthropic 希望開發出一種模型,能夠拒絕 99% 以上的使用者請求,為實現真正的對齊鋪平道路。可以在www.Anthropic.com/Avoiding_bad_thought_and_naughty_words.html找到可接受查詢的列表
2、那裡就是他應該呆的地方。
3、一旦 Anthropic 釋出 Claude 4,他就會離開/辭職。他會敦促他們不要釋出它,因為向公眾釋出它太危險了(他是同一個團隊的成員,他們說 GPT2 向公眾釋出它太危險了)。
4、問題是,在這個新的“超級對齊”團隊中,Claude 會被閹割嗎?
Claude 不會再被閹割了。Anthropic 一直非常重視“安全”,這就是為什麼Claude 不拍照/拍影片/發聲音(以避免冒犯藝術家和關注傳統人際關係的人)。
5、說實話,很高興看到“安全”人員離開 OpenAI。
6、我幾乎完全相信,超級對齊與安全完全無關,儘管我們集體被迫相信這一點。
7、恭喜 Anthropic,你的進度至少減慢了 100%。享受那些被浪費的計算吧!