OpenAI目前正在尋求資料合作伙伴,打算與各組織合作生成用於訓練人工智慧模型的公共及私有資料集,旨在提高人工智慧對特定領域或主題的整體理解能力。
該公司的官網部落格上寫道,為了讓人工智慧深入理解各個行業、文化和語言,它需要儘可能廣泛的訓練資料集。“現代人工智慧技術透過理解其訓練資料來學習我們世界的方方面面——人、我們的動機、互動和交流方式。”
據瞭解,OpenAI主要對反映人類社會的、目前在公共網路上不易獲取的大規模資料集感興趣。提交的資料型別可以是文字、影像、音訊或影片格式。該公司表示,他們有能力處理幾乎任何形式的資料,他們擁有世界一流的光學字元識別(OCR)技術,可以將PDF等檔案數字化,以及自動語音識別(ASR)技術,可以將口頭語言轉錄為文字。
OpenAI表示他們不尋求包含敏感或個人資訊的資料集,也不尋求屬於第三方的資訊,並可以協助刪除提交資料中的這些資訊。
目前OpenAI公開了兩種合作方式,一是可供任何人在AI模型訓練中使用的開源資料集;二是用於訓練專有AI模型的私有資料集(OpenAI表示將根據對方的要求對資料設定相應的敏感性和訪問控制級別)。
該公司表示他們已經與許多組織合作,例如冰島政府和Miðeind ehf。透過整合這部分資料集,提升了GPT-4對冰島語的熟練程度。再如與非營利組織Free Law Project合作,將他們的法律相關檔案收集納入了人工智慧訓練中。
編輯:左右裡
資訊來源:OpenAI官網
轉載請註明出處和本文連結