即然接下來的時間準備投身 AI 行業應用層開發,那就隔三岔五分享一下近期學到的知識、在做的事情吧。(配圖是今天用第一次用 SD 生成的圖片,prompt:“a beautiful girl“。)
ChatGPT API 釋出
今天(2023-03-02,美國時間 03-01) OpenAI 正式釋出了 ChatGPT API,即 基於 gpt-3.5-turbo 模型的。它的價格更便宜,$0.002/1k tokens,比之前 text-davince-003 便宜 10 倍。它能提供更好的對話質量,還提供了新的結構化資料介面,相信會給應用開發者帶來更多的空間。
chatgpt 等 npm 包也相應更新,如果沒有辦法搞定綁卡操作,可以繼續用這些社群介面白嫖。
不過國內的伺服器已經不能直接訪問 OpenAI API 了,國內的同學可能需要多花一些功夫,或者金錢。
嘗試 Vercel Edge Function
之前開發 GPT-3 外掛的時候,有同學介紹了 Building a GPT-3 app with Next.js and Vercel Edge Functions 一文,於是我嘗試把 API 挪到 Vercel Edge Function 上,然後失敗。
今天寫本文的時候,又看了眼 TwitterBio 的例子,發現程式碼並沒有寫錯。排查來排查去,原來是自己犯蠢,部署環節出了問題。如今已經可以使用了。回頭重構下外掛,新增一些功能進去。
學習社群 ChatGPT API 倉庫
ChatGPT 的開發商 OpenAI 提供兩大塊服務,API 和 ChatGPT 網頁版。API 需要綁卡,有一定門檻;網頁版可以免費用,不過存在偶爾連不上、響應慢等情況,據說買 plus 之後會有好轉。
於是社群就開發了網頁版轉 API 的工具,可以用來搭建自己的 ChatGPT API。但是需要使用反向代理伺服器作為中轉,開發者也不提供反向代理伺服器的原始碼,存在一些風險,所以我看完就不打算使用了。
(現在我想想,所謂的代理伺服器,是不是搞個 nginx 就可以了……
本地搭建 Stable Diffusion 環境
搭建過程其實很簡單,難點主要在下載 pip 包和模型上,受限於牆內的網路環境,原本簡單的下載變得異常艱辛。還好在換用國內 pip 源之後,我終於在本地搭建成功 Stable Diffusion Web UI 環境。大體過程如下:
- 安裝必須的軟體環境,比如 cmake、python3.10 等
- clone AUTOMATIC1111/stable-diffusion-webui: Stable Diffusion web UI
- 修改 pip 源
- 反覆執行 ./webui 直至安裝成功
- 模型可以在 Civitai 下載
Whisper 模型
Whisper 模型是 OpenAI 釋出的開源模型,可以用來做語音識別,據說效果非常好。它不僅可以識別語音內容,還可以根據聲紋,區分不同的發言人。所以用途也很廣,比如視訊會議之後,可以用它生成會議的文字記錄。如果再結合 ChatGPT,就可以進行內容總結、會議摘要等工作,想象空間很大。
因為開源,所以可以自己搭建伺服器,據說不需要很強的計算能力,庶民可用。OpenAI 這次也放出了 Whisper API,方便使用者使用。
ChatGPT 新知
中文語料少的副作用
使用英文要求 ChatGPT 創作哈姆雷特的故事,它會拒絕,因為它知道哈姆雷特,新故事如果背景差異過大,它就會拒絕。但如果用中文,因為語料不足,哈姆雷特對它來說也只是個人名,它就會很配合。
名人資料
GPT-3 會大量混淆中國名人,比如郭德綱、嶽雲鵬;相對來說,ChatGPT 就好很多。
現在 AI 工具與 AI 基礎設施層出不窮,日新月異應接不暇,學起來既有動力也有壓力。下一步希望能把所有工具的環境都搭建起來,先積累感性認識再說。
本文參與了SegmentFault 思否寫作挑戰賽,歡迎正在閱讀的你也加入。