Midjourney|文心一格prompt教程[基礎篇]:註冊使用教程、風格設定、引數介紹、隱私模式等
開頭講一下為什麼選擇Midjourney和文心一格,首先Midjourney功能效果好不多闡述;其次文心一格再多次迭代最佳化後效果也不錯,重點也免費,支援一下國產。
1.首先註冊Midjourney,文心一格
Midjourney網址:https://midjourney.com/home/
文心一格網址:https://yige.baidu.com/ 進官網註冊一下就好,可以把畫圖prompt技巧在這個上面測試。
首先,你需要註冊一個 Discord 賬號,然後加入 Midjourney 的 Discord 伺服器。或者去 Midjourney 的官網點選右下角的 Join the Beta:
note:目前國內容易被鎖還是需要用一下工具的,郵箱賬號可以使用谷歌等。
1.1 在 Discord 公共伺服器裡使用
註冊並進入到 Midjourney 的伺服器後,有可能需要完成各種任務(這個取決於 Midjourney 的運營策略,後續可能會變),如果有,則按照引導完成即可。
接著你就能在 Midjourney 的 Discord 的左側欄,看到 newbies-XXX 的頻道,隨便點選一個,進入該頻道,這個頻道就是給免費使用者測試使用的:
然後在輸入框裡輸入 / 然後你能看到輸入框上出現一個選單,一般最頂部就是 /imagine,點選該選單(如果沒有出現該選單,就輸入完 / 後繼續輸 imagine),就能在 prompt 框裡輸入圖片 prompt 了:
接著你就會看到一個叫 Midjourney 的機器人複述了你的話,在這句話的最後,有一句 Waiting to start,這就意味著你的 prompt ,機器人已經接收到了,正在為你生成圖片:
然後過一陣你會看到一張模糊的圖,然後段落最後顯示 0% 意味著程式正在生成圖片:
當你看到圖片下方有幾個 U1、V1 的按鈕,這就意味著圖片生成完成了 ?
- Upscale
生成的四格圖,單格圖片的解析度是 512 * 512(如果你是 V5 版本,則是 1024 * 1024),如果你想要生成一個更清晰的圖片,則可以點選四宮格圖片下的 U 按鈕,U1 代表左上角第一張圖,U2 是右上角,U3 是左下角,U4 是右下角。點選後,你需要等待一會,就會生成高畫質圖。需要注意,V5 版本,U 按鈕已經不會影響解析度了,只是做為一個裁切圖片的功能。換句話說就是將第一次生成的四格圖,裁成一張。
- Variation
說完 U 按鈕,說下,V 按鈕,這個按鈕代表 variation ,點選該按鈕後,程式會用你選擇的那張圖片,再生成新的 4 張圖,不過這 4 張圖的整體會跟你選擇的那張圖比較像:
- 重新生成?
最後一個按鈕 ? 則是 re-roll 重新生成,點選後程式會按照你的 prompt 重新生成 4 張圖片。
1.2 透過 Midjourney Bot 使用隱私模式
因為在公共頻道上使用,你發的圖片會被頻道里的人看到,所以如果你不想讓自己的圖被大量的人看到,可以使用 Midjourney Bot 的方式。
但需要注意,這種方式並不代表「僅有你可見」,你發的圖片仍然會在 Midjourney 的會員 Gallery 上顯示,目前僅有 Midjourney 的付費 Pro 會員能設定為隱私模式。
使用 Midjourney Bot 也很簡單,跟在 Discord 的單聊比較類似,你只需要在 Midjourney 的 newbies-XXX 頻道里找到 Midjourney Bot,然後點選它的頭像,在彈出的選單的下方有個「私信 @Midjourney Bot」的輸入框,在這個輸入框裡,隨便輸入點內容,然後按回車傳送。
然後你就會在你的私信列表裡看到這個 Midjourney Bot,使用方法就跟上面介紹的方法一樣,無任何差別。
1.3 儲存 & 刪除圖片
儲存圖片跟使用很多聊天工具一樣,點選圖片會看到放到的圖片,然後右鍵點選圖片可以選擇「影像另存為」並儲存圖片(如果你用的是 Discord 的客戶端,右鍵樣式可能與我不一樣,但操作基本是一樣的):
如果生成的圖片你不喜歡,其實你可以不用管它 ?
如果你一定要刪,也有一個刪除的渠道,但操作跟你日常使用的聊天工具的方式不太一樣,在你想要刪除的圖片訊息右上角有個 emoji 按鈕(下圖示註為 1 的按鈕),點選後會 出現一個 emoji 選單,然後在 emoji 選單裡輸入 x (下圖示註為 2 的輸入框),最後點選 ❌ emoji 即可刪除該圖片。注意這個刪除並不僅僅只是刪除聊天資訊裡的圖片,還會將圖片從 Midjourney 的會員 Gallery 裡刪除。
2. Midjourney Prompt 基本結構
在 Midjourney 的官方介紹文件裡,介紹了最簡單的 Prompt 結構是這樣的:
但我覺得上面那個 Prompt 過於簡單了 ? ,反而 Advanced Prompt 更適合學習:
2.1 Image Prompts(選填)
Prompt 分成三個部分。第一個是 Image,這個屬於選填,可以填也可以不填。
先說下這個 Image URL 是幹什麼用的,有很多玩法,比如將兩張圖合併為一張,大家可以看看下面這個例子,我就是將一個大理石雕像和花朵的圖片上傳到 Discord:
然後讓 Midjourney blend (混合)一下(後續 blend 章節會介紹更多用法)後,就能生成下面這種圖片:
需要注意的是:
- 你輸入的是圖片的 URL 地址,而且必須是公開可訪問的地址。
- 圖片格式僅支援 png、gif 和 jpg。
- 你最多隻能放兩張圖的 URL,或者一張圖的 URL + 一段話。
如果你不想將圖片上傳到一些圖床伺服器,也可以使用 Discord 的圖床,你可以私聊 Midjourney Bot 然後透過上傳圖片的方式,將圖片先發到 Discord 上,然後右鍵複製圖片連結,像這樣:
2.2 Text Prompt
這個就是你希望 AI 生成的圖片的描述。這個有非常多的技巧,後續會詳細介紹。這裡我想說下,Midjourney 跟 ChatGPT 有點不一樣:
- 無法理解句子結構和語法:Midjourney 沒法像 ChatGPT 那樣懂你說的話。類比的話,Midjourney 更像是指令式程式設計,ChatGPT 更像是宣告式程式設計,你需要給 Midjourney 完整的指令,它才有可能生成你滿意的結果。
- Midjourney 有違禁詞的設計:有些詞語無法輸入,比如 emoji 就沒法輸入,因為這個 emoji 是 butts 的俚語,常常會導致模型生成一些不太好的圖片,所以也被禁止了。
2.3 Parameter(引數)
Midjourney 大約有 20 多個引數設定項,我會在下一章介紹幾個常用引數。瞭解完基本引數後,你應該就能用 Midjourney 生成不錯的圖了。
3.Midjourney Prompt 常用引數
簡單說來,你可以將這些引數理解為官方的固定 prompt 模版,而且這個模板包含了一些特殊字元,讓模型能百分百保證輸出結果的一致性,並且還能提升 prompt 的準確度和輸入效率。
如果你有用過 ChatGPT ,應該會遇到過這種場景,用了別人一樣的 prompt 模板,但卻沒法令 ChatGPT 生成相同的內容。
而 Midjourney 因為是圖片類目,相對比較垂直,所以他們將很多圖片類的通用 prompt 語句做成了模板,比如圖片長寬比,有 1:1、2:3、4:7 等等,如果你要用 ChatGPT 的使用習慣,就需要在 prompt 裡不斷重複 Aspect Ratios 1:1 等,而且每個人的表達 Aspect Ratios 的方式都不一樣,模型還要去理解人說的話,比較麻煩。
所以 Midjourney 就設計了一些引數,讓你能快速呼叫,比如 Aspect Ratio 這個,就只需要輸入 — ar 1:1 即可。同時因為固定了表達方式,大家要改長寬比,都會用這種方式表達,Midjourney 調整下模型,就能保證輸出的圖片的一致性了。
因為其穩定且必須,所以我才會先教各位引數。
3.1版本選擇
目前 Midjourney 支援多個版本,最新的版本是 V5 ,跟 ChatGPT 稍微有點不一樣,Midjourney 給我的感覺,並不是版本越大,越厲害,而是擅長的東西不太一樣。相關區別請查閱 Midjourney 各版本差異。
Version 引數使用方式見下表。你也可以在設定裡,調整預設的版本,相關教程請查閱 Midjourney 基礎設定。
呼叫方法 | 使用案例 | 注意事項 |
---|---|---|
在關鍵詞後加空格,然後帶上版本引數:
|
vibrant california poppies --v 5 | 版本僅支援 1、2、3、4、5。 |
因為可以在 prompt 裡直接加版本引數,同時又可以在設定裡設定版本,所以你有可能會遇到如下圖這樣的情況(我想生成版本 1 的圖,但設定裡設定了 5 怎麼辦?):
此時模型會按照從左往右的順序執行這些引數,按照上面的例子,其實生成的圖片是 V1 版本,可以跟下面的這個 V5 版本對比下:
3.2 高寬比設定
第一個引數是圖片的長寬比,使用方式如下,及版本差異如下:
呼叫方法 | 使用案例 | 注意事項 | V5 | V4 | V3 | niji |
---|---|---|---|---|---|---|
在關鍵詞後加空格,然後帶上長寬比引數:
|
vibrant california poppies --ar 5:4 |
|
✅ 支援任意比例。但2:1以上的寬高比是實驗性的,可能會產生不可預測的結果。 | ✅ 1:2 到 2:1 | ✅ 5:2 到 2:5 | ✅ 1:2 到 2:1 |
另外,長寬比在業界也有最佳實踐:
- 5:4 多用於傳統列印
- 3:2 多用於照片列印
- 7:4 比例接近於 HD TV 的比例,或者是智慧手機
- NO
這個引數的意思是不要什麼,如果你不想讓 AI 生成的圖片裡出現樹,那就輸入 plants 即可:
呼叫方法 | 使用案例 | 注意事項 | V5 | V4 | V3 | niji |
---|---|---|---|---|---|---|
在關鍵詞後加空格,然後帶上你不想 AI 生成的內容:
|
—no plants | 無 | ✅ | ✅ | ✅ | ✅ |
3.3 隨機性引數Chaos
這個引數跟 ChatGPT 裡的 Top P 有點像,主要控制模型的隨機性,數字越高,約有可能產生一些意想不到的結果,數字越低一致性會更高。看看官方的例子, prompt 是 watermelon owl hybrid。
這是當 Chaos 為 0 的時候,一致性會比較高,西瓜和貓頭鷹的融合的方式,在四次輸出裡都比較類似,另外在單次輸出裡,4張圖(四宮格)的風格相似度也比較高:
這是 Chaos 為 100 的時候,你會發現多次輸出的融合風格都不太一樣,且即使是在單次輸出裡,4 張圖的風格區別也比較大。如果你是想讓 AI 幫你做一些探索性的事情,我建議初期可以將 Chaos 調高一點,結果會發散一些。
呼叫方法 | 使用案例 | 注意事項 | V5 | V4 | V3 | niji |
---|---|---|---|---|---|---|
在關鍵詞後加空格,然後帶數字:
|
—c 10 | 可以輸入 0 - 100,預設是 0 | ✅ | ✅ | ✅ | ✅ |
3.4 風格
這個引數跟 ChatGPT 裡的 Temperature 有點像,主要是控制生成圖片的風格化程度。簡單理解,這個值越低會更符合 prompt 的描述,數值越高藝術性就會越強,但跟 prompt 關聯性就會比較弱。
我們一起看下官方的例子,prompt 都是 colorful risograph of a fig。Risograph是一種數位印刷機,它使用模板和專用油墨來製作印刷品。Risograph通常用於製作海報、宣傳冊等低成本印刷品。這種印刷機可以產生特殊的色彩和紋理效果,頭三張圖基本上契合 risograph 的風格,但右下角那四張就非常不像了,模型加了很多戲 ?
除了在 prompt 裡輸入外,你也可以在設定裡,調整預設的版本,相關教程請查閱 Midjourney 基礎設定。
呼叫方法 | 使用案例 | 注意事項 | V5 | V4 | V3 | niji |
---|---|---|---|---|---|---|
在關鍵詞後加空格,然後帶數字:
|
—s 50 | 預設是 100 | ✅ | ✅ | ✅ | ✅ |
3.5 Niji風格
這個其實 Niji 模型,是 Midjourney 跟 Spellbrush 一起開發的。「niji」是日語「にじ」,意思是「彩虹」 或者 「2D」。
它在生成動漫類的圖片上,比較在行。舉個例子,prompt 是 fancy peacock,左圖是 v5 模型,右圖是 niji v5模型,右圖更偏向於漫畫風格:
使用方法跟 Version 比較像,只需要在文字 prompt 最後輸入 —niji 即可
呼叫方法 | 使用案例 | 注意事項 |
---|---|---|
在關鍵詞後加空格,然後帶上版本引數:
|
vibrant california poppies --niji | 部分引數對 Niji 無效。大家可以在完整列表裡檢視哪些引數對 Niji 無效。 |
4.Midjourney 基礎設定
你可以在 Midjourney 的伺服器,或者 Midjourney Bot 聊天視窗,輸入 /setting,然後按下回車:
接著你就能看到這樣的 Bot 訊息:
第一二行是版本切換,你可以根據自己的需要切換不同的版本,MJ Version 1-5 分別表示 Midjourney 的不同版本,切換後,輸出的所有圖,預設都會用該版本生成,各個版本區別請查閱 Midjourney 各版本差異。 2023 年 4 月 5 日,Midjourney 上線了其 Niji 5,所以版本設定截圖裡會有 Niji 4 和 Niji 5 Mode 按鈕,請知悉:
4.1 影像質量設定
第三行是影像質量設定。注意這個引數並不影響解析度。它改變的更多的是圖片的細節,詳細的介紹可以查閱 Midjourney Prompt 高階引數 這一章。
基本上保持預設的就可以了,即圖中的 Base quality:
4.2 風格設定
第四行風格設定,風格設定簡單理解,這個值越低會更符合 prompt 的描述,數值越高藝術性就會越強,但跟 prompt 關聯性就會比較弱。詳細的介紹可以查閱 Midjourney Prompt 常用引數 這一章。
4.3 隱私設定
這個設定預設是 Public(公開),只有付費的 Pro 使用者可以將其設定為 Stealth Mode(隱私),Basic 和 Standard 都沒法設定為 Stealth,對 Midjourney 付費感興趣的可以看看 訂閱 Midjourney 會員 這一章。
4.4 Remix 設定
Remix Mode 目前是一個實驗功能,可能會隨時更改或刪除。
我自己使用下來,有點像 blend(混合)圖片模式,使用方法是這樣的。首先在 Remix 模式下,點選 Variation 按鈕,會彈出一個 Prompt 輸入框,輸入完後,模型會在不改變第一張圖的結構的情況下,增加 Prompt 裡提到的內容,比如下面這個例子,第一張圖原來是一堆南瓜,點選 Variation 按鈕輸入 pile of cartoon owls ,就會生成了一張保留原來南瓜圖構圖,但主體換成了卡通貓頭鷹的圖。
4.5 生成速度設定
這個預設是 Fast Mode,這個只有付費的 Standard 和 Pro 使用者可以設定,其餘使用者都是 Fast Mode。Standard 和 Pro 使用者可以在 Relax Mode 模式下,生成無限圖片。對 Midjourney 付費感興趣的可以看看 訂閱 Midjourney 會員 這一章。
5. 關於Midjourney 會員情況
你可以在 Midjourney 的伺服器,或者 Midjourney Bot 聊天視窗,輸入 /subscribe,然後按下回車:
然後 Bot 就會傳送這樣的訊息,點選 Open subscription 按鈕就能進入到付費頁面了:
付費的過程還比較簡單,我這裡就不做介紹了,只是需要注意,Midjourney 的付費功能用的服務提供商是 Stripe ,目前應該只支援信用卡支付,所以如果要買會員需要有一張信用卡。
5.1 各套餐之間的差異有哪些?
:
Basic Plan | Standard Plan | Pro Plan | |
---|---|---|---|
月付價格 | $10 / month | $30 / month | $60 / month |
年付價格 | $8 / month | $24 / month | $48 / month |
Fast Generations | 3 hours 左右(大約能生成 200 張圖) | 15 hours | 30 hours |
Concurrent Fast Jobs | 3 | 3 | 12 |
Relaxed Generations | ❌ | ✅ | ✅ |
Stealth Mode | ❌ | ❌ | ✅ |
首先,Midjourney 的計費跟 OpenAI 不太一樣,OpenAI 計費用的是 Token,Midjourney 用的計費方式是時間,因為其主要的成本在 GPU 計算,Midjourney 採用這種方式,估計也是因為他們的 GPU 也是租的,租用 GPU 的費用也是按時間計算,所以轉嫁到消費者上也按照時間算了,Basic 版本看後臺,Fast Generation 的時間是 3h 20 min,然後官方說明是應該能生成 200 多張圖。
不過每張圖所耗的 GPU 時間並不固定,還取決於你的圖片質量等,影響費用的因素有以下幾種,各個引數對應的影響,可以查閱教程裡關於引數的內容。我這不展開解釋,簡而言之,圖片質量越好,個性化因素越多,價格就越貴。
低於平均價格 | 平均價格 | 高於平均價格 | |
---|---|---|---|
不同任務 | Variations(就是生成圖片後,圖片下的 V 按鈕) | /imagine 生成圖片 | Upscale(就是生成圖片後,圖片下的 U 按鈕) |
Aspect Ratio 長寬比 | 預設 | tall or wide(換句話說,改這個引數就要花更多的錢) | |
Model Version 模型版本 | 預設(—V 4) | —test or —testp 這兩個模型會更貴一些,我一般很少用 | |
Quality Parameter影像質量引數 | --q 0.25 or —q 0.5 | 預設(—q 1) | —q 2 |
Stop Parameter停止引數 | --stop 10 到 —stop 99 | 預設(—stop 100) |
然後 Standard Plan 開始還有一種叫 Relaxed Gerneration 的模式,這種模式下,該套餐付費使用者,可以無限出圖,但圖片生成的速度會變慢,按照官方解釋是 0-10 分鐘。
其實本質上它是一種 GPU 空閒資源排隊方案,切換到 Relax 模式下,所有生成圖片請求會進入到一個排隊等待狀態,當沒有 Fast 模式下的使用者使用 GPU 時,就會將 GPU 資源給 Relax 模式的使用者,所以才需要等待那麼長的時間,本質上是閒置資源的利用 。
另外需要注意:
- 你用得越多 Relax 模式,你等待的時間就越長,這個有點像是手機運營商的無限套餐邏輯,流量達到某個閾值就會降速,所以如果你是和他人合購賬號,就需要注意了,Fast 時間基本上就是先到先得,Relax 模式越用會越慢。
- 即使你上個月底已經切換為 Relax 模式,每個月的月初,系統也會自動將模式切換為 Fast 模式。
最後還有一個 Stealth 模式,Midjourney 是一個預設開放的社群,所以你在 Midjourney 上生成的圖片(包括你私聊 Bot 生成的圖片),都是公開的,你可以在會員 Gallery 那看到所有人生成的圖片。
只有 Pro 版本可以不公開自己的圖片到 Gallery,另外還有一點需要注意,如果你開啟了 Stealth 模式,然後在 Midjourney 的 Discord 公開頻道生成圖片,Stealth 模式不生效,生成的圖片依然會被 Discord 公開頻道里的人看見。