機器之能報導
編輯:Sia
大模型替代編輯小助理,比蘿蔔快跑替代司機,靠譜得多。
據說,自媒體使用川普遇刺照片作為配圖,一張付費 2100 元!
隨便下一張圖片給文章配圖的日子,一去不復返咯。
不過,創作者們的麻煩並未到此為止。
寫完一篇公眾號文章,接下來的十幾分鍾最讓人抓耳撓腮:
標題鋪位,黃金地段,寸土寸金。除了突出內容亮點,還要確保標題足夠吸引人點開看,這可比寫文章難多了!
啥?酒香不怕巷子深?
在紅海的公眾號圈子裡,這條行不通。
也別灰心!磨合一段時間,我們發現,大模型在解決這兩個日常挑戰上,還挺管用。
-1-
最短時間起一個合格標題
為了方便嘮,咱就以這篇機器人基礎模型新公司 Skild AI 報導為例。
如果對文章需要突出的亮點了如指掌,只是不知道怎麼整出一個吸引人的排列組合,不妨告訴大模型:
1、這是一篇微信公眾號的文章,需要一個吸引人的標題;
2、標題要突出資料優勢、融資額度和機器人GPT
這是 Claude 3.5 sonnet 的主意,還不賴!
連亮點有哪些也搞不清楚?
那就先讓大模型幫忙找,再讓 TA 將找到的亮點集中體現在標題上。
Claude 3.5 sonnet 歸納總結的能力,很不錯。
連亮點都懶得考慮?那就直接「依葫蘆畫瓢」!
有人說,喜歡「機器之心」那種風格的標題。等等,那是啥味兒?我們還真沒統計過。
讓大模型分析一下:技術性、大 IP 要突出、吸引眼球......
唔,好像是這樣子。
給新報導起了幾個類似標題。還真有內味兒,前三個幾乎可以直接拿來用,除了有點長。
如果更喜歡微博熱搜風格的標題呢?
我們將 7 月 15 日某時點熱搜,作為輸入,讓大模型分析這些熱搜標題的特點。
接下來也給這篇文章起一個熱搜風格的標題。是不是還可以?至少,咱有了進一步改善的基礎方案(萬事開頭難吶):
還可以要求更多備選:
有人喜歡專業、嚴肅的財經媒體標題風格,安排上。
我們集合了三年《財新週刊》封面報導標題,讓 Claude 3.5 sonnet 分析。
短、雙關、重大話題、問題導向......,幾個要點都抓到了:
這是大模型為咱們這篇報導起的幾個標題。
內什麼,前三個標題的風格,是不是確有幾分相似?
-2-
模仿生圖,AI 主打一個省
為了避免版權糾紛,越來越多的人開始用 AI 生成文章的封面。
很多時候,比起讓 AI 毫無頭緒地天馬行空,我們更希望 TA 直接模仿一些現成圖片。
一般,我們會先讓大模型看圖說話,給出提示詞,再將這些提示詞扔給圖片生成器。
這是一位同事的真實體驗:
如果發現提示詞不好使,可以讓大模型( Claude 3.5 sonnet )「仔細描述圖片細節和內容」:
然後,將這些描述扔給圖片生成器:
這張圖片展示了一個獨特而富有對比的場景:
背景:圖片背景是一面灰色的混凝土牆,看起來質感粗糙,有些斑駁和紋理。
座席:圖片中央有一個簡單的黑色長凳或平臺,看起來也是由混凝土或某種硬質材料製成。
人物:一個年輕男子坐在長凳的右側。他穿著深色西裝和高領毛衣,戴著黑框眼鏡。他的姿勢很放鬆,雙手放在腿上。
機器人:在長凳的左側,坐著一個小型白色機器人。這個機器人有一個圓形的頭部,上面有紅色的眼睛狀燈光。它的身體上有一些彩色的裝飾,看起來像是控制皮膚。
光線:圖片的光線很有特點,從右側打來,在牆上和地上投下了人和機器人的陰影。這種光影效果增添了圖片的戲劇性和深度。
氛圍:整個場景給人一種未來主義和科技感的氛圍。人類和機器人並排而坐,似乎在暗示人機共存的未來。
構圖:圖片構圖簡潔有力,左右對稱,中間留有空白,增強了人與機器人之間的對比和聯絡。
這張圖片透過簡潔而富有寓意的場景設定,巧妙地展現了人類與人工智慧共處的主題,引發了對未來科技發展的思考。
這是 DALL-E-3 生成的圖片。
內容、風格和構圖都差不多,包括配色,完全可以作為替代方案。
這是我們利用類似方法生成的一些配圖。左邊為原圖,右邊為大模型生成的圖片。
當然,還可以用快手自研文生圖大模型可圖,現在限免中,口碑也不錯。
不過,可圖大模型不像 DALL-E-3 ,根本消化不了 Claude 3.5 sonnet 生成的大量描述內容。
因此,輸入「創意概述」時,必須縮減、修改:
一個簡單的黑色長凳,一個年輕男子坐在長凳的右側。他穿著深色西裝和高領毛衣,戴著黑框眼鏡,雙手放在腿上,長凳的左側,坐著一個小型白色機器人,有一個圓形的頭部,上面有紅色的眼睛狀燈光。它的身體上有一些彩色的裝飾,看起來像是控制皮膚。圖片的光線很有特點,從右側打來,在牆上和地上投下了人和機器人的陰影。
然後「墊圖」,調整相似程度,生成結果:
不過,就這張圖片來說,效果很不好。
除了人和機器突然變多,近看其中一張,人物還有一張樂高般的臉蛋兒。
最近科技媒體 The verge 報導了首部生成式傳記電影,主人公是 David Bowie、U2 、Coldplay 等人的音樂製作人 Brian Eno。
這部電影每播放一次,電影素材都會根據特殊的演算法重新組合一次,因此,每次看到的內容都不一樣。
這種拼貼風格的封面設計,很好迎合了電影主題,也展現出一個傳記人物的多面性。
我們先讓 Claude 3.5 sonnet 仔細描述這張圖片,再將它的描述扔給 DALL-E-3 生圖。
怎麼說呢?感覺工整得有些呆板了。
我們又將 Claude 3.5 sonnet 的描述精簡到一句話,扔給可圖大模型,墊上圖。
這一次,可圖的效果明顯更勝一籌。
我們也嘗試模仿《經濟學人》創意獨特的封面。
這一次,可圖的視覺效果(右下)要優於 DALL-E-3 (右上)。但,糟糕的拼寫讓結果功虧一簣。
針對更加敏感的圖片內容,可圖大模型乾脆拒絕原圖上傳。
我們用 DALL-E-3 生成了一種類似風格的圖片,表達 LLM 對個人隱私和資料構成了威脅。
-3-
文字和手指
仍是圖片生成器的軟肋
前面的案例已經告訴我們:
如果圖片必須包含單詞、文字,TA 很難做到!
你看,可圖還是會弄錯 OpenAI 的拼寫, DALL-E-3 也經常如此。
想要 DALL-E-3 的圖片正確顯示「西門子」,無論是英文還是中文,都很困難。
生成一個關於西門子 Industrial Copilot 的圖片 ,兩個關鍵單詞也是錯的。
雖然早知道涉及手指細節部分,圖片生成器依舊很容易出問題。
但萬萬沒想到,哪怕是一張類似如花挖鼻孔的圖片,也很難成功。
這是 DALL-E-3 的作品,真是「驚為天人」。
扔給可圖,TA 也夠為難的,手指都不好意思伸到鼻孔跟前:
至於手裡拿槍,好嘛,動不動就是六個指頭:
這也不奇怪。
影像生成器通常使用擴散模型,是從噪聲中重建影像,學習的是覆蓋更多畫素的模式,文字、手指這樣的細節生成上,自然表現較差。
當然,這並不是說文字生成器就一定是拼寫高手,儘管影像和文字生成器背後的底層技術不同,它們在拼寫等細節方面,都有類似的困難。
畢竟,還是缺乏物理世界、語言世界的基本常識。