ChatGPT 訂閱價或漲到 44 美元;研究稱 AI 可 100% 繞過 reCAPTCHA V2 驗證丨 RTE 開發者日報

RTE开发者社区發表於2024-09-29

開發者朋友們大家好:

這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的新聞」、「有態度的觀點」、「有意思的資料」、「有思考的文章」、「有看點的會議」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。

本期編輯:@SSN,@ 鮑勃

01 有話題的新聞

1、貓眼娛樂釋出動態故事板 AI 生成工具「神筆馬良」:視聽化呈現劇本內容

貓眼娛樂釋出了首個面向長劇本解析的動態故事板 AI 生成工具「神筆馬良」,該產品可對使用者上傳的劇本進行一鍵智慧分析、智慧角色創作、智慧分鏡創作、智慧臺詞朗讀,實現劇本內容的視聽化呈現。

「神筆馬良」有嚴格的產品使用規範和內部管理舉措,作為對劇本原創性的保護。其對劇本訪問實施嚴格的控制措施,配備風險阻斷機制、落實訪問機制和操作留痕等方式,實現許可權最小化管控。應用場景方面,該產品可應用於專案提報、創投路演、創意闡釋、劇本會議、分鏡設計等多個階段。

從官方獲悉,「神筆馬良」能夠對劇本內容進行 AI 智慧分析。根據使用者上傳的內容,「神筆馬良」可以進行「專家級」的劇情提煉,深度理解故事核心,透過 AI 生成的動態故事板,提升影視創意的評估效率與準確性,大大降低在專案前期因各方理解差異導致的溝通效率低下的情況。

該產品還可生成 AI 智慧角色,可以快速撰寫人物小傳、生成 AI 畫像,還原創作者腦海中的人物音容,使角色形象立體豐滿、一目瞭然。(@IT 之家)

2、OpenAI:計劃五年內將 ChatGPT 每月訂閱費用提高到最高 44 美元

據 Engadget 報導,OpenAI 告訴投資者,該公司計劃在今年年底前收取 ChatGPT 每月 22 美元的費用,並計劃在未來五年內積極提高月費,最高將提升至 44 美元。

報導提到,OpenAI 正在從非營利公司向盈利公司的轉變邁步,這種商業模式可取消對投資者回報的任何上限,因此公司將有更大的空間以潛在的更高價格與新投資者談判。檔案顯示,OpenAI 今年 8 月的營收為 3 億美元,自 2023 年初以來增長了 1700%,預計 2029 全年營收將達到 1000 億美元,約相當於目前雀巢或 Target 的年銷售額。不過 OpenAI 今年仍預計將虧損 50 億美元。

為了解決資金短缺問題,OpenAI 正在尋求新投資者,並以 1500 億美元的估值進行新一輪融資,預計能籌集高達 70 億美元的資金。(@ APPSO)

3、美圖公司旗下 AI 短片創作工具 MOKI 開放:覆蓋動畫短片、網文短劇、故事繪本等

美圖公司旗下 AI 短片創作工具 MOKI 於 9 月 26 日面向全部使用者開放。
官方介紹稱,與市面上流行的文生影片產品、圖生影片產品不同,MOKI 專注於 AI 短片創作這一場景,覆蓋動畫短片、網文短劇、故事繪本、MV 等多個型別的影片內容生產。

使用 MOKI 的流程如下:

在前期設定階段,輸入故事梗概或匯入現有指令碼,MOKI 生成分鏡指令碼並提供多種設定選項在內容生成階段,MOKI 生成分鏡畫面並允許細節修改在後期製作階段,MOKI 生成帶有配樂的影片內容,允許使用者對影片生成效果持續最佳化(@IT 之家)

4、蘇黎世聯邦理工學院研究:AI 可 100% 繞過谷歌 reCAPTCHA V2 驗證

據 Ars Technica 報導,蘇黎世聯邦理工學院博士生 Andreas Plesner 及其同事發表了一項新研究,研究重點放在了谷歌的驗證碼系統 reCAPTCHA V2 上。該研究聲稱,使用經過專門訓練的影像識別模型執行的本地機器人在應對這類圖片驗證碼時的表現,可以與人類相媲美,成功率達到了 100%。

谷歌 reCAPTCHA V2 驗證碼通常會向使用者提供一組圖片,要求識別出圖中的哪些部分包含腳踏車、巴士、人行道、樓梯或紅綠燈等專案。根據谷歌的說法,該系統已在幾年前逐步進入淘汰階段,新的 reCAPTCHA v3 可以分析使用者的互動。但即便如此,世界各地仍有數百萬個網站使用上文提到的 reCAPTCHA V2 系統。

研究人員使用了經過微調的開源 YOLO(You Only Look Once)物件識別模型,該模型以其實時檢測物件的能力而聞名,並且可在計算能力有限的裝置上執行。在對 14000 張標記的交通影像進行模型訓練後,研究人員的系統可以識別出任何提供的驗證碼網格影像屬於 reCAPTCHA v2 的 13 個候選類別之一的機率。

研究人員還使用了一個單獨的、預先訓練好的 YOLO 模型來應對他們稱之為「型別 2」的挑戰,即驗證碼要求使用者識別單張分割影像的哪些部分包含特定型別的物件。除了影像識別模型,研究人員還需要採取其他措施來欺騙 ReCAPTCHA 系統,例如採取措施避免來自同一 IP 地址的重複嘗試被檢測到。

根據被識別物件的型別,YOLO 模型能夠準確識別單個驗證碼影像的機率從 69%(摩托車)到 100%(消防栓)。這種效能加上其他預防措施,足以讓機器人每次都能順利「衝破」驗證碼。

在此之前曾有類似用來「對付」驗證碼的研究,但成功率大多在 68% 到 71% 之間。這篇論文的作者表示,成功率提升至 100% 表明「超越驗證碼」的時代已正式來臨。(@IT 之家)

5、show-me,提供傳統大型語言模型(LLM)互動的視覺化和透明替代方案

Show-Me 是一個開源應用程式,旨在提供傳統大型語言模型(LLM)互動的視覺化和透明替代方案。它將複雜問題分解為一系列有理有據的子任務,使使用者能夠理解 LLM 的逐步思考過程。該應用程式使用 LangChain 與 LLM 互動,並透過動態圖形介面視覺化推理過程。(@ 機器之心 SOTA 模型)

02 有態度的觀點

1、沈向洋在青年科學家 50²論壇的演講:關於大模型的 10 個思考

9 月 28 日,第四屆「青年科學家 50²論壇」在南方科技大學舉行,美國國家工程院外籍院士沈向洋做了《通用人工智慧時代,我們應該怎樣思考大模型》的主題演講,並給出了他對大模型的 10 個思考。

1、算力是門檻:大模型對算力的要求,過去 10 年非常巨大。今天要做人工智慧大模型,講卡傷感情、沒卡沒感情。

2、關於資料的資料:如果有 GPT-5 出來,可能會上到 200T 的資料量。但網際網路上沒有那麼多好的資料,清洗完以後,可能 20T 就差不多到頂了,所以未來要做 GPT-5,除了現有的資料,還要更多的多模態資料,甚至人工合成的資料。

3、大模型的下一章:有很多多模態的科研工作要做,我相信一個非常重要的方向是多模態的理解和生成的統一。

4、人工智慧的正規化轉移:o1 出來後,從原來的 GPT 的預訓練思路,變成了今天的自主學習的道路,就是在推理這一步強化學習,不斷地自我學習的過程。整個過程非常像人類思考問題、分析問題,也需要非常多的算力才行。

5、大模型橫掃千行百業:在中國的大模型建設浪潮當中,越來越多的是行業大模型。這個趨勢肯定是這樣的,未來通用大模型的佔比會越來越低。

6、AI Agent,從願景到落地:超級應用一開始就在那裡,這個超級應用就是一個超級助理,就是一個超級 Agent。

7、開源 vs 閉源:我認為 Meta 的 Llama 並不是傳統的開源,它只是開源了一個模型,並沒有給你原始碼和資料,所以我們在用開源系統的時候,也要下定決心真正理解大模型的系統閉源的工作。

8、重視 AI 的治理:人工智慧對千行百業、對整個社會的衝擊非常大,要大家共同來面對。

9、重新思考人機關係:真正把人機互動搞清楚,才能成為每一代高科技企業真正有商業價值的領導者。現在講 OpenAI 加上微軟就代表這個時代還太早,他們是領先了,但是未來還有很多想象的空間。

10、智慧的本質:雖然大模型已經給大家帶來很多的震驚,但是我們對大模型、深度學習是沒有理論的。關於人工智慧的湧現,大家只是講講,並沒有講清楚。(@ 騰訊科技)

寫在最後:

我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。

對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。

素材來源官方媒體/網路新聞

相關文章