獨家專訪Pika:Sora is not very hard to beat,我們的演算法能夠以小勝大|AI Pioneers

机器之心發表於2024-06-11

圖片

人類正在迎來人工智慧領域的爆炸式更新,技術向未知擴充的每一步,幾乎都引起驚人的關注度。

在人工智慧邊界擴張的過程中,重要賽道的技術路線創新與分歧並存。技術先鋒者的判斷和選擇,影響著眾多跟隨者的腳步。

過去一年,機器之心獨家率先將月之暗面、生數科技、愛詩科技、無問芯穹等優秀公司介紹給大家,為他們在網際網路世界留下了第一份 “萬字訪談底稿”。在技術路線尚未收斂的階段,我們看到了到真正擁有信念、勇氣以及系統化認知的 AI 創業者的引領力量。

因此,我們推出 “AI Pioneers” 的專欄,希望繼續尋找和紀錄 AGI 時代人工智慧各細分賽道具有領袖氣質的創業者,介紹 AI 賽道最出眾、高潛的創業公司,分享他們在 AI 領域最前沿、鮮明的認知。

圖片

作者:姜菁玲

機器之心報導

即使Sora已經強勢“炸”過場,Pika還是再次帶著矽谷一眾明星資方的投票回到了輿論中心。

6月5日,Pika宣佈已完成8000萬美元(約合人民幣5.8億元)的B輪融資,總融資額達到1.35億美元,較2023年末,公司投後估值實現翻倍至4.7億美元。

“我們會更aggressive地做影片大模型”,這家剛剛度過一週年生日的影片生成創業公司,計劃在這輪融資之後快速擴張研究和工程師團隊。

四個月前,來自OpenAI的Sora重新洗牌了影片生成賽道。Sora以長達60秒的連貫影片、高畫質畫面質感、連貫的鏡頭移動、運動方式等優點,拉高了整個影片生成賽道的技術水平,引發了全球對影片生成的狂熱。像LLM領域一樣,影片生成貌似也開始變成追趕OpenAI的遊戲。

同樣是在掌聲中出道,去年11月,Pika1.0產品由於出色、令人驚豔的影片生成效果,以及支援使用者實時進行影片編輯和修改的突破性功能,快速走紅。一路斬獲眾多矽谷科技界明星人物的背書和投資。成立5個月,pika僅有3人的團隊一舉成為彼時影片生成賽道龍頭Runway最大的競爭對手。獨家專訪Pika:Sora is not very hard to beat,我們的演算法能夠以小勝大|AI Pioneers
Pika 1.0產品影片

今年4月,Adobe在自己的影片編輯工具 Premiere中嵌入了三大外部合作商,分別是Pika、Runway以及OpenAI。影片生成賽道已是三足鼎立局面。

圖片

在OpenAI的暴力美學下,Pika如何評估Sora帶來的競爭壓力,如何找到自己的超越路徑,成為一個值得期待的問題。伴隨著這次融資的敲定,Pika在風投界顯然已經拿出了足夠有說服力的答案。但是,這個答案會是什麼?

在融資正式敲定後,Pika團隊接受了機器之心的獨家專訪。在這場訪談中,機器之心對談了Pika團隊的多名核心成員,包括兩位聯合創始人郭文景(Demi Guo)和孟辰霖(Chenlin Meng),創始工程師陳思禹(Karli Chen)、以及Pika演算法工程師王熠鵬。

如果你用AI來總結下面的訪談,企圖回答這個問題。他或許會用結構化的回答告訴你,Pika擁有的是強大的團隊、高效的演算法、明確的目標以及產品力。

同時,Pika團隊對我們透露,在今年年底之前,Pika將釋出最新一代產品更新,新產品將展現Pika在可控性上的進步。
圖片

Sora is not very hard to beat


機器之心:首先恭喜Pika時隔半年再次完成新的融資,我們先來聊聊這輪融資的情況,用途主要是什麼?

Pika:好。這輪融資我們融了8000萬美元,估值相比於上次融資(2023年12月)翻了一倍,現在是4.7億美元。之後我們要訓練自己的影片大模型了,融資是為了幫我們去加速這件事發展,一方面是獲取更多模型需要的資源,另一方面我們也希望能招更多的人去加入我們影片大模型的團隊,不論是演算法研究還是工程師。

機器之心:能否介紹下你們目前的團隊,以及希望擴張的規模和具體方向?

Pika:過去一年以來,Pika團隊從3人擴張到了13人。人才是我們重要的優勢。

工程方面,我們擁有6個IOI國際資訊學奧賽⾦牌獲得者,超過AI工程師Devin的幕後公司cognition AI (5個⾦牌獲得者,10個⾦牌),⼀共有9塊國際奧賽⾦牌,3個 IOI世界第⼀,2個putnam fellow (美國⼤學最⾼的數學獎項) 。創始團隊Demi Guo是IOI銀牌,是美國隊⼗⼏年來唯⼀的⼥國家隊隊員。

科研方面,創始人孟辰霖是DDIM、Img2Img、Model Distillation的作者,這些方法能將擴散模型的推理速度提高几十到上百倍不等。同時,谷歌影片大模型Lumiere專案的一作Omer Bar-Tal,在sora釋出第二週選擇加入Pika。

另外,史丹佛AI實驗室主任Chris Manning、最有名的擴散模型研究教授之⼀Stefano Ermon、以及兩次奧斯卡獲得者,曾參與過加勒比海盜、星球大戰等電影特效製作的Ron Fedkiw,都是Pika公司的顧問團隊。

我們目前open to 不同背景的聰明人,base地不限,不論是資料、系統、模型演算法研究、應用演算法研究等方面的人才,都非常歡迎。(hr@pika.art https://pika.art/careers)

機器之心:今年2月份,OpenAI推出的Sora改變了影片生成賽道的格局,你們是怎麼看待Sora的?

Pika:對於Sora,我覺得雖然大家第一眼看上去覺得好像確實印象特別好,因為好像確實從來沒有見過這樣的影片生成質量。

但是我們仔細分析了一下,其實它並不是一個非常novel(新穎)的東西,包括它的模型、演算法、結構,其實都是現有的。那對於它的結果(效果更好),其實就是告訴了我們一個道理:用更多的機器、更多的資料,暴力地去Scale up,就可以達到更好的效果。

在此之前,可能大部分的人在說,我要去不斷提高我的演算法,調優模型,但是實際上大家低估了這個Scaling up的重要性。這個其實對大家來說是一個非常積極的訊號,也就等於告訴大家,你只要用相同數量的卡、相同好的資料,理論你就可以達到Sora的效果。

機器之心:那你們會怎麼理解自己跟Sora之間的差距?

Pika:我的感覺就是,Sora is not hard to beat。只是說scaling確實很重要。

機器之心:對於因為Sora而備受關注的DIT架構,你們會覺得這就是影片生成的確定性路線了嗎?

Pika:我們認為還沒有到DIT就是確定性路線的時候。這是一個很開放的問題,或者換句話說,我認為以目前影片生成的行業階段來看,還沒有到說一種架構,一定能夠比另一種架構有更清晰優勢的時候。因為我覺得格局也沒有發生本質的改變。

機器之心:也就是說,你們用的不是DIT架構,對嗎?

Pika:我們內部會有不同方向的探索,但細節不便透露。不過我們考慮這個問題,角度不會那麼單一。因為我們需要從系統性的方面衡量這個問題。但在科研上,我們會對結構的效率做進一步研究,這也是未來的一個潛在研究方向。目前我認為,重要的點,一是可控性,其次是效率問題,這是容易被忽略的,任何結構它需要將效率擺在第一位。

機器之心:效率具體指的是,訓練還是推理,還是一起?

Pika:指的是使用者的使用成本效率,基本可以等同於推理效率。當然,訓練效率也包括其中,也很重要。

機器之心:也有觀點認為,Sora的效果一部分需要歸功於它背後呼叫了自己的GPT系列模型去做使用者語言理解,這個方面Pika怎麼看?

Pika:文字理解的準確性是非常重要的,但是否呼叫GPT系列模型,這個其實在影片生成賽道不構成一個競爭點。市面上也有很多開源或閉源的模型可以實現跟它差不多的效果。其實,從競爭看,OpenAI在影片生成上所擁有的所有東西,都不是絕對性的優勢。

機器之心:這輪融資裡,是否也有投資人會問,跟OpenAI相比的話,你們公司的一些優勢是什麼?你們是怎麼想的?

Pika:對,我覺得我們跟OpenAI還是有差異的,我們公司的目標並不是做AGI,而是說做一個服務創作者的產品。這是本質的區別。我們的目標是幫助大家實現自己的創意。

那在影片生成模型上,我們之間是有相似性的,我們認為自己是不會讓步的。我們肯定要對標、超越,然後在產品上做自己的努力。

機器之心:對標、超過Sora,會有一個大概時間表嗎?

Pika:Later this year.對,今年晚些時候。

Pika的路徑:Smart、高效、Not only 「text」based


機器之心:如果說你們要實現更好的效果,會意味著說就是要去做更大的Scaling嗎?

Pika:Scaling是有上限的。我們不可能一下子從幾百張卡scale到幾萬張卡,這個很不現實。另外,GPU本身在記憶體等硬體方面也都是有上限的。所以如果說大家scale到一定程度了,是無法一直scale下去的,接下來需要看大家其他方面的技術實力。

如果我們參考一下OpenAI和Anthropic這兩家公司,我們會發現,Open AI肯定是資源最多、資料最多的,但是這並不妨礙別人用更加smart的方法,用稍微少一點的資料達到更好的效果。

機器之心:在sora出現之後,你們有去買更多的卡嗎?

Pika:我們其實有非常多的卡,到目前為止,我們的卡也是非常充足的。

機器之心:現在你們想要做的更好的話,採取的方法是什麼?

Pika:我們內部有一套自己的方法,非常重視研究和創新,我們的文化是重視大家的智慧,然後要把東西做到最Smart。所以我們的核心點是要用非常前沿和可靠的演算法去打造我們的模型,讓它能夠做到,第一非常Scalable、第二可以以小勝大,用更少一點的資源,得到更好的效果。

機器之心:具體在影片生成上,你們會怎麼做,實現以小勝大,有明確的技術方法了嗎?

Pika:我們有明確的技術方法去實現它,我可以分享一下high level的想法:

因為影片是一種高維的資料,比如說對於每秒24幀的1080p影片,它的解析度是1920×1080,這個資料每秒的維度是:

1920×1080×3×24 = 155520000。

這個維度非常大,對於AI來說處理起來非常困難。如果說再乘上時間,60秒,就更大了。所以這個dimension是非常高的。

但是你知道,在AI中大家都知道的,curse of dimensionality(維度詛咒,指隨著資料維度的增加,資料變得越來越稀疏,從而導致模型的訓練和預測變得更加困難),就是說你的維度越高,你需要的資料量就越大。

圖片

那隨著1080p影片時間的增加,所需要的資料量就會指數增長,因為影片中的每一幀都包括了大量的資訊,而隨著時間的推移,幀的數量也會增加,從而導致所需資料量的指數級別增加。

然而,在現實中,這是不切實際的。因為一個高畫質影片,你影片越長,它(存在)的數量就越少,所以這是一個非常有趣的dilemma(困境)。

但是好處在於,實際上影片有點像一個“low dimensional manifold”(低維流形,一種數學概念,指維度較低的特殊空間結構),嵌入在高維空間中,也就是說它的每一個維度實際上是相互關聯的。

比如,我們想生成一個人在路上走路了10秒的影片。實際上,我們只需要知道第一個幀的資訊,比如這個人走路的背景、他的穿著等細節,後面的幀你就不再需要完整的畫面,你可能只需要一些很小的資訊,比如這個人走路的姿勢、或者說是背景當中汽車在移動。

圖片

這個是我們這邊的一個insight,就是說,有一種成功的演算法,可以讓這個高維資料投影到一個低維空間。用這個方法,首先你可以繞過the curse of dimensionality,其次,可以讓你生成影片的效果變得更好。以及,由於你的維度變低了,所以你訓練模型的效率和成本就大大降低了。

這個是我們花了很多精力的一種高效架構和資料壓縮方法。這種演算法能夠去掉90%的冗餘資訊,進而幫助降低資料的維度。比如你原本有幾百頁的文件,經過處理後,現在需要處理的資料只有幾十萬,這樣就大大節省了算力。這是一種更加緊湊的表達方式,因為維度越大需要的引數越多,難度就更大,而我們使用這個方法所需要的引數應該是比較低的,所以不管是從資料效率、訓練效率、推理效率上,都實現了更加高效。

機器之心:這個演算法的底層思路可能是怎樣的?

Pika:本質上,我們是希望讓我們的模型能夠像人類一樣思考。比如說人看這個影片,可能只需要很少的資訊,第一比如只需要第一幀中的這個人的背景、周圍環境、穿著等各方面細節。然後第二,可能需要一個動作的引導,比如這個人是以這樣的姿態、這樣的速度在走路。

然後我們這邊發現的一個情況就是,實際上在應用場景下,雖然市場上有很多Text to video(文生影片),但真正運用起來沒人在乎是不是「Text」to video。因為核心是大家更希望能夠生成一個能夠可控的影片。

比如有人說想生成一個人以這樣的姿勢走路,這其實很難用語言來描述,但如果給他提供一個引導,比如一個參考影片,說這個人是這樣的姿勢走路。或者說,希望這人穿這樣的衣服,也不知道怎麼描述,可能那就給他提供第一幀。

總之就是我們想建立一個模型,讓它能夠像人類一樣思考,我們也想超越文字的互動形式,讓人類可以很好地去控制它。

當我們能夠把那些motion prior(運動先驗,表示對常見運動模式或行為的先驗理解,這些先驗資訊可以幫助模型更好地理解和預測影片中的運動)、image prior(影像先驗)嵌入到我們的模型裡,那麼自然而然,這個模型可以更好地理解人類,同時會學到更好的連續表示。

機器之心:你的意思是,可能更高效的影片生成指令不一定是「text」這種形式?

Pika:是的。因為我們發現,使用者其實並不在乎是不是「text」to video這種形式。另外我們也發現,text based會讓我們的模型受到更多約束。所以我們打算用來自不同形式的Prior(先驗),比如運動、風格,去幫助使用者表達,這也體現了我們比較以使用者為中心的理念。

機器之心:我看你們已經上線了「style」「lipstick」這些元件,之後會擴充更多類似這樣的元件是嗎?

Pika:對,這樣也能夠反過來使我們的模型更能像人類一樣思考。其實主要就是因為這些動作或者說資訊,它是很難用語言去描述的,像我們該怎麼去告訴AI說我希望它的嘴唇是怎麼運動的呢?很難。所以我們就採用這種Prior的形式,它是有效的。之後我們還會有更多的這方面的更新。獨家專訪Pika:Sora is not very hard to beat,我們的演算法能夠以小勝大|AI Pioneers
機器之心:你們之前提到過,產品的最終目標是希望做一個interface for creator,聽起來這些元件像是對這個介面的完善。

Pika:我們把interface理解成人類和機器交流的語言,人類和機器不能直接交流,而經過訓練後的interface可以讓人類向機器傳達想法。這個介面可以讓系統串聯起來,為目標服務,我們的產品會解釋模型,模型促進產品實現。我們不會侷限於一種表達方式,如果使用者需要一種應用,我們就會去調整模型,調整表達方式,然後推薦給使用者。我們跟自己的使用者走的很近,像今天上線的「style」「lipstick」也都是在充分吸收了使用者的建議下上線的。

影片生成行業仍在70分階段 可用性還沒有得到本質解決


機器之心:開年以來大家一直在說,2024年是影片生成的爆發之年。你們認同嗎?

Pika:從關注度來講,是認同的。事實上在sora釋出之後,確實得到了很多的關注。所以我覺得OpenAI的產品釋出讓更多的人認識到了這樣一個領域的存在,其實也是一件非常好的事情,所以行業知名度上確實是爆發的。

不過從技術上來講,是否是今年爆發,很難預測。各家都在做努力,我們還是相信量變會引起質變。

從應用上來看,我認為現在有點像LLM領域ChatGPT出現之前的爆火,比如GPT-3出現的時候,大家也是很興奮的,但是它沒有一個很好的落地場景,現在的影片生成也在這個階段,可能還是需要在模型迭代之後,被更多人用起來,大家實現了觀念上的轉變,這個可能是一個真正的爆發。

就像我們已經很習慣掏出手機,用一些應用來修圖,未來幾年,我們可以相信,生成和編輯影片也是跟現在用手機P圖一樣簡單。
圖片
我相信就是在未來的一個時刻,就肯定影片這樣的一個模態,是會有它非常重要的使用場景,我相信它是可以實現一個真正的爆發,但可能未必是今年會有一個非常確定的一個時間線。

機器之心:如果說,評價影片生成行業技術階段,從不成熟到成熟對應0-100分,你認為行業現在處於幾分?

Pika:我認為是70分左右。拿Sora來講,現在它更多是一個概念驗證產品,並沒有真正解決問題。

我們從別人分享的使用過程裡看到,比如當時有個關於氣球的生成影片,它的作者寫了一篇很長的帖子,講它的歷史表現並不是特別好,可能要試幾百個影片,才能實現生成一個滿意的影片,而且如果直接生成高畫質影片,解析度還是非常低,所以他們可能是生成一個低清的,然後再用那些人工的超解析度方法去做超解析度處理後放上去。

另外它的效率也非常低,需要很長時間,比如 12 分鐘才能做出一個成品。這個距離真正能夠毫無壓力商用,還是有一定差距的,所以我認為整個行業應該差不多在 60 到 70 分左右的範圍。

機器之心:在6、70分的階段,要邁向100分,可能中間比較重要的待解決問題是什麼?

Pika:第一是準確性,怎麼可以把使用者的意圖準確地表達出來;第二是可控性,怎麼按照使用者的意圖對影片進行控制,你可以看到現在即使在圖片領域,也沒有做的很好;其次就是效率的問題,怎樣迅速地去生成影片。

機器之心:那在這幾個方面你們會橫向去對比其他公司嗎?標準可能是怎樣的?

Pika:因為我的感覺就是這個行業可能就像我說的,大家都差不多六七十分。可能現在有些人稍微領先有一兩分。但大家都沒有本質地解決這些問題。

所以可能現在的這個對比可能不是特別的有價值。最核心的這個可用性方面,以及剛剛提到這幾個點都還沒有得到本質的解決。現在去談一些很細緻的對比,可能就沒有特別大的意義。

尤其是從使用者的層面,就可能從技術的層面,你可以提出各種各樣的指標來評價一個模型的好壞。但是我們想我們公司想做的不僅僅只是停留在技術層面的。

我們還是希望這樣AI是真的能夠為為Creator所用,希望使用者覺得這是一個可以使用的產品。所以這個角度看,我認為,目前階段可能還是在內部把模型和產品打磨地更加完善,才是第一要義。

機器之心:像這些問題,會因為scaling而逐步解決嗎?

Pika:因為像可控性這個點,以後不會僅僅停留在文字控制生成影片的層面,會需要更加精細的控制。所以這也不是隻做Scale就可以解決的。就像Sora其實也有可控性的問題。

所以這個可能不能僅僅從AGI的角度去看,而是要從真正的產品角度去想。
所以你可以看到,我們新發布的很多功能,基本都是從實際用例出發,而不是僅僅從模型進展。

機器之心:Pika在這幾個問題上的思路和優勢是什麼?

Pika:我們的團隊非常有優勢,團隊很多成員有對應的專業背景,他們的很多工作也是當前這個領域最核心的一些相關工作之一。具體到在可控性方面也是,我們有一部分成員之前的就是專業做這方面研究的,他們的論文也是這個領域的。基礎模型上,我們既有資深的人,也有新生代有想法的人。所以這些方面的問題我們從人才上看,是非常有信心去攻克的。

圖片

至於可控性的具體思路,我們之前談到的,去豐富和擴充更多元的互動方式,其實就是模擬人類思考的過程,這種方法也是增強可控性的有效手段。至於更細節的思路,可能今年年底之前,我們會有一個產品出來,在使用者互動介面上有一個比較大的升級,到那個時候我們可以全部公佈。

將更aggressive做影片大模型


機器之心:去年年底的時候你們立過一個flag說,希望今年的技術能夠達到一個商業上的標準,這個標準是什麼?進度如何?

Pika:我覺得這個領域很顯然還有很多東西是沒有定義的。就是說,未來AI到底是怎麼樣?使用者到底該怎麼跟AI模型做互動,互動方式其實都還是待定義的。我們希望自己可以去參與定義這個商業板塊,希望我們能在今年取得進展。

這個標準我認為可能也不僅僅是技術上的標準,不僅僅是說這個模型生成的解析度有多高或者說效果有多好,最終還是要回到使用者的可用性有多強。

機器之心:對於產品力,你們怎麼構建它?

Pika:我們是想做最好的模型,但是不僅僅是做影片模型,而是想做最有用的影片模型,這個就是我們所認為的產品力。

我們不僅是要做一個技術載體,比如技術極客之類的會感興趣,更重要的是做一個有用的影片模型,不一定是技術上最強勢,但是給到創作者,你能夠去編輯影片、定義場景和人物,不僅能用文字、還能用聲音、影片、圖片去互動。然後讓這個使用者能夠真正意義上去控制這個影片的生成和編輯。

機器之心:那現階段來看的話,像模型能力的提升和產品力的提升,對你們來說這兩件事哪件是更重要的?

Pika:模型是產品的基石,我們對介面的定義也是需要基於一個成功的模型,所以我覺得可能模型研發目前是稍微更重要的一點的。

機器之心:在模型層面的提升上,哪些效能是最關注的?

Pika:還是回到那三點,準確性、可控性以及效率。

機器之心:時長會是一個重點嗎?

Pika:會是一個重點,在我們下一個新版本中,我們會做提升,但提升多少,我們現在還無法公佈。

機器之心:我看到你們說,自己會更aggressive地去做模型層面的研究和工程,這具體會表現在?

Pika:第一就是加大力度的招人,另外就是現在的團隊會往這方面傾注更多的精力。

機器之心:目前商業化上的探索情況是怎樣的?

Pika:我們現在是已經在賺錢的,主要來自C端的訂閱費用,在B端,我們會跟一些演唱會或者企業在創意上做合作,也會對外提供API,目前都在探索的路上。
圖片
More:

AI Pioneers 系列人物專訪(點選跳轉):楊植麟唐家渝梅濤王長虎夏立雪 | 高繼揚

聯絡作者:jjingl- (新增請註明姓名-公司-職位)

相關文章