2022/11/19 Apps Everywhere 上海
2022年11月19日下午,亞馬遜雲科技 User Group 上海舉辦《AI GC 的技術與應用構建》為主題 Apps Everywhere 系列活動,邀請到四位機器學習領域的專家,與大家一同探討 AI 創作背後的技術及其應用的可能性,讓 AI 創作真正成為有益的工具。讓我們一起回顧一下活動的精彩內容!
講師分享內容
01 Shadow《AIGC 應用共創》
Shadow,Mixlab 無界社群創始人/ MixDAO 成員
講師介紹:
畢業於上海交大、同濟大學,主要職業:元宇宙創作者、設計駭客、程式設計師、設計師、老師。目前專注於:社群的孵化。自 2015 年發起 Mixlab 無界社群,目前社群人數已有 5w+,核心成員 1.2w+。
內容概括
從計算生成數字內容、數字藝術到AIGC-人工智慧生成內容,介紹 AIGC 目前的應用效果和工作流。Shadow 老師首先進行了自我介紹。作為一名設計師出身的程式設計師,Shadow 老師跨界設計和軟體開發。Shadow 老師自述曾於2017年在人工智慧海報生成、2018年在人工智慧寫作方向進行 AI 創業,回望過去的技術只能做 AI 輔助產品,在海報生成中進行內容理解、顏色提取、資訊聚合等輔助工作,智慧寫作也只是輔助寫作(改寫、匹配素材、內容稽核等),而現如今技術的發展已實現海報、寫作內容可由 AI 一鍵生成,具備創造全新體驗的產品可能。Shadow 老師透過以下2個案例介紹了數字內容藝術:1、戒指:每位使用者可定製自己的戒指,戒指設計千人千面並可轉化為實物。2、音樂視覺化+虛擬走秀+AR體驗。
接著 Shadow 老師介紹了 AIGC 的一些應用場景:
1、將 AI 用於影像生成,藝術創作不再是藝術家才能完成的事情,普通人只要有一定藝術概念,也能用 AI 生成畫作。
下方左圖是 AI 生成的超現實主義風格畫作,右圖則是賽博風格。
2、AIGC 用於文創:傳統藝術家往往難以切換風格,透過 AIGC , 藝術家也能在不擅長的風格領域完成創作,甚至任何人都可以創作任何風格。以下是富有中國傳統元素的 AI 畫作。
AI 能提供更酷炫的藝術表現,人工智慧擅長於融合不同實體,在需要想象力的創作上往往比人更具優勢。如下貓和海浪的結合、晶片與人的形象的結合,都展現了 AIGC 的豐富想象力。
AIGC 應用於生成遊戲裡概念場景,之前匯聚不同行業專家才能完成的創作,現在個體藉由 AI 即可完成,繁瑣的插畫工作也可由 AI 代替人完成。
3、AIGC 還可生成影片,透過生成不同人物形象,驅動人物表情,加上 TTS (Text to Speech) 的配音,欣賞一段動畫影片《坐看雲起時》。
4、Shadow 老師著重介紹了 AIGC 應用於漫畫創作, 透過 AI 生成影像, 人工新增對白,來生成漫畫,這是他看好的 AIGC 應用場景。
但其難點是角色一致性。由於 AI 生成難以控制,需要解決人物一致性問題,解決思路如下:
1.可透過生成不同角度人臉庫,進行換臉。
2.可預先生成豐富的肢體動作庫。
實踐中發現漫畫風格為寫實風時換臉成功率高。
將 AIGC 用於漫畫風格復刻,將原圖內容詞和風格詞剝離,保持風格詞,替換內容詞,即可按某種風格繪製新的內容的漫畫。
提供影像作為輸入,AI 可對影像做很多變體,如下面水滸傳宋江的變體圖,以及小屋各視角的圖。
最後,Shadow 老師介紹了 AIGC 工作流,透過對白文案生成影像,人工挑選最符合場景的影像。透過這種形式的人機協作,可大幅提高生產效率。利用 AI 創作,個人如同擁有了一支世界上最豪華且廉價的視覺團隊。
02 李雪晴《AIGC 的“小眾”應用方向》
李雪晴,亞馬遜雲科技機器學習解決方案架構師
講師介紹:
一名計算機視覺演算法愛好者,在接觸視覺演算法之前我是一名金融業的行研人員,偶然刷到的幾個短影片讓我的技術之心徹底覺醒。技術的反饋往往來自於生產認可。然而演算法研發到生產釋出還有很長一段路,因此我致力於協助客戶用最輕便的方式進行演算法工程化部署。
內容概括
“AIGC”也就是 AI 生成類模型在今年又跨入了一個新的紀元,更多可達到商業水準的 SOTA 模型接連面世。以近期比較火的 Stable Diffusion 模型為例,開源簡單的部署方式讓大家都可以很方便的嘗試文字生成圖片,而生成的圖片效果也遠遠超出了以往人們對於 AI 的期待。我將簡單為大家介紹Diffusion 類模型,他們的生產化挑戰,以及該類模型的應用場景,諸如設計輔助,聲音擬合,內容稽核以及工業瑕疵檢測等等。
李老師的演講分為4部分:
Part1:
李老師首先介紹什麼是 AIGC . AIGC全稱為 AI-Generated Content , 指基於生成對抗網路 GAN 、大型預訓練模型等人工智慧技術,透過已有資料尋找規律,並透過適當的泛化能力生成相關內容的技術。李老師以 AIGC 在股票上的應用舉例,指出 AIGC 不僅受到 AI 技術從業者的關注,而且也受到金融從業者和大眾的關注。
AIGC 有多模態、大模型、火熱開源的特點,尤其其開源資源豐富、封裝度高、可一鍵啟用打包成應用 ,在工業製造中更易被應用。
Part2:
李老師介紹了主流 AIGC 場景中的應用。
DALL-E 2模型應用的 AIGC 場景包括:
1.透過文字生成圖片。
2.圖片補全。
3.圖片風格轉換。
4.透過文字描述進行圖片編輯。
AIGC 最適合的場景是我們難以想象的場景。例如我們想讓美甲師做出我們想要的美甲風格,然而經過一番描述,實際的美甲效果卻沒有達到我們想象中的美感,此時利用 AIGC 生成美甲的圖樣就可以幫到愛美人士。此外包、服飾等也適合用 AIGC 生成設計圖。AIGC 還可以生成與圖片風格相符的文字。
Stable Diffusion 模型可根據文字生成圖片,如我們輸入 "a wedding cake with gold tears", 然後發現生成的4張圖中左下角的圖呈現了我們心目中的效果,又如我們輸入 "a golden bathroom with a black tub", 模型就為我們生成了多張浴室設計效果圖供我們挑選,此外,該模型也可用於繪畫、美妝。
李老師介紹了開源的 Mubert-Text-to-Music 專案,提供了文字生成音樂的模型部署介面。
Part3:
李老師介紹了“小眾” AIGC 場景,包括:
內容稽核:
1.生成內容的違規性,是否涉黃涉暴。
2.用一些知名 IP 如冰雪奇緣艾莎生成的內容是否侵權。
3.未來身份驗證不僅要考慮活體檢測,還要檢測是否是 AI 生成的影片、人臉。
聲音擬合:
李老師介紹了開源的 Mocking Bird 專案, 舉例 AIGC 在聲音擬合方面的應用場景,如在元宇宙中每個使用者可擬合自己的聲音模型。
並提出難度不在模型訓練上,而在於模型管理,如何在同一臺機器部署多個模型,需考慮容器化部署及部署成本。
更多三維資產:
AIGC 生成變化連續的圖片,但效果差強人意,另外可用 AIGC 生成古建築圖紙。
製造業瑕疵檢測的應用:
李老師講述了一個 Amazon 做過的對有問題零件降噪判別的案例。
Part4:
李老師介紹了亞馬遜科技在 AIGC 上對企業的助力,包括:
1.SageMaker 提供彈性資源擴縮容以敏捷適配企業業務擴充套件。
2.AI 百寶箱:Amazon 將透過客戶視角看到的有潛力模型放入 AI 百寶箱中,提供點選式 AI , 企業使用者可花更多時間專注於模型訓練,而不必在工程部署上耗費過多精力。
03 周金晶《基於雲原生機器學習開發平臺提高 AIGC 開發效率》
周金晶,TensorChord CTO & 聯合創始人
講師介紹:
本科畢業於上海紐約大學。曾在亞馬遜上海人工智慧實驗室擔任機器學習工程師,作為核心成員開發 Deep Graph Library 專案,創立 TensorChord 是致力於打造更好用,對演算法科學家更友好的機器學習工具。
內容概括
envd 致力於將演算法科學家作為核心使用者進行設計,透過對底層基礎設施的抽像使得科學家們能輕鬆使用彈性資源以及隔離乾淨的開發環境,在提升開發效率的同時,減少計算資源的浪費。本次分享將介紹 envd 的想法來源以及使用方法,展示 envd 能給團隊開發帶來的優勢。
從現有的雲原生及機器學習平臺出發,介紹 envd 專案的初衷以及設計思路。
用 envd 做展示,執行預訓練模型來生成影像。
1、在雲原生環境下多套環境動態生成實施方案。
2、在滿足多環境需求下雲成本最佳化。
周老師首先進行了自我介紹:
前亞馬遜上海人工智慧研究院機器學習工程師
Deep Graph Library 創始成員+核心開發者
TensorChord 聯合創始人 https://github.com/tensorchor...
然後周老師闡述了 envd 的產生源於機器學習的痛點:
Part1:機器學習很複雜,需要細分領域工程師(包括資料科學家、 軟體工程師、後端工程師、DevOps 工程師)合作來完成,周老師認為可以用工具解決工種間溝通成本高的問題。
Part2:新演算法層出不窮,從模型研究到生產上線產生商業價值仍有很長一段距離。
Part3:現有工具和從業者知識結構的不匹配,需要有工具彌補 Data Scientist 和 Infra 間的 gap。
Part4:機器學習開發的痛點有:1.多人共享同一臺機器開發,互相干擾(CUDA版2.本不同、庫衝突)。3.對彈性算力要求高(需要調參)。4.算力緊張(價格高)。5.對雲原生,雲端計算生態不夠了解。6.訓練流水線複雜(資料預處理)。7.資料集龐大。Part5:現有的 Data Scientist 和 Infra 的協作模式往往是資料科學家提要求將工單給到 infra team , infra team 配好環境給資料科學家,中間的反覆溝通耗費時間成本高。
由機器學習的痛點,周老師開源了envd專案。
1、envd 透過 Python 語法申明環境要求,給每個專案配置隔離的容器化開發環境,免除資料科學家與 infra 反覆溝通的耗時耗力。
2、環境資訊以程式碼形式和專案原始碼放在一起,開發者拉取 github 程式碼後可構建一摸一樣的環境,本地快速將程式碼 run 起來, 降低配置環境成本。
3、envd 提供了依賴元件的可複用,例如可透過 include envdlib 方便地安裝S3 SDK。
4、envd 實現本地和叢集開發體驗一致,實現雲上開發、本地開發無縫銜接。
5、envd 提供的不僅僅是開發環境,它結合Tensorflow / Pytorch 等深度學習框架,為開發者提供一整套 ML DevOps 解決方案。
04 張小軍 《EasyAR Mega 元宇宙空間計算平臺》
張小軍,視+AR CEO
講師介紹:
視+AR (視辰資訊科技(上海)有限公司)創立於2012年,是中國領先的 AR 開放平臺,全球有20萬開發者,是國內使用範圍最廣最大的空間計算平臺,在國際上也名列前茅,其中40%的使用者來自海外。視+AR 自主研發的 EasyAR Mega 元宇宙空間計算平臺,為應用開發者提供穩定的建圖、定位能力和完善的工具鏈,最終形成城市級線下元宇宙解決方案,為文化地標、商業地標和公共地標提供 MR 產品和應用。
內容概括
1、介紹元宇宙空間下視+AR 的發展歷程、 EasyAR Mega 的平臺優勢及應用其在垂直行業打造的大量標杆案例和解決方案。
2、AI 加持的大空間識別系統 EasyAR Mega 可以在大空間場景內讓開發者及使用者去產生及生成基於空間的內容。
張老師首先簡單進行了公司介紹,並介紹了 EasyAR 空間計算開放平臺。
張老師談到他對元宇宙的看法。說到元宇宙,大家可能聯想到《頭號玩家》、《駭客帝國》等科幻電影中的場景,張老師認為未來我們的元宇宙應當是虛實融合的,既擁抱數字世界帶來的強大創造能力,又擁抱真實生活,即使科技再發展、虛擬化再強大,也應當是使我們真實生活更美好的。
接著張老師介紹了 AR 技術和應用場景的演化:從影像跟蹤到運動跟蹤到大空間。
張老師以城市三維重建為例講述 EasyAR Mega 平臺優勢。在城市測繪三維重建中,使用 AR 的成本高、門檻高,一臺手持裝置需要花費10-30萬元,且需要專業人員進行勘探測繪,像這種專業治理場景,使用 AR 的成本高,導致難以民用推廣。EasyAR Mega 平臺在城市級三維重建中具備以下優勢:
1.支援城市級地圖規模。
2.無需昂貴的鐳射裝置,使用消費級相機即可完成資料採集。
3.24小時完成建圖,支援區域性更新。
4.高精度三維重建,完整還原真實環境。
5.靈活的規模化採集方案。
張老師講述 EasyAR Mega 平臺優勢包括:
1.快準穩的定位能力。
2.成熟的工具鏈。
3.支援全終端/入口部署。
最後張老師用幾個例子生動展示了 AR 的應用:
1.全息導遊、空間講解成為有效的數字經濟創收手段。
2.空間復原:將 AR 應用於場景還原和文物還原。
3.沉浸式 AR 劇本殺。
4.AR 眼鏡遊夫子廟。
問答互動
Q&A 環節,聽眾與演講嘉賓互動滿滿,氣氛十分活躍。
活動現場我們準備了誠意滿滿的周邊禮品和技術書籍,參與答題互動即可贏取大禮包,獲獎者表示很驚喜。
茶歇環節,大家合影留念,互動交流,享受茶點,又是收穫滿滿的一天!
亞馬遜雲科技 User Group 期待你的加入
感謝參加本場 Meetup 的講師、開發者和志願者們,也感謝雲上持續關注的朋友們!
欲知更多資訊或活動預告,請持續關注微信公眾號【User Group】
希望瞭解學習更多的小夥伴也可以掃下方二維碼觀看回放。
❖ 社群介紹
亞馬遜雲科技 User Group 開發者社群是一個為開發者們提供彼此學習、分享技術實踐、培訓進階等活動的技術交流分享社群。
❖ 持續招募
我們正在招募講師和和志願者,如果你對開源社群分享與共建有興趣,並有足夠的空閒時間,願意廣交志同道合的朋友,歡迎加入我們!
加入方式:公眾號後臺回覆“講師”或“志願者”,填寫報名表單即可!
❖ 微信交流群
關注公眾號【User Group】後臺即可獲得各社群群二維碼
❖ 歡迎與我們共赴一場技術之約!