視覺文章列表
- 視覺理解 + 實時語音,打造你的多模態實時 AI 丨 TEN+ 亞馬遜雲科技開源工作坊視覺AI亞馬遜
- 機器人視覺控制新正規化!ByteDance Research新演算法實現透過效能SOTA機器人視覺演算法
- 新書推薦|人工智慧 -- 計算機視覺演算法測試與應用指南新書人工智慧計算機視覺演算法
- 重磅發現!DeepSeek R1方法成功遷移到視覺領域,多模態AI迎來新突破!視覺AI
- 雷朋 Meta 眼鏡視覺識別功能開放測試;Ultravox 新版語音模型 :語音理解超 GPT-4o 和 Gemini視覺模型GPT
- 無需引導取樣,清華大學提出視覺模型訓練新正規化視覺模型
- LLaVA-Mini來了!每張影像所需視覺token壓縮至1個,兼顧效率記憶體視覺記憶體
- AI「視覺圖靈」時代來了!位元組OmniHuman,一張圖配上音訊,就能直接生成影片AI視覺圖靈音訊
- 全面梳理200+篇前沿論文,視覺生成模型理解物理世界規律的通關密碼,都在這篇綜述裡了!視覺模型密碼
- 阿里雲通義開源Qwen2.5-VL,視覺理解能力全面超越GPT-4o阿里視覺GPT
- 對話式 AI 硬體開發者都關心什麼?低延遲語音、視覺理解、Always-on、端側智慧、低功耗……丨 RTE Meetup 回顧AI視覺
- Hugging Face 視覺語言小模型 SmolVLM 可在手機執行;OpenAI 推出智慧體 Operator 聯網執行任務Hugging Face視覺模型OpenAI智慧體
- 細粒度對齊無需仔細標註了!淘天提出視覺錨定獎勵,自我校準實現多模態對齊視覺
- 通義釋出語音模型 MinMo:全雙工、多口音;MiniCPM-o :端側 GPT-4o 級視覺、語音、多模態實時流式大模型GPT視覺大模型
- 僅縮小視覺Token位置編碼間隔,輕鬆讓多模態大模型理解百萬Token!清華大學,香港大學,上海AI Lab新突破視覺大模型AI
- 會撿垃圾、能幹家務,元蘿蔔“視覺+機械臂”技術掃地機器人應用首秀視覺機械臂機器人
- 如何高效橋接視覺和語言,位元組&中大提出全新多模態大模型聯結器ParGo橋接視覺大模型Go
- AAAI 2025 | IML領域首個稀疏化視覺Transformer,程式碼已開源AI視覺ORM
- 騰訊 StereoCrafter:2D 影片轉 3D 影片效果;支付寶推出新 AI 視覺搜尋產品「探一下」丨 RTE 開發者日報Raft3DAI視覺開發者日報
- 火山引擎視覺大模型4K修復百部港片,面部膚質紋理等細節更清晰視覺大模型
- 阿里千問開源QVQ視覺推理媲美世界最佳模型阿里視覺模型
- 阿里釋出多模態推理模型 QVQ-72B,視覺、語言能力雙提升;OpenAI 正在研發人形機器人丨 RTE 開發者日報阿里模型視覺OpenAI機器人開發者日報
- 李飛飛、謝賽寧等探索MLLM「視覺空間智慧」,網友:2025有盼頭了視覺
- 統一視覺理解與生成,MetaMorph模型問世,LeCun、謝賽寧、劉壯等參與視覺模型LeCun
- OpenAI Realtime API 升級,整合 WebRTC 且降價 60%;豆包釋出視覺理解模型,實時語音模型也將上線OpenAIAPIWeb視覺模型
- Florence-VL來了!使用生成式視覺編碼器,重新定義多模態大語言模型視覺資訊視覺模型
- Kimi又上新!搶先實測視覺思考模型k1,甚至比o1更聰明視覺模型
- 多智慧體架構Insight-V來了!突破長鏈視覺推理瓶頸智慧體架構視覺
- 谷歌 Gemini 2.0 支援音訊和影像輸出;吳恩達:當下最重要的技術是 Agentic AI,視覺 AI 是下個趨勢谷歌音訊吳恩達AI視覺
- 敏捷開發:敏捷專案視覺化管理-ScrumBoard(Scrum板)使用介紹敏捷視覺化Scrum