現在,長上下文視覺語言模型(VLM)有了新的全棧解決方案 ——LongVILA,它集系統、模型訓練與資料集開發於一體。
論文地址:https://arxiv.org/pdf/2408.10188 程式碼地址:https://github.com/NVlabs/VILA/blob/main/LongVILA.md 論文標題:LONGVILA: SCALING LONG-CONTEXT VISUAL LANGUAGE MODELS FOR LONG VIDEOS
現在,長上下文視覺語言模型(VLM)有了新的全棧解決方案 ——LongVILA,它集系統、模型訓練與資料集開發於一體。