當結構化資料也變成一個模態,哪家的大語言模型能脫穎而出呢?
論文標題:TableGPT2: A Large Multimodal Model with Tabular Data Integration 論文地址:https://arxiv.org/pdf/2411.02059 TableGPT 智慧體:https://github.com/tablegpt/tablegpt-agent Hugging Face:https://huggingface.co/tablegpt/TableGPT2-7B
首先,使用一組基於規則的過濾器,包括使用 Python 和 SQL 執行器檢查程式碼的可執行性和正確性,從而消除常見錯誤(例如鍵錯誤和型別轉換問題)。此外,還會使用正規表示式和其他規則來丟棄異常輸出。 然後,使用多個模型(如 GPT-4o)對過濾後的資料進行評分;這裡使用的提示詞是專門設計的,可以保證得到更為細緻的評估。只要當樣本在所有評分組合上都超過閾值時,該樣本才會被保留下來。 之後,透過人工檢查進行樣本校準。如果樣本準確率低於 95%,就重新審查並最佳化其資料生成和過濾指令碼。 最後,執行評估,這會用到一個包含約 94.9K 個案例(包括現有案例和新構建的案例)的固定驗證集,如此可確保生成的結果是可執行且準確的。同時還會執行進一步的手動驗證來抽查任何不一致之處並檢測潛在的資料問題,例如缺少函式呼叫或多輪對話能力較差。
在查詢內引入欄位時進行模糊化處理 透過匿名化欄位名和類別值來實現表格資料增強 透過結合單輪和多輪問答任務來增強模型的多功能性 使用變動的提示詞格式和輸出結構來降低 TableGPT2 對某些提示詞模板的敏感度 在資料生成過程中應用後處理增強來提升訓練資料的多樣性
執行時間的提示詞工程 一個安全的程式碼沙箱 一個智慧體評估模組
表格理解 表格問答(TableQA) 表格事實驗證 表格到文字生成(Table2Text) 自然語言到 SQL(NL2SQL) 整體評估
模糊性,表格中潛在的形似「A1」、「A2」等難以確認實際含義的匿名欄位會對自動分析構成很大的挑戰;
不規則性,在生產環境中,表格資料透過包含普遍的合併操作和不規則的結構,比如合併單元格和非均勻佈局。
專案地址:https://github.com/tablegpt/tablegpt-agent/tree/main/realtabbench