「蜘蛛」來了！耶魯大學11名學生標註完成大規模複雜跨域Text-to-SQL資料集Spider

机器之心發表於2018-10-06

原文網址 : https://www.jiqizhixin.com/articles/2018-10-06-2

近期，耶魯大學建立了一個新型大規模複雜跨域語義解析和 Text-to-SQL 資料集 Spider。研究者用多個當前最優模型進行實驗，最好的模型在資料庫分割設定下僅能達到 14.3% 的精確匹配準確率。Spider 資料集對未來研究是一個巨大挑戰。

專案地址：https://yale-lily.github.io/spider

新千禧年開始後，每天生產的資料量呈指數級增長，它們大部分儲存在關聯式資料庫中。近年來，訪問這些資料成為大多數大公司的興趣，這些公司可以使用結構化查詢語言（SQL）查詢資料。隨著手機的發展，更多個人資料也被儲存。因此，更多來自不同背景的人嘗試查詢和使用自己的資料。儘管目前資料科學非常流行，但是大部分人不具備足夠的知識來寫 SQL、查詢資料。此外，大部分人沒有時間學習和了解 SQL。即使對於 SQL 專家，一次又一次地寫類似的查詢也是很單調的任務。因此，今天海量可用的資料無法有效訪問。

「蜘蛛」來了！耶魯大學11名學生標註完成大規模複雜跨域Text-to-SQL資料集Spider

標註問題和 SQL 對示例。

如果你不瞭解上圖長長的 SQL 程式碼，不要擔心！這就是資料庫自然語言介面的用武之地了。其目標是允許我們直接使用人類語言和資料進行互動！因此，這些介面可以幫助不同背景的使用者輕鬆查詢和分析海量資料。

如何構建此類介面？

要構建此類自然語言介面，系統必須理解使用者的問題，並將問題自動轉換為對應的 SQL 查詢。那麼我們如何構建此類系統呢？目前最好的方法是使用深度學習在大規模問題和 SQL 對標註資料上訓練神經網路！與基於規則的完備系統相比，這些方法更具魯棒性和擴充套件性。

好的資料太少了！

但是，有一個關鍵的問題：我們從哪裡找到大量問題和 SQL 對標註資料？建立此類資料集非常耗時，因為標註人員必須理解資料庫模式，問問題然後寫出 SQL 答案，所有這些都需要特定的資料庫知識。而讓這件事變得更加困難的是：具備多個表的非私人資料庫數量非常有限。為了解決該任務對大型高質量資料集的需求，我們建立了資料集 Spider，它包含 200 個具備多個表的資料庫、10181 個問題、5693 個對應的複雜 SQL 查詢。所有這些由 11 名耶魯大學學生標註完成，共耗時 1000 小時！

為什麼要選 Spider？

儘管建立此類資料很難，但在傳統的 9 個資料庫（包括 ATIS、GeoQuery、Scholar、Advising、WikiSQL 等）中還是有一些和 SQL 查詢類似的資料資源。那麼，為什麼要選擇 Spider 資料集呢？我們來看下圖：

「蜘蛛」來了！耶魯大學11名學生標註完成大規模複雜跨域Text-to-SQL資料集Spider

一些 Text-to-SQL 資料集的 Spider 圖。

ATIS、Geo、Academic：這些資料集都只包含一個資料庫。而這些資料庫大部分僅包含不到 500 個獨特的 SQL 查詢。基本上，在這些資料集上訓練的模型僅對特定的資料庫有效。在轉換資料庫後，模型將完全失敗。
WikiSQL：SQL 查詢和表的數量很多，但是所有 SQL 查詢都很簡單，僅包含 SELECT 和 WHERE 從句。此外，每個資料庫都只是沒有外來鍵的簡單的表。在 WikiSQL 上訓練的模型在其它新資料庫上仍然可以執行，但是該模型無法處理複雜的 SQL（如 GROUP BY、ORDER BY 或巢狀查詢）和具備多個表和外來鍵的資料庫。

從上圖中可以看出，Spider 的範圍最大，因此它是最複雜的跨域 text-to-SQL 資料集。為什麼我們說它是最大的複雜跨域資料集呢？

大：超過 10000 個問題，6000 個對應的獨特 SQL 查詢。
複雜：大部分 SQL 查詢覆蓋幾乎所有重要的 SQL 元件，包括 GROUP BY、ORDER BY、HAVING 和巢狀查詢。此外，所有資料庫都具備多個由外來鍵連結的表。
跨域：包含 200 個複雜資料庫。根據資料庫型別，我們將 Spider 資料集分割成訓練、開發和測試集。這樣，我們就可以在未見過的資料庫上測試系統效能。

為什麼大、複雜、跨域？

首先，要訓練一個深度學習模型，資料集越大，效能越好。其次，你當然希望訓練資料儘可能多地覆蓋更多場景，包括不同的 SQL 元件和資料庫模式。這樣，系統可以更好地適應多種情形。最後，為什麼我們想要跨域資料？簡單來講，當你遇到新資料庫時，你不想重新標註資料、重新訓練一個新模型，這很浪費時間！

Spider 資料集下載

你可以透過以下方式找到 Spider 資料集和排行榜：

專案頁面：https://yale-lily.github.io/spider
GitHub 頁面：https://github.com/taoyds/spider

我們希望 Spider 能夠幫助我們走向下一代資料庫自然語言介面！

其它挑戰

我們已經建立了一個不錯的資料集了，那麼要構建現實世界的資料庫自然語言介面還需要解決哪些挑戰？從自然語言處理的角度來看，有三個主要任務：

自然語言理解：該系統必須理解使用者的問題，這些問題可能是模糊、隨機和多樣的。

資料庫模式表徵：資料庫可以非常複雜，包括數百個列、很多表和外來鍵。

複雜的 SQL 解碼／生成：該系統理解使用者問題和使用者正在查詢的資料庫模式後，它還需要生成對應的 SQL 答案。但是，SQL 查詢可能非常複雜，並且還包含具備不同條件的巢狀查詢。

相關研究

該領域已經經過 NLP 和資料庫社群數十年的研究。以下是近期相關研究的簡短列表：

SyntaxSQLNet: Syntax Tree Networks for Complex and Cross-Domain Text-to-SQL Task
Zero-shot Parser：Decoupling Structure and Lexicon for Zero-Shot Semantic Parsing（https://arxiv.org/abs/1804.07918）
Coarse2fine：Coarse-to-Fine Decoding for Neural Semantic Parsing（https://arxiv.org/pdf/1805.04793.pdf）
SQL 評估方法：TypeSQL: Knowledge-based Type-Aware Neural Text-to-SQL Generation（https://arxiv.org/pdf/1804.09769.pdf）
在任務中加入背景資訊：Learning to Map Context-Dependent Sentences to Executable Formal Queries（http://alanesuhr.com/atis.pdf）、DialSQL: Dialogue Based Structured Query Generation（http://cs.ucsb.edu/~ysu/papers/acl18_dialsql.pdf）
TypeSQL：TypeSQL: Knowledge-based Type-Aware Neural Text-to-SQL Generation（https://arxiv.org/abs/1804.09769）
SQLNet：SQLNet: Generating Structured Queries From Natural Language Without Reinforcement Learning（https://arxiv.org/abs/1711.04436）
Seq2SQL：Seq2SQL: Generating Structured Queries from Natural Language using Reinforcement Learning（https://arxiv.org/abs/1709.00103）
句法神經網路：A Syntactic Neural Model for General-Purpose Code Generation（https://arxiv.org/abs/1704.01696）、Abstract Syntax Networks for Code Generation and Semantic Parsing（https://arxiv.org/abs/1704.07535）
Seq2Tree：Learning a Neural Semantic Parser from User Feedback（https://arxiv.org/pdf/1704.08760.pdf）
NaLIR：Constructing an Interactive Natural Language Interface for Relational Databases（http://www.vldb.org/pvldb/vol8/p73-li.pdf）

以及一些相關的演講、部落格或書籍：

How to Talk to Your Database（https://einstein.ai/research/blog/how-to-talk-to-your-database）
ACL 2018 Tutorial on Neural Semantic Parsing（https://github.com/allenai/acl2018-semantic-parsing-tutorial）
Natural Language Data Management and Interfaces（http://www.morganclaypoolpublishers.com/catalog_Orig/product_info.php?products_id=1286）
A Syntactic Neural Model for General-Purpose Code Generation（https://vimeo.com/234954608）
Learning to Map Context-Dependent Sentences to Executable Formal Queries（http://alanesuhr.com/sia2018-slides.pdf）

論文：Spider: A Large-Scale Human-Labeled Dataset for Complex and Cross-Domain Semantic Parsing and Text-to-SQL Task

「蜘蛛」來了！耶魯大學11名學生標註完成大規模複雜跨域Text-to-SQL資料集Spider

論文連結：https://arxiv.org/abs/1809.08887

摘要：我們展示了一個大規模複雜跨域語義解析和 text-to-SQL 資料集 Spider。該資料集由 11 名耶魯大學學生標註，包含 10181 個問題和 5693 個獨特的複雜 SQL 查詢、200 個具備多個表的資料庫，覆蓋 138 個不同領域。我們定義了一個新的複雜跨域語義解析和 text-to-SQL 任務，其中訓練集和測試集中出現不同的複雜 SQL 查詢和資料庫。因此，該任務要求模型在新的 SQL 查詢和新資料庫模式上均實現良好的泛化。Spider 與之前的大部分語義解析任務都不同，因為它們使用單個資料庫，而且訓練集和測試集使用的是相同的資料庫。我們用多個當前最優模型進行實驗，最好的模型在資料庫分割設定下僅能達到 14.3% 的精確匹配準確率。這表明 Spider 對未來研究是一個巨大挑戰。

原文地址：https://medium.com/@tao.yu/spider-one-more-step-towards-natural-language-interfaces-to-databases-62298dc6df3c

耶魯大學教授從構建生產資料庫中學到的 42 件事 - maheshba
2021-11-24
資料庫
機器學習中的有標註資料集和無標註資料集
2023-05-08
機器學習
十年前，有人黑進了耶魯大學的伺服器
2018-09-04
伺服器
耶魯大學研究提出加密貨幣價格預測的幾大要素
2018-08-09
加密
跨模態大升級！少量資料高效微調，LLM教會CLIP玩轉複雜文字
2024-11-27
Vaex助力高效處理大規模資料集
2023-10-27
yolov8_資料集標註
2024-04-13
YOLO
讓智慧體像孩子一樣觀察別人學習動作，跨視角技能學習資料集EgoExoLearn來了
2024-04-06
智慧體Go
大學生捐精合格率不足20%？真相來了！
2023-02-24
拆分PPOCRLabel標註的資料集並生成識別資料集
2024-10-31
資料的採集，清洗，資料機器自動標註及轉化為深度學習格式
2018-08-16
深度學習
目標檢測資料集，全部有標註
2024-04-07
拯救深度學習：標註資料不足下的深度學習方法
2020-10-16
深度學習
為什麼Web前端變的越來越複雜，變得更加難學了
2019-10-18
Web前端
資料結構與演算法學習-複雜度分析
2019-03-03
資料結構演算法複雜度
耶魯大學：研究發現二手菸可通過吸菸者進入無煙環境
2020-03-05
如何提高資料標註質量，提供精細化標註資料集?丨曼孚科技
2020-05-25
Ocient報告：從大資料到超大規模資料集的轉變
2022-08-12
大資料
看破不可見資料集，自我監督學習成為細胞組學新的複雜系統處理利器
2025-01-21
FAIR 開放大規模細粒度詞彙級標記資料集 LVIS，連披薩里的菠蘿粒都能完整標註
2019-08-28
AI
Spider pool 蜘蛛池的概念和原理白狐公羊seo
2023-03-06
IDE
運營商大規模資料叢集治理的實踐指南
2019-06-28
中國青年網：超7成大學生參與“雙十一”網購
2018-11-12
資料結構基礎學習之時間複雜度分析
2019-04-05
資料結構時間複雜度
axios跨域學習總結
2018-07-25
iOS跨域
時間複雜度一定的演算法能處理的資料規模
2019-01-30
時間複雜度演算法
大資料學習入門規劃？和學習路線
2018-11-05
大資料
自學資料結構四月二十一日_時間複雜度＆空間複雜度
2019-04-21
資料結構時間複雜度
一起來學大資料——走進Linux之門，學習大資料的重中之重
2018-10-11
大資料Linux
在這個連開源標註資料集都沒有的領域，AI該如何落地？
2018-03-29
AI
Java學完可以應用在什麼領域？這8大領域你要知道
2021-08-02
Java
2017-2021年美國大學返校季支出規模（附原資料表）
2021-08-04
六成大學生會因工作太簡單而選擇辭職
2021-03-29
如何進入大資料領域，怎樣學習？
2018-05-24
大資料
IE大學：未來的資料經濟
2024-09-12
DataSpell for mac完美註冊版下載(專業資料科學家的IDE)
2023-11-15
Mac資料科學IDE
資料標註案例分享：車輛前置攝像頭資料採集標註專案丨曼孚科技
2020-04-15
開源！上海AI Lab影片生成大模型書生·築夢 2.0來了
2024-09-23
AI大模型

「蜘蛛」來了！耶魯大學11名學生標註完成大規模複雜跨域Text-to-SQL資料集Spider

相關文章