《Spelling Error Correction with Soft-Masked BERT》閱讀筆記
會議:ACL2020
機構:位元組跳動、復旦大學
摘要:拼寫錯誤檢測很重要但是具有挑戰性,因為其需要人類水平的語言理解能力。目前一個SOTA是用BERT在句子的每個位置的候選列表中選擇一個字元,以進行修改(或不修改)。然而,這個方法的準確性可能不是最優的,因為BERT沒有足夠的能力去識別某個位置的字元是不是錯誤的,因為他使用mask language model的訓練方式。我們提出了一個新的神經網路來解決上述問題,包括了錯誤檢測網路和錯誤糾正網路,並通過soft-masking的技術來連線兩個部分。我們的方法可以用於其他語言檢測糾正問題。在兩個資料集上的實驗結果表明,我們提出的方法的表現優於baseline也優於基於BERT的baseline。
解決問題:作者認為糾錯任務分兩步,當能夠準確檢測出錯誤時,糾正才能完成得更好。作者觀察到BERT模型不能很好地去檢測錯誤,認為是BERT使用mask language model導致的(BERT在訓練的時候,只有15%的詞被遮蔽,因此)。為了解決上述問題,作者提出了新的架構Soft-Masked BERT
模型:
兩個網路:一個檢測網路,一是糾錯網路
檢測網路是Bi-GRU,用於計算句子中的每一個字元是錯誤的可能性
糾錯網路是BERT
相關文章
- 閱讀筆記筆記
- 【閱讀筆記:字典】筆記
- gdbOF閱讀筆記筆記
- 閱讀筆記03筆記
- 閱讀筆記02筆記
- 閱讀筆記8筆記
- 閱讀筆記1筆記
- 閱讀筆記5筆記
- 閱讀筆記4筆記
- 閱讀筆記3筆記
- 閱讀筆記7筆記
- 閱讀筆記2筆記
- JDK原始碼閱讀:Object類閱讀筆記JDK原始碼Object筆記
- 《Clean Code》閱讀筆記筆記
- Dependencies for Graphs 閱讀筆記筆記
- javascript閱讀筆記01JavaScript筆記
- #EffectiveJava筆記#閱讀心得Java筆記
- 閱讀影片方法筆記筆記
- 《快速閱讀術》讀書筆記筆記
- JDK原始碼閱讀(5):HashTable類閱讀筆記JDK原始碼筆記
- JDK原始碼閱讀(4):HashMap類閱讀筆記JDK原始碼HashMap筆記
- JDK原始碼閱讀:String類閱讀筆記JDK原始碼筆記
- MapReduce 論文閱讀筆記筆記
- ArrayList原始碼閱讀筆記原始碼筆記
- CopyOnWriteArrayList原始碼閱讀筆記原始碼筆記
- SiamRPN++閱讀筆記筆記
- Raft: 一點閱讀筆記Raft筆記
- 《思維力量》閱讀筆記筆記
- Flownet 2.0 閱讀筆記筆記
- Koa 原始碼閱讀筆記原始碼筆記
- Keys for graphs閱讀筆記筆記
- GoogleNet閱讀筆記Go筆記
- The Data Warehouse Toolkit 閱讀筆記筆記
- 《大圖景》閱讀筆記筆記
- mobx-react閱讀筆記React筆記
- SSD論文閱讀筆記筆記
- memcached 原始碼閱讀筆記原始碼筆記
- Kafka文件閱讀筆記(一)Kafka筆記