如何讓語言模型充分利用GPU：針對大規模並行裝置的N-gram

機器之心分析師發表於2018-11-27

原文網址 : http://www.jiqizhixin.com/articles/2018-11-27-4

愛丁堡大學的論文《N-gram language models for massively parallel devices》介紹了用於大規模並行裝置的 N-gram 語言模型。機器之心技術分析師對該論文進行了解讀。

論文：https://aclweb.org/anthology/P/P16/P16-1183.pdf

引言

這篇論文談的是用於大規模並行裝置（GPU）的 N-gram 語言模型，這是最早為 GPU 設計的語言模型（至少在這篇論文發表時是這樣）。N-gram 語言模型的查詢速度存在計算瓶頸，而且儘管 GPU 擅於計算，但在 GPU 上卻並不好實現，因為還不存在針對 GPU 的已有的資料結構型別。這個問題導致我們無法完全發揮 GPU 的效力。

1 背景

也許有的讀者並不真正瞭解 N-gram 模型是什麼，因此首先我會先簡要介紹一些基本概念：

N-gram 語言模型

參閱：https://lagunita.stanford.edu/c4x/Engineering/CS-224N/asset/slp4.pdf

為詞序列分配概率的模型被稱為語言模型（LM）。N-gram 是目前最簡單的語言模型。N-gram 是 N 個詞構成的序列：2-gram（bi-gram）是兩個詞構成的詞序列，比如“please turn”；3-gram（tri-gram）是三個詞構成的詞序列，比如“please turn your”。

我們需要關注的有兩點（至少這篇論文是這麼說的）：

給定之前的詞，如何使用 N-gram 模型來估計 N-gram 中最後一個詞的概率？
如何將概率分配給整個序列？

（注意：我們通常會丟棄“模型”這個詞，這樣 N-gram 既可表示詞序列本身，也可表示為其分配概率的預測模型。這或許會產生一點術語歧義。）

對數概率

為什麼為語言模型使用對數概率？因為（按照定義）概率是小於或等於 1 的，所以相乘的概率越多，所得到的積就會越小。乘上足夠多的 N-gram 就會導致數值下溢。通過使用對數概率而非原始概率，我們能得到不會那麼小的值。在對數空間中相加等效於線上性空間中相乘，這樣我們就可以通過加法來將對數概率結合到一起。在對數空間中執行所有計算和儲存是很方便的，如果我們想檢視結果，只需要將結果轉換到普通概率空間既可，即求該對數概率的指數：p1 × p2 × p3 × p4 = exp(log p1 +log p2 +log p3 +log p4)。

首個GPU高階語言，大規模並行就像寫Python，已獲8500 Star
2024-05-20
GPU並行Python
CosyVoice: 多語言大規模語音生成模型的全棧解決方案
2024-10-18
模型全棧
讓預訓練語言模型讀懂數字：超對稱技術釋出 10 億引數 BigBang Transformer [乾元]金融大規模預訓練語言模型
2022-07-09
模型ORM
如何評估大語言模型
2023-03-29
模型
Android 與 Chrome OS 中針對大螢幕裝置的更新
2022-01-20
AndroidChrome
大語言模型
2024-08-08
模型
語言大模型
2024-08-07
大模型
擁有“意識”的AI：如何讓大語言模型具備自我意識？
2023-05-12
AI模型
中關村科金張傑：對話式AI，大規模語言模型展示出強大能力|展望2023
2023-02-01
中關村AI模型
MPP(大規模並行處理)簡介
2020-10-16
並行
新型大語言模型的預訓練與後訓練正規化，谷歌的Gemma 2語言模型
2024-11-29
模型谷歌Gemma
新型大語言模型的預訓練與後訓練正規化，Meta的Llama 3.1語言模型
2024-11-30
模型
大語言模型能用作世界模擬器嗎?
2024-06-16
模型
大語言模型中的MoE
2024-11-30
模型
搭建人工智慧多模態大語言模型的通用方法
2024-12-08
人工智慧模型
新型大語言模型的預訓練與後訓練正規化，蘋果的AFM基礎語言模型
2024-11-28
模型蘋果
人類偏好就是尺！SPPO對齊技術讓大語言模型左右互搏、自我博弈
2024-05-13
模型
微調大語言模型
2024-08-28
模型
MPP大規模並行處理架構詳解
2021-07-11
並行架構
極長序列、極快速度：面向新一代高效大語言模型的LASP序列並行
2024-04-16
模型並行
LLaMA-Factory微調多模態大語言模型教程
2024-05-31
模型
GPU程式設計(四):並行規約優化
2019-02-17
GPU程式設計並行優化
如何進行裝置的非對稱效能測試
2024-03-22
2024年大語言模型的微調
2024-03-07
模型
探究大語言模型的思維方式
2024-05-27
模型
改進大語言模型的最全方法！
2024-09-13
模型
Xcode 小技巧：利用 assets 配置針對不同裝置的資源
2018-07-01
XCode
Mac上LLAMA2大語言模型安裝到使用
2024-03-07
Mac模型
針對客戶細分的RFM模型如何構建？
2020-06-19
模型
Docker 映象製作教程：針對不同語言的精簡策略
2021-12-21
Docker
Golang語言並行設計的核心goroutine
2019-05-08
Golang並行
ACL 2024論文蓋棺定論：大語言模型≠世界模擬器，Yann LeCun：太對了
2024-06-16
模型Yann LeCun
大模型不只是語言能力，還是對廣闊世界的理解
2024-04-11
大模型
讓大模型理解手機螢幕，蘋果多模態Ferret-UI用自然語言操控手機
2024-05-20
大模型蘋果UI
為視覺語言多模態模型進行偏好最佳化
2024-07-16
視覺模型
如何在Kafka中將嚴格順序與大規模並行性結合？ - Emil
2021-01-27
Kafka並行
什麼是大語言模型（LLM）？
2024-03-07
模型
01-大語言模型發展
2024-04-21
模型

如何讓語言模型充分利用GPU：針對大規模並行裝置的N-gram

引言

1 背景

相關文章