文字向量化模型acge_text_embedding

soreaK發表於2024-05-08

原文網址 : https://www.cnblogs.com/soreaK/p/18181162

1.背景
文字向量化模型是自然語言處理（NLP）中的一項核心技術，它可以將單詞、句子或影像特徵等高維的離散資料轉換為低維的連續向量，從而將文字資料轉換為計算機能夠處理的數值型向量形式。當文字資訊被轉換為向量形式後，輸出的結果能夠進一步地為多種後續任務提供有力支援，例如：搜尋、聚類、推薦、分類等。
在主體框架上，acge_text_embedding模型主要運用了俄羅斯套娃表徵學習（Matryoshka Representation Learning，以下簡稱MRL）這一靈活的表示學習框架。類似於俄羅斯套娃結構，MRL 產生的嵌入向量也是一個巢狀結構，其旨在建立一個巢狀的、多粒度的表示向量，每個較小的向量都是較大向量的一部分，並且可以獨立用於不同的任務。在訓練時，MRL根據指定維度[64,128,...,2048,3072]的向量來計算多個loss。使得使用者在推理時，可以根據自己的實際需求，輸入維度引數，來得到指定維度的向量。
MRL的最佳化問題可以表示為

這種方法的核心思想是學習不同粒度的資訊，允許一個嵌入向量在保持準確性和豐富性的同時，適應不同計算資源的需求，並可以無縫地適應大多數表示學習框架，並且可以擴充套件到多種標準計算機視覺和自然語言處理任務。
運用MRL技術，實現一次訓練，獲取不同維度的表徵，acge模型實現了從粗到細的層次化表示，從而提供了一種在推理和部署時不需要額外成本的靈活表示。另外，具體實踐上，為做好不同任務的針對性學習，acge模型使用策略學習訓練方式，顯著提升了檢索、聚類、排序等任務上的效能；引入持續學習訓練方式，克服了神經網路存在災難性遺忘的問題，使模型訓練迭代能夠達到相對優秀的收斂空間。
2.特點
acge模型是一個通用的文字編碼模型，是一個可變長度的向量化模型，來自於合合資訊科技團隊，對外技術試用平臺TextIn。其有以下幾個特點：
Token：acge模型支援最大1024 tokens，可以滿足大多數場景的分詞需求；
模型大小：0.65GB，模型較小，佔用資源少，又便於部署和維護；
分類任務效能： acge的平均準確率(Average)為69.07%，在所有模型中排名最高；
向量維度：模型輸入文字長度為1024，可以有效的輸入更豐富的資訊。
acge模型較小，佔用資源少，聚類分數也比較高，支援在不同場景下構建通用分類模型、提升長文件資訊抽取精度，且應用成本相對較低，可幫助大模型在多個行業中快速創造價值，推動科技創新和產業升級，為構建新質生產力提供強有力的技術支援。
3.使用
acge模型提供了預訓練好的模型供試用與效能復現，首先安裝sentence_transformers依賴：
pip install --upgrade sentence_transformers
安裝完成後

from sentence_transformers import SentenceTransformer

sentences = ["資料1", "資料2"]
model = SentenceTransformer('acge_text_embedding')
print(model.max_seq_length)
embeddings_1 = model.encode(sentences, normalize_embeddings=True)
embeddings_2 = model.encode(sentences, normalize_embeddings=True)
similarity = embeddings_1 @ embeddings_2.T
print(similarity)

或者我們可以從acge_text_embedding模型入口使用官網自帶的API來測試

數值代表了表示源文字與目標文字之間的語義相關性，相似度值越接近於1，文字之間的語義相關性越強
從測試中可以看出，與“今天想吃蕃茄炒雞蛋”最相近的是“今天想吃番茄炒雞蛋”，而“昨天吃的是紅燒肉”在語義上也表達出了“日期”，“吃”，“食物”等特點，剩下的語句也僅僅在語義上涉及了“日期”的概念，所以相似度很低。
4.程式碼
在sentence-transformer庫中的使用方法：

from sentence_transformers import SentenceTransformer

sentences = ["資料1", "資料2"]
model = SentenceTransformer('acge_text_embedding')
print(model.max_seq_length)
embeddings_1 = model.encode(sentences, normalize_embeddings=True)
embeddings_2 = model.encode(sentences, normalize_embeddings=True)
similarity = embeddings_1 @ embeddings_2.T
print(similarity)

在sentence-transformer庫中的使用方法，選取不同的維度：

from sklearn.preprocessing import normalize
from sentence_transformers import SentenceTransformer

sentences = ["資料1", "資料2"]
model = SentenceTransformer('acge_text_embedding')
embeddings = model.encode(sentences, normalize_embeddings=False)
matryoshka_dim = 1024
embeddings = embeddings[..., :matryoshka_dim]  # Shrink the embedding dimensions
embeddings = normalize(embeddings, norm="l2", axis=1)
print(embeddings.shape)

大模型的量化
2024-07-16
大模型
模型壓縮-模型蒸餾、模型剪枝、模型量化
2024-08-07
模型
【模型推理】Tengine 模型轉換及量化
2021-12-13
模型
excel文字橫向變縱向快捷鍵 excel文字方向改為縱向
2022-05-15
Excel
文字分類模型
2020-10-28
文字分類模型
位元組開源大模型量化新思路，2-bit量化模型精度齊平fp16
2024-05-13
大模型
文字資料分析——主題提取+詞向量化
2020-10-20
LLM大模型：推理最佳化-模型int8量化
2024-08-03
大模型
深度學習網路模型的輕量化方法
2021-07-17
深度學習模型
淺析三維模型輕量化技術方法
2023-03-15
模型
【模型推理】量化實現分享三：詳解 ACIQ 對稱量化演算法實現
2021-12-29
模型演算法
量化合約機器人系統模型開發（Solidity語言編寫量化合約）
2023-03-14
機器人模型Solid
輕量化模型訓練加速的思考（Pytorch實現）
2020-09-01
模型PyTorch
現貨量化跟單交易程式策略系統模型開發丨量化丨合約丨python
2023-03-29
模型Python
004-盒模型及文字溢位
2019-02-16
模型
訓練PaddleOCR文字方向分類模型
2024-08-27
模型
輕量化城市三維模型CIM的主要技術方法
2024-05-08
模型
製作並量化GGUF模型上傳到HuggingFace和ModelScope
2024-11-07
模型
大模型壓縮量化方案怎麼選？無問芯穹Qllm-Eval量化方案全面評估：多模型、多引數、多維度
2024-06-18
大模型
關於量化交易機器人系統開發的闡述與智慧量化合約程式模型
2023-03-15
機器人模型
fastText，智慧與美貌並重的文字分類及向量化工具
2018-07-05
AST文字分類
dotnet 簡單控制檯使用 KernelMemory 向量化文字嵌入生成和查詢
2024-06-16
R2CNN模型——用於文字目標檢測的模型
2021-12-04
CNN模型
【工具向01】——markdown 文字編輯語言相關
2019-03-27
知識蒸餾、輕量化模型架構、剪枝…幾種深度學習模型壓縮方法
2023-03-13
模型架構深度學習
DOM 和 Canvas 如何實現文字豎向排列的效果
2019-03-04
Canvas
（一）文字分類經典模型之CNN篇
2024-05-08
文字分類模型CNN
文字主題抽取：用gensim訓練LDA模型
2019-05-17
LDA模型
Llama2-Chinese專案：3.2-LoRA微調和模型量化
2023-10-01
模型
如何實現傾斜攝影三維模型OSGB格式輕量化
2024-06-03
模型
【終極指南】使用Python視覺化分析文字情感傾向
2024-05-28
Python視覺化
文字情感分析(一)：基於詞袋模型(VSM、LSA、n-gram)的文字表示
2019-05-19
模型
語言模型文字處理基石：Tokenizer簡明概述
2023-11-29
模型
Google 提出了一種新型的文字生成模型 LaserTagger
2020-02-23
Go模型
實現一個前向渲染的Phong模型（一）
2024-04-17
模型
Unity TMPro 文字適配 Panel - Scroll View 實現縱向滑動
2024-09-29
UnityView
基於WebGL/Threejs技術的BIM模型輕量化之圖元合併
2018-06-27
WebJS模型
超全總結：神經網路加速之量化模型 | 附帶程式碼
2018-06-01
神經網路模型

文字向量化模型acge_text_embedding

相關文章