NLP學習1

qbning發表於2024-09-16

原文網址 : https://www.cnblogs.com/qbning/p/18416580

使用書籍《pytroch自然語言處理入門與實戰》

1.常用庫

numpy 科學計算

matplotlib 圖表視覺化

scikit-learn 資料探勘和資料分析

nltk 包含50種語料和常見演算法

spacy 實體命名，預訓練詞向量需要先安裝對應語言的模型

jieba 中文分詞

pkuseg pku論文的中文分詞

wn 載入使用wordnet的包

pandas 資料處理

2.python處理字串

1.str型別

不可變物件

ord()獲得字元編碼值

chr()編碼值轉換字元

split+join轉換為列表

常用方法

find 返回第一次出現下標
rfind 倒數第一次出現下標
count 出現次數
startswith 是否以某串開頭
endswith 是否以某串結尾
isdigit 是否為數字
isalpha 是否為字母
isupper 是否為大寫字母
istrip 刪除開頭指定字元
rstrip 刪除結尾指定字元
strip 刪除首尾指定字元
replace 字元替換
center 指定寬度字串居中

2.bytes型別

>>> byte1 = b"hello"

與字串轉換

>>> print(str(byte1))
b'hello'
>>> print((byte1.decode()))
hello

str可以用encode指定一種編碼方式編碼為byte

3.StringIO類

可變

>>> import io
>>> sio = io.StringIO()
>>> sio.write('hello')
5
>>> sio.write(' ')
1
>>> sio.write('world')
5
>>> print(sio.getvalue())
hello world
>>> sio.close()

3.python 處理語料

1.讀取語料

txt文字

f = open('text.txt',encoding='utf8') #用utf8編碼開啟檔案
words = [] #定義空的list用於存放所有詞語
for l in f:
    word = l.strip().splt(' ') # 刪除行尾換行符，切分單詞和中文
    words.append(word)
f.close() #關閉檔案

csv

import csv
f = open('file.csv',encoding='utf8') #用utf8編碼開啟檔案
reader = csv.reader(f)
lines = [] 
for l in reader:
    lines.append(l)

json

import json
f = open('file.json', 'r', encoding='utf8')  # 用utf8編碼以讀取模式開啟檔案
data = json.load(f)  # 直接讀取JSON檔案內容

2，去重

使用set去重(add新增，in判斷是否在內)，大資料使用BitMap或Bloom Filter

3.停用詞

去GitHub找stopwords

4.編輯距離

衡量兩個字串之間的差異。定義了三種操作：插入一個字元，刪除一個字元，替換一個字元，編輯距離就是一個字串變成另一個字串的最小操作，可以使用dp來進行計算

def minDistance(word1:str,word2:str)->int:
    n = len(word1)
    m = len(word2)
    dp = [[0]*(m+1) for _ in range(n+1)]
    for i in range(m+1):dp[0][i]=I
    for i in range(n+1):dp[i][0]=i
    for i in range(1,n+1):
        for j in range(1,m+1):
            if word1[i-1] == word2[j-1]:
				dp[i][j] = dp[i-1][j-1]
            else
            	dp[i][j] = min(dp[i][j-1],dp[i-1][j],dp[i-1][j-1])+1
    return dp[-1][-1] #最後一個元素

5.文字規範化

6.分詞

7 .詞頻-逆文字頻率

8.獨熱編碼

4.PyTorch & Transformers的安裝

PyTorch

【布客】PyTorch 中文翻譯 (apachecn.org)

英偉達顯示卡

pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

CPU

pip3 install torch torchvision torchaudio

檢查

>>> import torch
>>> torch.version
<module 'torch.version' from '\\.conda\\envs\\nlp\\Lib\\site-packages\\torch\\version.py'>
>>> torch.cuda.is_available
<function is_available at 0x000001F4D67EE0C0>

Transformers

pip install transformers

檢查

>>> from transformers import pipeline
>>> print(pipeline('sentiment-analysis')('I love you'))
No model was supplied, defaulted to distilbert/distilbert-base-uncased-finetuned-sst-2-english and revision af0f99b (https://huggingface.co/distilbert/distilbert-base-uncased-finetuned-sst-2-english).
Using a pipeline without specifying a model name and revision in production is not recommended.
[{'label': 'POSITIVE', 'score': 0.9998656511306763}]

如果報錯，可能是網路原因

requests.exceptions.SSLError: (MaxRetryError("HTTPSConnectionPool(host='huggingface.co', port=443): Max retries exceeded with url: /distilbert/distilbert-base-uncased-finetuned-sst-2-english/resolve/main/config.json (Caused by SSLError(SSLCertVerificationError(1, '[SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed: unable to get local issuer certificate (_ssl.c:1006)')))"), '(Request ID: cf626477-ad07-40c9-b4ce-dcf8371fe213)')

NLP與深度學習（一）NLP任務流程
2021-08-24
深度學習
AI/機器學習（計算機視覺/NLP）方向面試複習1
2024-07-30
AI機器學習計算機視覺面試
NLP系列學習:資料平滑
2019-02-24
系統學習NLP（十六）--DSSM
2019-03-12
SSM
你是怎麼學習 NLP 的？
2019-04-04
NLP&深度學習：近期趨勢概述
2018-09-21
深度學習
系統學習NLP（二十一）--SWEM
2019-03-19
系統學習NLP（十七）--文字相似度
2019-03-13
系統學習NLP（二十）--文字聚類
2019-03-14
聚類
從零開始學機器學習——入門NLP
2024-11-21
機器學習
圖解BERT（NLP中的遷移學習）
2019-04-24
圖解遷移學習
系統學習NLP（十五）--seq2seq
2019-03-12
NLP與深度學習（六）BERT模型的使用
2021-10-09
深度學習模型
從 Quora 的 187 個問題中學習機器學習和 NLP
2018-04-12
機器學習
Hugging Face NLP課程學習記錄 - 0. 安裝transformers庫 & 1. Transformer 模型
2024-09-14
Hugging FaceORM模型
【NLP學習筆記】（一）Gensim基本使用方法
2018-12-11
筆記
系統學習NLP（十二）--文字表示綜述
2019-03-10
系統學習NLP（十四）--句子向量與篇章向量
2019-03-11
剛開始學習nlp時遇到的問題
2018-07-04
系統學習NLP（十九）--文字分類之FastText
2019-03-14
文字分類AST
NLP與深度學習（五）BERT預訓練模型
2021-09-30
深度學習模型
學習1
2024-05-22
GPT-3，深度學習和NLP的巨大進步
2020-09-30
GPT深度學習
如何用最強模型BERT做NLP遷移學習？
2019-02-03
模型遷移學習
NLP與深度學習（二）迴圈神經網路
2021-08-28
深度學習神經網路
codeigniter學習1
2019-02-16
Jquery學習1
2024-03-10
jQuery
AJAX學習1
2024-03-10
Vuex學習（1）
2019-06-12
Vue
python學習1
2019-05-13
Python
js學習1
2024-10-03
JS
Java學習（1）
2024-07-21
Java
odoo學習-1
2024-07-01
Odoo
flask學習1
2022-02-03
Flask
Kettle學習1
2020-11-25
阿里雲機器學習PAI開源中文NLP演算法框架EasyNLP，助力NLP大模型落地
2022-04-27
阿里機器學習AI演算法框架大模型
百度NLP：強化學習之原理與應用
2019-02-22
強化學習
萬字長文概述NLP中的深度學習技術
2019-02-28
深度學習