NPL---自然語言處理單詞界定問題

小张睡醒了發表於2024-03-18

原文網址 : https://www.cnblogs.com/wajava/p/18081702

2.1 單詞界定問題

單詞定界問題是屬於詞法層面的消歧任務。在口語中，詞與詞之間通常是連貫說出來的。在書面語中，中文等語言也沒有詞與詞之間的邊界。由於單詞是承載語義的最小單元，要解決自然語言處理，單詞的邊界界定問題首當其衝。特別是中文文字通常由連續的字序列組成，詞與詞之間缺少天然的分隔符，因此中文資訊處理比英文等西方語言多一步工序，即確定詞的邊界，我們稱為“中文自動分詞”任務。通俗的說就是要由計算機在詞與詞之間自動加上分隔符，從而將中文文字切分為獨立的單詞。例如一個句子“今天天氣晴朗”的帶有分隔符的切分文字是“今天|天氣|晴朗”。中文自動分詞處於中文自然語言處理的底層，是公認的中文資訊處理的第一道工序，扮演著重要的角色，主要存在新詞發現和歧義切分等問題。我們注意到：正確的單詞切分取決於對文字語義的正確理解，而單詞切分又是理解語言的最初的一道工序。這樣的一個“雞生蛋、蛋生雞”的問題自然成了（中文）自然語言處理的第一條攔路虎。

"""
 author:jjk
 datetime:2018/11/1
 coding:utf-8
 project name:Pycharm_workstation
 Program function: 中文分詞
                   結巴分詞
 
"""
import jieba # 匯入結巴分詞包
import jieba.posseg as pseg
import time #  時間

time_Start = time.time()

#f=open("t_with_splitter.txt","r")#讀取文字  
#string=f.read().decode("utf-8")

string = '中文自動分詞指的是使用計算機自動對中文文字進行詞語的切分，' + \
         '即像英文那樣使得中文句子中的詞之間有空格以標識。' + \
         '中文自動分詞被認為是中文自然語言處理中的一個最基本的環節'

words = pseg.cut(string) # 進行分詞
result = "" #記錄最終結果的變數 
for w in words:
    result += str(w.word) + "/" + str(w.flag) # 加詞性標註  
print(result) # 輸出結果
f = open("result.txt","w") #將結果儲存到另一個文件中 
f.write(result)
f.close()
time_Stop = time.time()
print("分詞及詞性標註完成，耗時："+str(time_Stop-time_Start)+"秒。")# 輸出結果

自然語言處理中的分詞問題總結
2018-10-26
自然語言處理分詞
自然語言處理:分詞方法
2018-03-29
自然語言處理分詞
自然語言處理之jieba分詞
2020-08-18
自然語言處理Jieba分詞
精通Python自然語言處理 4 ：詞性標註--單詞識別
2018-06-01
Python自然語言處理詞性標註
自然語言處理NLP（6）——詞法分析
2019-02-26
自然語言處理詞法分析
自然語言處理之序列標註問題
2024-03-19
自然語言處理
詞！自然語言處理之詞全解和Python實戰！
2023-11-06
自然語言處理Python
入門自然語言處理必看：圖解詞向量
2019-08-28
自然語言處理圖解
Pyhanlp自然語言處理中的新詞識別
2019-02-15
HanLP自然語言處理
Python 自然語言處理（基於jieba分詞和NLTK）
2018-05-11
Python自然語言處理Jieba分詞
NLP自然語言處理中的hanlp分詞例項
2019-02-18
自然語言處理HanLP分詞
Hanlp自然語言處理中的詞典格式說明
2019-03-15
HanLP自然語言處理
自然語言處理（NLP）系列（一）——自然語言理解（NLU）
2023-02-01
自然語言處理
自然語言處理NLP（四）
2018-10-03
自然語言處理
自然語言處理(NLP)概述
2018-08-11
自然語言處理
HanLP 自然語言處理 for nodejs
2019-04-24
HanLP自然語言處理NodeJS
Python自然語言處理實戰（3）：中文分詞技術
2018-07-15
Python自然語言處理中文分詞
[譯] 自然語言處理真是有趣！
2018-08-10
自然語言處理
【NPL】如何解決90％的自然語言處理問題：分步指南奉上
2018-03-03
自然語言處理
05.序列模型 W2.自然語言處理與詞嵌入
2020-09-30
模型自然語言處理
自然語言處理NLP快速入門
2018-10-24
自然語言處理
配置Hanlp自然語言處理進階
2018-12-07
HanLP自然語言處理
自然語言處理的最佳實踐
2019-10-28
自然語言處理
人工智慧 (06) 自然語言處理
2019-12-19
人工智慧自然語言處理
自然語言處理與情緒智慧
2024-08-25
自然語言處理
Pytorch系列:（六）自然語言處理NLP
2021-05-21
PyTorch自然語言處理
史丹佛自然語言處理習題課1——緒論
2018-11-06
自然語言處理
精通Python自然語言處理 2 ：統計語言建模
2018-05-28
Python自然語言處理
自然語言處理工具pyhanlp分詞與詞性標註
2019-05-18
自然語言處理HanLP分詞詞性標註
中國語文（自然語言處理）作業
2024-08-22
自然語言處理
自然語言處理中的語言模型預訓練方法
2018-10-22
自然語言處理模型
自然語言處理怎麼最快入門？
2018-11-28
自然語言處理
精通Python自然語言處理 1 ：字串操作
2018-05-28
Python自然語言處理字串
深度解析自然語言處理之篇章分析
2023-11-08
自然語言處理
自然語言處理（NLP）路線圖 - kdnuggets
2020-11-08
自然語言處理
人工智慧--自然語言處理簡介
2024-11-08
人工智慧自然語言處理
探索自然語言處理：語言模型的發展與應用
2024-03-13
自然語言處理模型
Hanlp自然語言處理工具之詞法分析器
2019-04-10
HanLP自然語言處理詞法分析

NPL---自然語言處理單詞界定問題

2.1 單詞界定問題

相關文章