乾貨分享!手把手教你構建用於文字聚類任務的大規模、高質量語料
一、什麼是語義關聯性(Semantic Relatedness)
-
語義關聯性(Semantic Relatedness)
-
分類學相關(Taxonomic Relations)
-
非分類學相關(Non-Taxonomic Relations)
-
主題相關(Thematic Relations)
-
文字分類 - 根據定義,文字分類是基於機器學習/深度學習技術,按照一定的分類體系或標準進行自動分類打標籤。它跟我們上面提到的分類學相關(Taxonomic Relations)直接相關。
-
文字聚類 - 文字聚類主要是基於無監督的機器學習演算法,在不事先規定聚類數的情況下, 依據著名的聚類假設:同類的文件相似度較大,而不同類的文件相似度較小。它跟我們上面提到的主題相關(Thematic Relations)聯絡密切。
二、基於主題相似的文字聚類
( Text Clustering Based Thematic Relations)
-
越南發現新冠變異病毒混合體,易於空氣傳播
- 越南衛生部29號宣佈,發現了一種可以透過空氣迅速傳播的新冠變異毒株,這一變種病毒具有最早在印度發現的毒株和最早在英國發現的兩個變種病毒的雙重特徵。
-
越南此次發現的毒株更具傳染性,並且很容易透過空氣傳播。
-
第1集主要內容:1915年5月9日,袁世凱下令,同意與日本簽訂喪權辱國的二十一條。根據這個條約,中國承認日本繼承德國在山東的一切權益,日本在中國南滿和蒙古東部享有特殊權利,日本獲得在中國多條鐵路建築權等等。北洋政府的賣國行徑遭到全國民眾的強烈反對,全國各大城市都舉行了聲勢浩大的遊行。流亡海外的孫中山、黃興等人呼籲革命者回國倒袁。 -
第2集主要內容:陳獨秀歸國,汪孟鄒、陳子壽等人為其接風洗塵。在飯桌上,眾人探討當下局勢,陳獨秀指出如今所面臨的強敵不僅是強在武力上,更強在思想和理念上。為此陳獨秀決定創辦一份雜誌,作為喚醒國人政治覺悟和倫理覺悟的號角,從而探索出一條振興中華的道路。 -
... -
第42集主要內容: 李大釗在北京長辛店分發《新青年》的刊物,併為眾人講述五一國際勞動節的由來,他告訴大家美國的勞工遊行要求每日工作八小時,呼籲工人們也要團結起來為了自己的權利而奮鬥。此外,中國共產黨第一個早期組織在上海成立,陳獨秀等人志願加入中國共產黨。 -
第43集主要內容:周恩來將陳獨秀寄來的刊物拿給延年喬年,延年和喬年已經發現了行不通,他們已經透過反覆研讀馬克思主義的刊物確認了馬克思主義才是中國的救國之路。
三、基於中文Wiki構建可用於
訓練主題相似語義表示規模的大規模語料
“名稱”段落下的內容組織:
3、考慮到後續訓練模型的效率和學習效果,我們需要謹慎挑選負例,即選擇困難負例(hard negtive);考慮到詞條謀篇佈局的規範嚴謹性,anchor和positive所在段落的前後相繼的段落中的任意語句可作為hard negtive。
4、為避免模型學習到固定模式,即干擾訊號,hard negtive需要隨機在上一段和下一段中生成。
5、過濾掉一些大事記之類的詞條,此類詞條乃綜合性詞條,按時間組織,內容主題方面千差萬別,無一致性,無學習意義;
6、去掉過短(少於10字)和過長的語句(多於256字)。
- ( '新文化運動為五四運動做了思想上和組織上的預備','關於新文化運動與1919年的五四運動的關係有不同看法[17],一種意見認為二者基本是一個運動的兩個階段,可以統稱為廣義的“五四運動”,或者“五四新文化運動”',
'1915年9月,陳獨秀在上海創辦《青年雜誌》,1916年改名《新青年》,刊物上還印有法文刊名La Jeunesse'),
- ( '自然語言處理(英語:Natural Language Processing,縮寫作 NLP)是人工智慧和語言學領域的分支學科。','自然語言處理包括多方面和步驟,基本有認知、理解、生成等部分。',
'在口語中,詞與詞之間通常是連貫的,而界定字詞邊界通常使用的辦法是取用能讓給定的上下文最為通順且在文法上無誤的一種最佳組合。在書寫上,漢語也沒有詞與詞之間的邊界。'),
- ( '次年其弟陳喬年亦遇害。兩兄弟均被安葬在龍華烈士陵園','1927年6月26日,陳延年被自己的老師吳稚暉背叛,在上海北四川路恆豐裡104號上海區委所在地被國民政府逮捕,陳延年拒絕招降。',
' 陳延年,又名遐延,筆名林木,男,安徽安慶人,中國共產黨早期領導人之一,陳獨秀長子')
結語
-
基於語義的文字檢索:
某男子正在吃意麵 (Score: 0.8763)
一個人在吃食物 (Score: 0.6450)
一個男人正在吃一塊麵包 (Score: 0.5701)
一個男人騎著白馬在一個封閉的地面上行走 (Score: 0.1964)
-
相同表述語句對齊(從大量無序文字中找到語義最接近的語句對)
油嘴滑舌 油頭滑腦 Score: 0.7159
戮力同心 舉國同心 Score: 0.7118
戮力同心 同心同德 Score: 0.7109
招賢納士 博學多才 Score: 0.7092
自以為是 師心自用 Score: 0.7045
-
基於語義相似度閾值的聚類(設定相似度閾值和最小聚類成員數實現自動聚類)
參考文獻
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69997703/viewspace-2784903/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 教你文字聚類聚類
- 超乾貨 | 手把手教你快速構建一個企業自有“微信”!
- 乾貨 :基於使用者畫像的聚類分析聚類
- 乾貨 | 餘額寶大規模服務化的技術創新
- 使用Apache Hudi構建大規模、事務性資料湖Apache
- CCTC不可錯過的乾貨分享:大規模機器學習系統中的No Free Lunch機器學習
- 基於AWS雲服務的大資料與大規模計算的應用架構大資料應用架構
- Activemq構建高併發、高可用的大規模訊息系統MQ
- 手把手教你快速構建自定義分類器
- 西文字型相關術語解說及《乾貨分享》
- 乾貨 | 深度學習在文字分類中的應用深度學習文字分類
- FutureBuilder and StreamBuilder 優雅的構建高質量專案Rebuild
- 純乾貨分享 —— 大資料入門指南大資料
- 乾貨分享|快速定位UXDB中CPU高負荷的SQL語句UXSQL
- Apache DolphinScheduler大規模任務排程系統對大資料實時Flink任務支援Apache大資料
- Spark構建聚類模型(二)Spark聚類模型
- 【乾貨分享】有效平衡時間、質量和成本的專案管理方法專案管理
- [乾貨]如何使用webpack構建多頁應用Web
- 滿滿乾貨!手把手教你實現基於eTS的分散式計算器分散式
- 【長篇乾貨】深度學習在文字分類中的應用深度學習文字分類
- 資料視覺化實用乾貨分享視覺化
- Spark應用HanLP對中文語料進行文字挖掘--聚類詳解教程SparkHanLP聚類
- 乾貨 | 手把手教你快速擼一個區塊鏈區塊鏈
- 乾貨系列之手把手教你使用Core animation 做動畫動畫
- 乾貨分享:資料分析的6大基本步驟
- 構建一個語音轉文字的WebApi服務WebAPI
- 乾貨分享 | C語言的聯合體C語言
- 大資料下的質量體系建設大資料
- 如何使用 FutureBuilder and StreamBuilder 優雅的構建高質量專案Rebuild
- 用 Hystrix 構建高可用服務架構架構
- 說說 Spring 定時任務如何大規模企業級運用Spring
- CNN也能用於NLP任務,一文簡述文字分類任務的7個模型CNN文字分類模型
- 機器學習高質量資料集大合輯機器學習
- 微服務構建持久API的7大規則微服務API
- 乾貨 | 一款位元組跳動出品的高質量免費圖示庫
- 如何做一場高質量的分享
- 手把手教你構建開放式文化
- 乾貨分享|Bitset 應用詳解