物以類聚人以群分,透過GensimLda文字聚類構建人工智慧個性化推薦系統(Python3.10)

劉悅的技術部落格發表於2023-01-09

原文網址 : https://www.cnblogs.com/v3ucn/p/17037128.html

眾所周知，個性化推薦系統能夠根據使用者的興趣、偏好等資訊向使用者推薦相關內容，使得使用者更感興趣，從而提升使用者體驗，提高使用者粘度，之前我們曾經使用協同過濾演算法構建過個性化推薦系統，但基於顯式反饋的演算法就會有一定的侷限性，本次我們使用無監督的Lda文字聚類方式來構建文字的個性化推薦系統。

推薦演算法:協同過濾/Lda聚類

我們知道，協同過濾演算法是一種基於使用者的歷史行為來推薦物品的演算法。協同過濾演算法利用使用者之間的相似性來推薦物品，如果兩個使用者對某些物品的評分相似，則協同過濾演算法會將這兩個使用者視為相似的，並向其中一個使用者推薦另一個使用者喜歡的物品。

說白了，它基於使用者的顯式反饋，什麼是顯式反饋？舉個例子，本如本篇文章，使用者看了之後，可能會點贊，也可能會瘋狂點踩，或者寫一些關於文字的評論，當然評論內容可能是負面、正面或者中性，所有這些使用者給出的行為，都是顯式反饋，但如果使用者沒有反饋出這些行為，就只是看了看，協同過濾演算法的效果就會變差。

LDA聚類是一種文字聚類演算法，它透過對文字進行主題建模來聚類文字。LDA聚類演算法在聚類文字時，不考慮使用者的歷史行為，而是根據文字的內容和主題來聚類。

說得通俗一點，協同過濾是一種主動推薦，系統根據使用者歷史行為來進行內容推薦，而LDA聚類則是一種被動推薦，在使用者還沒有產生使用者行為時，就已經開始推薦動作。

LDA聚類的主要目的是將文字分為幾類，使得每類文字的主題儘可能相似。

LDA聚類演算法的工作流程大致如下：

1.對文字進行預處理，去除停用詞等。

2.使用LDA模型對文字進行主題建模，得到文字的主題分佈。

3.將文字按照主題分佈相似性進行聚類。

4.將聚類結果作為類標籤，對文字進行分類。

大體上，LDA聚類演算法是一種自動將文字分類的演算法，它透過對文字進行主題建模，將文字按照主題相似性進行聚類，最終實現文字的分類。

Python3.10實現

實際應用層面，我們需要做的是讓主題模型能夠識別在文字里的主題，並且挖掘文字資訊中隱式資訊，並且在主題聚合、從非結構化文字中提取資訊。

首先安裝分詞以及聚類模型庫：

pip3 install jieba  
pip3 install gensim

隨後進行分詞操作，這裡以筆者的幾篇文章為例子：

import jieba  
import pandas as pd  
import numpy as np  
title1="乾坤大挪移,如何將同步阻塞(sync)三方庫包轉換為非同步非阻塞(async)模式？Python3.10實現。"  
title2="Generator(生成器),入門初基,Coroutine(原生協程),登峰造極,Python3.10併發非同步程式設計async底層實現"  
title3="週而復始,往復迴圈,遞迴、尾遞迴演算法與無限極層級結構的探究和使用(Golang1.18)"  
title4="彩虹女神躍長空,Go語言進階之Go語言高效能Web框架Iris專案實戰-JWT和中介軟體(Middleware)的使用EP07"  
content = [title1,title2, title3,title4]  
  
  
#分詞  
content_S = []  
all_words = []  
for line in content:  
    current_segment = [w for w in jieba.cut(line) if len(w)>1]  
    for x in current_segment:  
        all_words.append(x)  
    if len(current_segment) > 1 and current_segment != '\r\t':  
        content_S.append(current_segment)  
#分詞結果轉為DataFrame  
df_content = pd.DataFrame({'content_S':content_S})  
  
print(all_words)

可以看到，這裡透過四篇文章標題構建分詞列表，最後列印分詞結果：

['乾坤', '挪移', '如何', '同步', '阻塞', 'sync', '三方', '庫包', '轉換', '非同步', '阻塞', 'async', '模式', 'Python3.10', '實現', 'Generator', '生成器', '入門', '初基', 'Coroutine', '原生', '協程', '登峰造極', 'Python3.10', '併發', '非同步', '程式設計', 'async', '底層', '實現', '週而復始', '往復', '迴圈', '遞迴', '遞迴', '演算法', '無限極', '層級', '結構', '探究', '使用', 'Golang1.18', '彩虹', '女神', '長空', 'Go', '語言', '進階', 'Go', '語言', '高效能', 'Web', '框架', 'Iris', '專案', '實戰', 'JWT', '中介軟體', 'Middleware', '使用', 'EP07']

接著就可以針對這些詞進行聚類操作，我們可以先讓ChatGPT幫我們進行聚類看看結果：

可以看到，ChatGPT已經幫我們將分詞結果進行聚類操作，分為兩大類：Python和Golang。

嚴謹起見，我們可以針對分詞結果進行過濾操作，過濾內容是停用詞，停用詞是在文字分析、自然語言處理等應用中，用來過濾掉不需要的詞的。通常來說，停用詞是指在英文中的介詞、代詞、連線詞等常用詞，在中文中的助詞、介詞、連詞等常用詞：

———  
》），  
）÷（１－  
”，  
）、  
＝（  
:  
→  
℃   
&  
*  
一一  
~~~~  
’  
.   
『  
.一  
./  
--   
』  
＝″  
【  
［＊］  
｝＞  
［⑤］］  
［①Ｄ］  
ｃ］  
ｎｇ昉  
＊  
//  
［  
］  
［②ｅ］  
［②ｇ］  
＝｛  
}  
，也   
‘  
Ａ  
［①⑥］  
［②Ｂ］   
［①ａ］  
［④ａ］  
［①③］  
［③ｈ］  
③］  
１．   
－－   
［②ｂ］  
’‘   
×××   
［①⑧］  
０：２   
＝［  
［⑤ｂ］  
［②ｃ］   
［④ｂ］  
［②③］  
［③ａ］  
［④ｃ］  
［①⑤］  
［①⑦］  
［①ｇ］  
∈［   
［①⑨］  
［①④］  
［①ｃ］  
［②ｆ］  
［②⑧］  
［②①］  
［①Ｃ］  
［③ｃ］  
［③ｇ］  
［②⑤］  
［②②］  
一.  
［①ｈ］  
.數  
［］  
［①Ｂ］  
數/  
［①ｉ］  
［③ｅ］  
［①①］  
［④ｄ］  
［④ｅ］  
［③ｂ］  
［⑤ａ］  
［①Ａ］  
［②⑧］  
［②⑦］  
［①ｄ］  
［②ｊ］  
〕〔  
］［  
://  
′∈  
［②④  
［⑤ｅ］  
１２％  
ｂ］  
...  
...................  
…………………………………………………③  
ＺＸＦＩＴＬ  
［③Ｆ］  
」  
［①ｏ］  
］∧′＝［   
∪φ∈  
′｜  
｛－  
②ｃ  
｝  
［③①］  
Ｒ．Ｌ．  
［①Ｅ］  
Ψ  
－［＊］－  
↑  
.日   
［②ｄ］  
［②  
［②⑦］  
［②②］  
［③ｅ］  
［①ｉ］  
［①Ｂ］  
［①ｈ］  
［①ｄ］  
［①ｇ］  
［①②］  
［②ａ］  
ｆ］  
［⑩］  
ａ］  
［①ｅ］  
［②ｈ］  
［②⑥］  
［③ｄ］  
［②⑩］  
ｅ］  
〉  
】  
元／噸  
［②⑩］  
２．３％  
５：０    
［①］  
::  
［②］  
［③］  
［④］  
［⑤］  
［⑥］  
［⑦］  
［⑧］  
［⑨］   
……  
——  
?  
、  
。  
“  
”  
《  
》  
！  
，  
：  
；  
？  
．  
,  
．  
'  
?   
·  
———  
──  
?   
—  
<  
>  
（  
）  
〔  
〕  
[  
]  
(  
)  
-  
+  
～  
×  
／  
/  
①  
②  
③  
④  
⑤  
⑥  
⑦  
⑧  
⑨  
⑩  
Ⅲ  
В  
"  
;  
#  
@  
γ  
μ  
φ  
φ．  
×   
Δ  
■  
▲  
sub  
exp   
sup  
sub  
Lex   
＃  
％  
＆  
＇  
＋  
＋ξ  
＋＋  
－  
－β  
＜  
＜±  
＜Δ  
＜λ  
＜φ  
＜＜  
=  
＝  
＝☆  
＝－  
＞  
＞λ  
＿  
～±  
～＋  
［⑤ｆ］  
［⑤ｄ］  
［②ｉ］  
≈   
［②Ｇ］  
［①ｆ］  
ＬＩ  
㈧   
［－  
......  
〉  
［③⑩］  
第二  
一番  
一直  
一個  
一些  
許多  
種  
有的是  
也就是說  
末##末  
啊  
阿  
哎  
哎呀  
哎喲  
唉  
俺  
俺們  
按  
按照  
吧  
吧噠  
把  
罷了  
被  
本  
本著  
比  
比方  
比如  
鄙人  
彼  
彼此  
邊  
別  
別的  
別說  
並  
並且  
不比  
不成  
不單  
不但  
不獨  
不管  
不光  
不過  
不僅  
不拘  
不論  
不怕  
不然  
不如  
不特  
不惟  
不問  
不只  
朝  
朝著  
趁  
趁著  
乘  
衝  
除  
除此之外  
除非  
除了  
此  
此間  
此外  
從  
從而  
打  
待  
但  
但是  
當  
當著  
到  
得  
的  
的話  
等  
等等  
地  
第  
叮咚  
對  
對於  
多  
多少  
而  
而況  
而且  
而是  
而外  
而言  
而已  
爾後  
反過來  
反過來說  
反之  
非但  
非徒  
否則  
嘎  
嘎登  
該  
趕  
個  
各  
各個  
各位  
各種  
各自  
給  
根據  
跟  
故  
故此  
固然  
關於  
管  
歸  
果然  
果真  
過  
哈  
哈哈  
呵  
和  
何  
何處  
何況  
何時  
嘿  
哼  
哼唷  
呼哧  
乎  
譁  
還是  
還有  
換句話說  
換言之  
或  
或是  
或者  
極了  
及  
及其  
及至  
即  
即便  
即或  
即令  
即若  
即使  
幾  
幾時  
己  
既  
既然  
既是  
繼而  
加之  
假如  
假若  
假使  
鑑於  
將  
較  
較之  
叫  
接著  
結果  
借  
緊接著  
進而  
盡  
儘管  
經  
經過  
就  
就是  
就是說  
據  
具體地說  
具體說來  
開始  
開外  
靠  
咳  
可  
可見  
可是  
可以  
況且  
啦  
來  
來著  
離  
例如  
哩  
連  
連同  
兩者  
了  
臨  
另  
另外  
另一方面  
論  
嘛  
嗎  
慢說  
漫說  
冒  
麼  
每  
每當  
們  
莫若  
某  
某個  
某些  
拿  
哪  
哪邊  
哪兒  
哪個  
哪裡  
哪年  
哪怕  
哪天  
哪些  
哪樣  
那  
那邊  
那兒  
那個  
那會兒  
那裡  
那麼  
那麼些  
那麼樣  
那時  
那些  
那樣  
乃  
乃至  
呢  
能  
你  
你們  
您  
寧  
寧可  
寧肯  
寧願  
哦  
嘔  
啪達  
旁人  
呸  
憑  
憑藉  
其  
其次  
其二  
其他  
其它  
其一  
其餘  
其中  
起  
起見  
起見  
豈但  
恰恰相反  
前後  
前者  
且  
然而  
然後  
然則  
讓  
人家  
任  
任何  
任憑  
如  
如此  
如果  
如何  
如其  
如若  
如上所述  
若  
若非  
若是  
啥  
上下  
尚且  
設若  
設使  
甚而  
甚麼  
甚至  
省得  
時候  
什麼  
什麼樣  
使得  
是  
是的  
首先  
誰  
誰知  
順  
順著  
似的  
雖  
雖然  
雖說  
雖則  
隨  
隨著  
所  
所以  
他  
他們  
他人  
它  
它們  
她  
她們  
倘  
倘或  
倘然  
倘若  
倘使  
騰  
替  
透過  
同  
同時  
哇  
萬一  
往  
望  
為  
為何  
為了  
為什麼  
為著  
喂  
嗡嗡  
我  
我們  
嗚  
嗚呼  
烏乎  
無論  
無寧  
毋寧  
嘻  
嚇  
相對而言  
像  
向  
向著  
噓  
呀  
焉  
沿  
沿著  
要  
要不  
要不然  
要不是  
要麼  
要是  
也  
也罷  
也好  
一  
一般  
一旦  
一方面  
一來  
一切  
一樣  
一則  
依  
依照  
矣  
以  
以便  
以及  
以免  
以至  
以至於  
以致  
抑或  
因  
因此  
因而  
因為  
喲  
用  
由  
由此可見  
由於  
有  
有的  
有關  
有些  
又  
於  
於是  
於是乎  
與  
與此同時  
與否  
與其  
越是  
云云  
哉  
再說  
再者  
在  
在下  
我們  
我們們  
則  
怎  
怎麼  
怎麼辦  
怎麼樣  
怎樣  
咋  
照  
照著  
者  
這  
這邊  
這兒  
這個  
這會兒  
這就是說  
這裡  
這麼  
這麼點兒  
這麼些  
這麼樣  
這時  
這些  
這樣  
正如  
吱  
之  
之類  
之所以  
之一  
只是  
只限  
只要  
只有  
至  
至於  
諸位  
著  
著呢  
自  
自從  
自個兒  
自各兒  
自己  
自家  
自身  
綜上所述  
總的來看  
總的來說  
總的說來  
總而言之  
總之  
縱  
縱令  
縱然  
縱使  
遵照  
作為  
兮  
呃  
唄  
咚  
咦  
喏  
啐  
喔唷  
嗬  
嗯  
噯

這裡使用哈工大的停用詞列表。

首先載入停用詞列表，然後進行過濾操作：

#去除停用詞  
def drop_stopwords(contents,stopwords):  
    contents_clean = []  
    all_words = []  
    for line in contents:  
        line_clean = []  
        for word in line:  
            if word in stopwords:  
                continue  
            line_clean.append(word)  
            all_words.append(word)  
        contents_clean.append(line_clean)  
    return contents_clean,all_words  
  
#停用詞載入  
stopwords = pd.read_table('stop_words.txt',names = ['stopword'],quoting = 3)  
contents = df_content.content_S.values.tolist()  
  
contents_clean,all_words = drop_stopwords(contents,stopwords)

接著交給Gensim進行聚類操作：



from gensim import corpora,models,similarities  
import gensim

dictionary = corpora.Dictionary(contents_clean)  
corpus = [dictionary.doc2bow(sentence) for sentence in contents_clean]  
lda = gensim.models.ldamodel.LdaModel(corpus=corpus,id2word=dictionary,num_topics=2,random_state=3)  
  
#print(lda.print_topics(num_topics=2, num_words=4))  
  
for e, values in enumerate(lda.inference(corpus)[0]):  
    print(content[e])  
    for ee, value in enumerate(values):  
        print('\t分類%d推斷值%.2f' % (ee, value))

這裡使用LdaModel模型進行訓練，分類設定(num_topics)為2種，隨機種子(random_state)為3，在訓練機器學習模型時，很多模型的訓練過程都會涉及到隨機數的生成，例如隨機梯度下降法（SGD）就是一種隨機梯度下降的最佳化演算法。在訓練過程中，如果不設定random_state引數，則每次訓練結果可能都不同。而設定random_state引數後，每次訓練結果都會相同，這就方便了我們在調參時對比模型的效果。如果想要讓每次訓練的結果都隨機，可以將random_state引數設定為None。

程式返回：

[['乾坤', '挪移', '同步', '阻塞', 'sync', '三方', '庫包', '轉換', '非同步', '阻塞', 'async', '模式', 'Python3.10', '實現'], ['Generator', '生成器', '入門', '初基', 'Coroutine', '原生', '協程', '登峰造極', 'Python3.10', '併發', '非同步', '程式設計', 'async', '底層', '實現'], ['週而復始', '往復', '迴圈', '遞迴', '遞迴', '演算法', '無限極', '層級', '結構', '探究', '使用', 'Golang1.18'], ['彩虹', '女神', '長空', 'Go', '語言', '進階', 'Go', '語言', '高效能', 'Web', '框架', 'Iris', '專案', '實戰', 'JWT', '中介軟體', 'Middleware', '使用', 'EP07']]  
乾坤大挪移,如何將同步阻塞(sync)三方庫包轉換為非同步非阻塞(async)模式？Python3.10實現。  
        分類0推斷值0.57  
        分類1推斷值14.43  
Generator(生成器),入門初基,Coroutine(原生協程),登峰造極,Python3.10併發非同步程式設計async底層實現  
        分類0推斷值0.58  
        分類1推斷值15.42  
週而復始,往復迴圈,遞迴、尾遞迴演算法與無限極層級結構的探究和使用(Golang1.18)  
        分類0推斷值12.38  
        分類1推斷值0.62  
彩虹女神躍長空,Go語言進階之Go語言高效能Web框架Iris專案實戰-JWT和中介軟體(Middleware)的使用EP07  
        分類0推斷值19.19  
        分類1推斷值0.81

可以看到，結果和ChatGPT聚類結果一致，前兩篇為一種分類，後兩篇為另外一種分類。

隨後可以將聚類結果儲存為模型檔案：

lda.save('mymodel.model')

以後有新的文章釋出，直接對新的文章進行分類推測即可：

from gensim.models import  ldamodel  
import pandas as pd  
import jieba  
from gensim import corpora  
  
doc0="巧如範金,精比琢玉,一分鐘高效打造精美詳實的Go語言技術簡歷(Golang1.18)"  
# 載入模型  
lda = ldamodel.LdaModel.load('mymodel.model')  
  
content = [doc0]  
  
#分詞  
content_S = []  
for line in content:  
    current_segment = [w for w in jieba.cut(line) if len(w)>1]  
    if len(current_segment) > 1 and current_segment != '\r\t':  
        content_S.append(current_segment)  
#分詞結果轉為DataFrame  
df_content = pd.DataFrame({'content_S':content_S})  
  
  
#去除停用詞  
def drop_stopwords(contents,stopwords):  
    contents_clean = []  
    all_words = []  
    for line in contents:  
        line_clean = []  
        for word in line:  
            if word in stopwords:  
                continue  
            line_clean.append(word)  
            all_words.append(word)  
        contents_clean.append(line_clean)  
    return contents_clean,all_words  
  
#停用詞載入  
stopwords = pd.read_table('stop_words.txt',names = ['stopword'],quoting = 3)  
contents = df_content.content_S.values.tolist()  
  
contents_clean,all_words = drop_stopwords(contents,stopwords)  
  
  
dictionary = corpora.Dictionary(contents_clean)  
  
word = [w for w in jieba.cut(doc0)]  
  
bow = dictionary.doc2bow(word)  
print(lda.get_document_topics(bow))

程式返回：

➜  nlp_chinese /opt/homebrew/bin/python3.10 "/Users/liuyue/wodfan/work/nlp_chinese/new_text.py"  
Building prefix dict from the default dictionary ...  
Loading model from cache /var/folders/5x/gpftd0654bv7zvzyv39449rc0000gp/T/jieba.cache  
Loading model cost 0.264 seconds.  
Prefix dict has been built successfully.  
[(0, 0.038379338), (1, 0.9616206)]

這裡顯示文章推斷結果為分類2，也就是Golang型別的文章。

完整呼叫邏輯：

import jieba  
import pandas as pd  
import numpy as np  
from gensim.models import  ldamodel  
from gensim import corpora,models,similarities  
import gensim  
  
  
class LdaRec:  
  
    def __init__(self,cotent:list) -> None:  
          
        self.content = content  
        self.contents_clean = []  
        self.lda = None  
  
    def test_text(self,content:str):  
  
        self.lda = ldamodel.LdaModel.load('mymodel.model')  
        self.content = [content]  
  
        #分詞  
        content_S = []  
        for line in self.content:  
            current_segment = [w for w in jieba.cut(line) if len(w)>1]  
            if len(current_segment) > 1 and current_segment != '\r\t':  
                content_S.append(current_segment)  
        #分詞結果轉為DataFrame  
        df_content = pd.DataFrame({'content_S':content_S})  
  
        contents = df_content.content_S.values.tolist()  
  
        dictionary = corpora.Dictionary(contents)  
  
        word = [w for w in jieba.cut(content)]  
  
        bow = dictionary.doc2bow(word)  
        print(self.lda.get_document_topics(bow))  
  
  
    # 訓練  
    def train(self,num_topics=2,random_state=3):  
  
        dictionary = corpora.Dictionary(self.contents_clean)  
        corpus = [dictionary.doc2bow(sentence) for sentence in self.contents_clean]  
        self.lda = gensim.models.ldamodel.LdaModel(corpus=corpus,id2word=dictionary,num_topics=num_topics,random_state=random_state)  
  
        for e, values in enumerate(self.lda.inference(corpus)[0]):  
            print(self.content[e])  
            for ee, value in enumerate(values):  
                print('\t分類%d推斷值%.2f' % (ee, value))  
  
  
    # 過濾停用詞  
    def drop_stopwords(self,contents,stopwords):  
        contents_clean = []  
        for line in contents:  
            line_clean = []  
            for word in line:  
                if word in stopwords:  
                    continue  
                line_clean.append(word)  
            contents_clean.append(line_clean)  
        return contents_clean  
  
    def cut_word(self) -> list:  
        #分詞  
        content_S = []  
        for line in self.content:  
            current_segment = [w for w in jieba.cut(line) if len(w)>1]  
            if len(current_segment) > 1 and current_segment != '\r\t':  
                content_S.append(current_segment)  
  
        #分詞結果轉為DataFrame  
        df_content = pd.DataFrame({'content_S':content_S})  
  
        # 停用詞列表  
        stopwords = pd.read_table('stop_words.txt',names = ['stopword'],quoting = 3)  
  
        contents = df_content.content_S.values.tolist()  
        stopwords = stopwords.stopword.values.tolist()  
  
        self.contents_clean = self.drop_stopwords(contents,stopwords)  
  
  
if __name__ == '__main__':  
      
    title1="乾坤大挪移,如何將同步阻塞(sync)三方庫包轉換為非同步非阻塞(async)模式？Python3.10實現。"  
    title2="Generator(生成器),入門初基,Coroutine(原生協程),登峰造極,Python3.10併發非同步程式設計async底層實現"  
    title3="週而復始,往復迴圈,遞迴、尾遞迴演算法與無限極層級結構的探究和使用(Golang1.18)"  
    title4="彩虹女神躍長空,Go語言進階之Go語言高效能Web框架Iris專案實戰-JWT和中介軟體(Middleware)的使用EP07"  
    content = [title1,title2, title3,title4]  
  
    lr = LdaRec(content)  
  
    lr.cut_word()  
  
    lr.train()  
  
    lr.lda.save('mymodel.model')  
  
    lr.test_text("巧如範金,精比琢玉,一分鐘高效打造精美詳實的Go語言技術簡歷(Golang1.18)")

至此，基於聚類的推薦系統構建完畢，每一篇文章只需要透過既有分類模型進行訓練，推斷分類之後，給使用者推送同一分類下的文章即可，截止本文釋出，該分類模型已經在本站進行落地實踐：

結語

金無足赤，LDA聚類演算法也不是萬能的，LDA聚類演算法有許多超引數，包括主題個數、學習率、迭代次數等，這些引數的設定對結果有很大影響，但是很難確定最優引數，同時聚類演算法的時間複雜度是O(n^2)級別的，在處理大規模文字資料時，計算速度較慢，反之，在樣本資料較少的情況下，模型的泛化能力較差。最後，奉上專案地址，與君共觴：https://github.com/zcxey2911/Lda-Gensim-Recommended-System-Python310

推薦系統中的產品聚類：一種文字聚類的方法
2020-01-02
聚類
幽默：物以類聚人以群分，但是動態型別呢？
2022-04-22
型別
推薦系統之路 (2)：產品聚類
2019-05-05
聚類
系統學習NLP（二十）--文字聚類
2019-03-14
聚類
Spark構建聚類模型（二）
2018-12-11
Spark聚類模型
unit3 文字聚類
2018-05-11
聚類
pyhanlp 文字聚類詳細介紹
2018-11-23
HanLP聚類
聚類分析
2024-03-20
聚類
聚類(part3)--高階聚類演算法
2020-10-11
聚類演算法
聚類之K均值聚類和EM演算法
2019-05-13
聚類演算法
前端架構思想：聚類分層
2018-10-19
前端架構聚類
Kmeans如何初始化聚類中心
2018-10-12
聚類
MVO優化DBSCAN實現聚類
2020-11-02
優化聚類
【scipy 基礎】--聚類
2023-11-01
聚類
聚類演算法
2020-04-26
聚類演算法
k-means聚類
2023-01-30
聚類
09聚類演算法-層次聚類-CF-Tree、BIRCH、CURE
2018-12-11
聚類演算法
04聚類演算法-程式碼案例一-K-means聚類
2018-12-08
聚類演算法
聚類分析-案例：客戶特徵的聚類與探索性分析
2020-09-28
聚類特徵
如何構建推薦系統
2020-04-19
有沒有做過相簿聚類的HXD
2021-07-30
聚類
譜聚類原理總結
2022-01-18
聚類
密度聚類。Clustering by fast search and
2021-09-09
聚類AST
知物由學 | 全新文字實時聚類技術，一網打盡同類有害內容
2021-09-27
聚類
有沒有做過相簿聚類的好兄弟
2021-07-30
聚類
個性化推薦系統實踐應用
2019-02-11
【Python機器學習實戰】聚類演算法（1）——K-Means聚類
2021-12-06
Python機器學習聚類演算法
聚類演算法綜述
2018-12-09
聚類演算法
sklearn建模及評估（聚類）
2019-09-03
聚類
譜聚類的python實現
2020-08-23
聚類Python
OPTICS聚類演算法原理
2020-05-14
聚類演算法
非完整資料聚類初探
2021-06-10
聚類
初探DBSCAN聚類演算法
2021-05-22
聚類演算法
資料探勘-層次聚類
2020-12-02
聚類
14聚類演算法-程式碼案例六-譜聚類(SC)演算法案例
2018-12-16
聚類演算法
NLPIR平臺的文字聚類模組完美契合行業需求
2019-11-21
聚類行業
智慧推薦系統：個性化推薦引領消費新潮流
2024-03-30
異端審判器！一個泛用型文字聚類模型的實現（1）
2019-02-27
聚類模型

物以類聚人以群分,透過GensimLda文字聚類構建人工智慧個性化推薦系統(Python3.10)

推薦演算法:協同過濾/Lda聚類

Python3.10實現

結語

相關文章