nodejs在自然語言處理中的一些小應用

tracy丶傑發表於2019-02-19

原文網址 : https://flycode.co/archives/271711

NodeJS自然語言處理

nodejs做自然語言處理是非常可行的，這次我做了一些小小的嘗試，一起來體驗一下吧。

因為還保持著對自然語言處理的那份熱愛，最近沒事的時候會把畢業論文翻出來看（畢業論文的課題就是關於自然語言處理的），然後在我的新部落格中加入了一些相關的處理，主要做了以下幾個方面：

對每一篇文章進行快速的內容理解，根據標題和內容，輸出多個內容標籤；
對文章按照內容進行自動分類，為文章聚類、文字內容分析等提供基礎；
根據文章標題、使用者自定義標籤、以及人工智慧獲得到的標籤，進行相似度計算；
在閱讀一篇文章的時候，通過相似度計算的結果，推薦相關的文章給使用者。

下面給出自動輸出內容標籤的結果圖：

nodejs在自然語言處理中的一些小應用

部落格系統

執行環境：centos9 + docker

開發語言：nodejs

資料庫：MariaDB

開發框架：eggjs + nunjucks（模板引擎）

這次也是我第一次做後端渲染的部落格，ajax的網站，做seo是真的不好做...

然後這次也是我第一次正兒八經的用了下阿里大佬們的eggjs，這種“洋蔥模型”的框架，我真的是超級喜歡，不管是用es7優雅地處理js非同步，還是經典的MVC，還是框架的外掛機制等等。確實是超級讚的。如果有喜歡nodejs的同志，強力推薦此框架。

推薦系統

推薦系統是我們平時在用軟體，或者網站中經常會遇見的，比如資訊類的，百度feed、頭條、qq看點等；電商類的，阿里，京東等等，還有抖音什麼的，很多很多。

一個好的推薦系統可以帶來更多的收益，but一個不好的推薦系統往往會得到別人的吐槽。之前在脈脈看到某公司CTO收到脈脈推薦的安卓工程師的推薦職位，遭到吐槽。百度李彥巨集某天因為沒有在feed收到一條重要的科技資訊資訊，而吐槽自家員工。這樣的事情通常會很多。

我覺得一個好的推薦系統應該更“懂”人，假如我最近一個月前買了一部手機，我希望能給我推送一些手機配件，而不是在給我推送一部手機，這個時候我買手機配件的概率是遠遠大於在買一部手機的。現在很多推薦系統，都是通過使用者畫像，加上各種埋點，使用者運算元據，從而進行分析推送的。我覺得未必不可以在此基礎上加上情感分析，多一個維度，或許能夠得到更準確的資料。

說了這麼多，我覺得還是有很多瓶頸存在的?，現在的AI就像很多年前的移動網際網路，正處於上升期。我們還有很多事情可以做。

下面進入今天的真題..

這次做的文章推薦系統，分享一些細節給大家：

nodejs在自然語言處理中的一些小應用

圖中右側部分就是我們這個文章推送系統的推送結果，我們用不同的顏色標註了這篇文章和當前正在瀏覽的文章的關聯度，顏色越深表示關聯度越高，置信度越高，權重越大。

這個推薦系統中主要使用了上面所說的第三點：相似度計算；使用的數學模型為空間向量模型，空間向量模型能夠將非結構化的文字資料轉換成向量形式，表示成向量形式之後能為之後的處理過程打下良好的數學基礎。

空間向量模型，幫助我們把每篇文件轉化為一個多維的空間向量形式：

nodejs在自然語言處理中的一些小應用

其中，向量 W1i表示第一個詞佔文件 Ci的比重，向量 W2i表示第二個詞佔文件 Ci的比重，依次類推，向量 Wti表示第 t 個詞佔文件 Ci的比重。

那麼兩篇文章的相似度，我們就可以計算他們對應向量的夾角餘弦值來進行計算：

nodejs在自然語言處理中的一些小應用

兩個文件的餘弦值越接近 1，這兩個文件則越相似。

下面給出計算相似度的關鍵程式碼：

nodejs在自然語言處理中的一些小應用

相關文章

HanLP 自然語言處理 for nodejs
2019-04-24
HanLP自然語言處理NodeJS
探索自然語言處理：語言模型的發展與應用
2024-03-13
自然語言處理模型
影片場景下的自然語言處理應用
2018-10-19
自然語言處理
自然語言處理（NLP）系列（一）——自然語言理解（NLU）
2023-02-01
自然語言處理
視訊場景下的自然語言處理應用
2018-10-19
自然語言處理
自然語言處理工具包 HanLP在 Spring Boot中的應用
2018-10-31
自然語言處理HanLPSpring Boot
自然語言處理中的語言模型預訓練方法
2018-10-22
自然語言處理模型
中國語文（自然語言處理）作業
2024-08-22
自然語言處理
自然語言處理NLP（四）
2018-10-03
自然語言處理
自然語言處理(NLP)概述
2018-08-11
自然語言處理
基於圖深度學習的自然語言處理方法和應用
2022-05-01
深度學習自然語言處理
自然語言處理中的遷移學習(下)
2019-10-23
自然語言處理遷移學習
自然語言處理中的遷移學習(上)
2019-10-23
自然語言處理遷移學習
Pyhanlp自然語言處理中的新詞識別
2019-02-15
HanLP自然語言處理
自然語言處理的最佳實踐
2019-10-28
自然語言處理
自然語言理解技術在電商行業中的應用
2019-09-17
行業
【自然語言處理篇】--聊天機器人從初始到應用
2018-07-08
自然語言處理機器人
[譯] 自然語言處理真是有趣！
2018-08-10
自然語言處理
自然語言處理:分詞方法
2018-03-29
自然語言處理分詞
自然語言處理中的分詞問題總結
2018-10-26
自然語言處理分詞
NLP自然語言處理中的hanlp分詞例項
2019-02-18
自然語言處理HanLP分詞
Hanlp自然語言處理中的詞典格式說明
2019-03-15
HanLP自然語言處理
自然語言處理NLP快速入門
2018-10-24
自然語言處理
配置Hanlp自然語言處理進階
2018-12-07
HanLP自然語言處理
自然語言處理之jieba分詞
2020-08-18
自然語言處理Jieba分詞
人工智慧 (06) 自然語言處理
2019-12-19
人工智慧自然語言處理
自然語言處理與情緒智慧
2024-08-25
自然語言處理
Pytorch系列:（六）自然語言處理NLP
2021-05-21
PyTorch自然語言處理
精通Python自然語言處理 2 ：統計語言建模
2018-05-28
Python自然語言處理
《深度學習進階：自然語言處理》中的網址
2020-08-11
深度學習自然語言處理
有趣的自然語言處理資源集錦
2018-11-22
自然語言處理
hanlp自然語言處理包的基本使用--python
2018-09-28
HanLP自然語言處理Python
12 種自然語言處理的開源工具
2020-02-25
自然語言處理開源工具
用於自然語言處理的迴圈神經網路RNN
2024-11-25
自然語言處理神經網路RNN
美能華童先明：自然語言處理應用領域仍是一片藍海
2019-08-29
自然語言處理
【自然語言處理】--視覺問答（Visual Question Answering，VQA）從初始到應用
2018-07-19
自然語言處理視覺
自然語言處理NLP（6）——詞法分析
2019-02-26
自然語言處理詞法分析
自然語言處理怎麼最快入門？
2018-11-28
自然語言處理