如何實現文章AI偽原創？

九月長安發表於2020-10-13

原文網址 : https://www.cnblogs.com/amazingjava/p/13806941.html

language-ai

文章AI偽原創,文章自動生成,NLP,自然語言技術處理,DNN語言模型,詞義相似度分析。全網首個AI偽原創開源應用類專案。
點選右側about內的連結極速體驗!

程式碼託管在github，需要的可以自取：https://github.com/LovebuildJ/language-ai

快速開始

環境準備：JDK1.8, maven3.6+, redis
在 application.yml 中配置百度AI的相關資訊


baidu:
  appid: 你的app_id
  appkey: 你的app_key
  secret: 你的app_secret

如何獲取? 輸入https://ai.baidu.com/tech/nlp_basic, 點選立即使用, 根據提示一步一步完成即可獲得。
有免費呼叫額度, 對於個人而言已經夠了。

3.啟動專案, 前端頁面訪問 http://localhost:8080/ai,swagger文件訪問http://localhost:8080/ai/doc.html

載入詞庫到redis中, 專案啟動後, 傳送post請求http://localhost:8080/ai/command/initRedis 初始化redis即可。該操作會將庫清空再初始化,請悉知

請求引數格式如下：

{
	"appName": "",
	"params": {
		"password": "你的使用者名稱",
		"username": "你的密碼"
	},
	"sign": "",
	"timestamp": "",
	"version": ""
}

也可直接使用swagger執行介面初始化

測試版本未作校驗, 所有引數預設為空即可。

專案截圖

【詞義分析】

【詞義相似度計算】

【DNN語言模型計算】

【AI偽原創】

【BootstrapSwaggerUI線上文件】

【首頁】

原始碼目錄詳解

language-ai
    |- src/main
    |       |- java java原始碼所在目錄
    |           |- com.chenxin
    |                   |- auth 百度AI授權認證模組
    |                   |- base 基礎公共抽象模組
    |                   |- config 專案所有自定義配置模組
    |                   |- controller 這個不用多說
    |                   |- exception 全域性異常與自定義一次模組
    |                   |- model 專案所有使用的資料模型, dto,vo,bo等
    |                   |- service 業務模組
    |                   |- util 工具模組
    |                       |- auth 授權認證模組
    |                       |- consts 常量類
    |                       |- http http相關
    |                       |- nlp NLP同義詞庫載入工具
    |                       |- system 系統相關
    |                       |- CommonEnum.java 統一資訊處理列舉類
    |
    |           |- AiApplication.java 主啟動類
    |
    |- src/test/java
        |- com.chenxin 相關測試程式碼, 經驗證, 若idea版本太低將會導致該單元測試無法使用
  
            
其他自行檢視原始碼, 不一一概述

關於詞庫

使用到的中文同義詞詞庫是哈工大的同義詞詞林（擴充套件版)
下載地址：https://www.ltp-cloud.com/download#down_cilin
專案自帶詞庫(csdn下載的)

擴充詞庫

想要更加精確的計算與替換, 就需要一個很精準龐大的詞庫, 這個詞庫大家可以自己慢慢的補充完整
只需要將詞庫新增進檔案 resource/res/word.txt, 按照格式進行新增即可, 然後呼叫初始化redis介面即可。
初始化redis介面/ai/command/initRedis

關於詞庫中詞語重複問題

這個大家無需擔心, 作者在此方面做了大量優化。相同鍵值Key的片語,將會全部儲存至redis中,以Key0,Key1的形式儲存,
查詢時, 會將所有相同Key的片語全部找出, 並進行去重, 然後在進行其他操作, 計算詞義相似度等等。相同的Key,為了提升
查詢效率, 預設取相同Key的前20組!

技術圖譜

本專案整合多個NLP優秀專案, 搭配使用。分詞使用百度AI 自然語言處理技術中的詞義分析技術, 詞義相似度
使用HanLP專案計算同義詞距離!

自然語言處理技術(百度AI提供技術支援)

詞義分析技術
詞向量表示
詞義相似度
DNN語言模型
依存句法分析
短文字相似度

自然語言處理(hanLP提供技術支援)

HanLP是一系列模型與演算法組成的NLP工具包，目標是普及自然語言處理在生產環境中的應用。

同義詞詞庫

哈工大的同義詞詞林（擴充套件版)

技術架構

後端

SpringBoot, 簡單配置, 快速開發
MyBatis , 複雜資料操作(輕量級版本無需資料庫, 提高靈活性)
Spring Data Jpa , 簡單資料操作(輕量級版本無需資料庫, 提高靈活性)
SwaggerUI BootstrapSwaggerUI, 線上介面文件, 增強美化, 介面文件匯出
Redis 資料儲存與快取
Async 非同步多執行緒, 提升文章切割替換速度(單核cpu可能效果不太明顯)

前端

本專案的頁面只是簡單作為測試, 後續會打造一個完整的產品網站。

Vue
ElementUI

問題與優化

Q: 當文字長度稍微大一點的時候，文字變臉就變得十分緩慢，因為這涉及到將幾萬的詞庫載入到記憶體然後進行詞義距離計算

A：這時候載入詞庫比對的思路，明顯已經不適用了。因此採用高效能的redis資料庫，進行詞庫的儲存與讀取，極大的提升了同義詞的查詢效率

優點同義詞精確匹配, 替換效能提升十幾倍

Q：只能有一組同義詞, 例如安分守己 - 循規蹈矩和循規蹈矩 - 安分守己。那安分守己 - 誠實本分就新增不進詞庫。初版先犧牲詞庫豐富性而達到高效能

A: 現在已優化, 自動給同名鍵增加字尾, 後使用redis模糊查詢進行匹配 (真正的效能和效率並存)

Q：當文字過長，百度AI介面會丟擲異常

A：使用者端或者服務端做好文字切片的操作

Q: 當使用者直接輸入文章, 幾千字如何處理?

A: 根據文字大小進行切片, 採用非同步多執行緒處理, 提升程式效能

Q: 直接貼上文章進行AI偽原創可能會報json注入異常

A: 建議去掉空格, 回車等。或者換成轉義字元。

關於作者

熱衷於ai，分散式微服務，web應用，大資料等領域。工作室：1024程式碼工作室，有需求的可以聯絡作者哦，交流也是可以滴。
郵箱：amazingjava@163.com

其他

為什麼會使用多個NLP專案, 原因是因為最初是想使用百度AI將整個專案完成。但由於百度自然語言處理API
對於普通使用者呼叫有次數限制, 超量需要收費, 因此資料量比較大的處理將給了HanLP專案處理。將資料量較小
的分詞交給百度AI處理。

關於同義詞庫檔案的位置, 不建議移動和改變, 資料夾以及名字都是。後續有時間, 再優化這個問題吧。

最好的文章偽原創生成器（2020最新版）
2020-11-09
WordPress自動採集釋出文章02-軟體批量偽原創
2018-07-08
原創文章檢測工具，原創文章檢測軟體，檢測文章相似度
2020-06-15
原創文章檢測工具，檢測原創文章，過不了原創賬號的原因在這
2020-06-29
CSS中如何實現偽隨機？
2019-04-06
CSS隨機
SEO人工智慧偽原創-南京SEO
2018-08-03
人工智慧
如何實現 Markdown 撰寫文章
2019-12-29
PHP實現免費的線上偽原創工具-toolfk程式設計師線上工具網
2018-11-22
PHP程式設計師
什麼工具可以檢測文章原創度？原創度對文章收錄有影響嗎？
2020-06-09
如何使用「原本」認證原創文章，保護自己的版權
2018-04-20
視訊偽原創消重，搬運視訊怎麼做成原創視訊
2020-10-15
免費文章原創度檢測工具
2020-06-23
seo文章寫原創哪裡可以寫？
2020-08-07
自媒體原創太難？這4個原創技巧，讓你的文章原創質量翻倍
2022-06-23
人工智慧自媒體一鍵偽原創工具
2018-12-08
人工智慧
文章原創度檢測工具，可以讓自媒體賬號過原創嗎？
2020-06-29
文章原創度檢測軟體，增加你原創賬號透過機率
2020-06-08
【原創】Mysql中事務ACID實現原理
2019-05-10
MySql
自媒體原創文章創作技巧，提升賬號權重
2022-06-06
文章原創度檢測軟體有哪些？怎麼提高文章收錄？
2020-05-29
OpenCV學堂 | 2019原創技術文章彙總
2020-01-01
OpenCV
端智慧系列文章|端側如何實現實時CEP引擎
2022-12-07
如何使用 Vue3 實現文章目錄功能
2022-03-14
Vue
你知道什麼是偽靜態嗎？它有什麼作用？如何實現偽靜態呢？
2024-12-09
文章相似度檢測軟體哪個好？幫你拉高文章原創值
2020-06-01
檢測文章原創度的軟體哪個好用？
2020-06-16
v2ray實現偽加密
2020-11-24
加密
【原創】不同RTOS中POSIX介面的實現差異
2024-05-09
創業中如何實現敏捷開發
2022-02-10
創業敏捷
原創度檢測工具哪個好？文章原創度檢測軟體是這樣提高原創度的
2020-06-12
畢嘯南專欄 | 對話瀾亭資本創始人劉炯：2018 AI創投領域如何“去偽存真”
2018-04-08
AI創投
這38篇原創文章，帶我入門深度學習！
2020-04-27
深度學習
Python貓 2021 文章小結，翻譯竟比原創多！
2022-01-04
Python
我如何實現 Laravel-China 課程文章同步釋出
2019-03-22
Laravel
如何實現一個基本的微信文章分類器
2018-04-04
redis實現文章投票邏輯
2018-07-15
Redis
CVPR2020 | 對抗偽裝：如何讓AI懷疑人生
2020-05-04
AI
將社群文章搬到某乎更改作者，洗白成原創？
2020-05-28