用python，生活仍有詩和遠方

TheodoreXu發表於2019-02-16

原文網址 : https://flycode.co/archives/80394

Python

常聽說，現在的程式碼，就和唐朝的詩一樣重要。
可對我們來說，寫幾行程式碼沒什麼，但是，要讓我們真正地去寫一首唐詩，那可就頭大了。。既然如此，為何不乾脆用程式碼寫一首唐詩？

準備：

python3.6環境
推薦使用anaconda管理python包，可以對於每個專案，建立環境，並在該環境下下載專案需要的包。
推薦使用pycharm作為編譯器。

GitHub程式碼：GitHub – theodore3131/TangshiGenerator

具體步驟：

使用爬蟲爬取全唐詩，總共抓取了71000首。

#使用urllib3的內建函式構建爬蟲的安全驗證，來應對網站的反爬蟲機制
http = urllib3.PoolManager(
     cert_reqs=`CERT_REQUIRED`,
     ca_certs=certifi.where())
#爬蟲的目標網站
r = http.request(`GET`, url)
#爬蟲獲取的html資料
soup = BeautifulSoup(r.data, `html.parser`)
content = soup.find(`div`, class_="contson")

使用正規表示式對爬取的資料進行處理

p1 = r"[u4e00-u9fa5]{5,7}[u3002|uff0c]"  #[漢字]{重複5-7次}[中文句號|中文逗號]
pattern1 = re.compile(p1)        #編譯正規表示式
result = pattern1.findall(poemfile)   #搜尋匹配的字串，得到匹配列表

對詩詞正文進行分詞操作

#使用jieba中文分詞庫的textRank演算法來找出各個詞性的高頻詞
for x in jieba.analyse.textrank(content, topK=600, allowPOS=(`n`, `nr`, `ns`, `nt`, `nz`, `m`)):

唐詩生成
- 處理韻腳

使用pinyin庫

pip install pinyin

verse = pinyin.get("天", format="strip")
#輸出：tian

對於韻腳，本來是想找出所有的韻腳並做成字典形式儲存起來，但韻腳總共有20多個，
後來發現其實20多個韻腳都是以母音字母開始的，我們可以基於這個規則來判斷：

rhythm = ""
rhythmList = ["a", "e", "i", "o", "u"]
verse = pinyin.get(nounlist[i1][1], format="strip")
#韻腳在每個pinyin倒敘最後一個母音字母處截止
          for p in range(len(verse)-1, -1, -1):
              if verse[p] in rhythmList:
                  ind = p

      rhythm = verse[ind:len(verse)]

目前是最初級的五言律詩，且為名動名句式

rhythm = ""
rhythmList = ["a", "e", "i", "o", "u"]
while num < 4:
#生成隨機數
        i = random.randint(1, len(nounlist)-1)
      i1 = random.randint(1, len(nounlist)-1)
      j = random.randint(1, len(verblist)-1)

#記錄韻腳
      ind = 0
      ind1 = 0
      if (num == 1):
          rhythm = ""
          verse = pinyin.get(nounlist[i1][1], format="strip")
#韻腳在每個pinyin倒敘最後一個母音字母處截止
          for p in range(len(verse)-1, -1, -1):
              if verse[p] in rhythmList:
                  ind = p

      rhythm = verse[ind:len(verse)]
#確保2，4句的韻腳相同，保證押韻
      if (num == 3):
          ind1 = 0
          verse1 = pinyin.get(nounlist[i1][1], format="strip")
          for p in range(len(verse1)-1, -1, -1):
                if verse1[p] in rhythmList:
                   ind1 = p

            while verse1[ind1: len(verse1)] != rhythm:
                i1 = random.randint(1, len(nounlist)-1)
                verse1 = pinyin.get(nounlist[i1][1], format="strip")
                for p in range(len(verse1)-1, -1, -1):
                    if verse1[p] in rhythmList:
                        ind1 = p
#隨機排列組合
     print(nounlist[i]+verblist[j][1]+nounlist[i1])
     num += 1

藏頭詩

其實思路很簡單，既然我們有了語料庫，那麼，我們每次在排列組合詞的時候，只需保證生成每句時，第一個名詞的第一個字，是按序給定四字成語中的即可

for x in range(len(nounlist)):
      if nounlist[x][0] == str[num]:
          i = x

來看一下結果：

四言詩：

所思浮雲
關山車馬
高樓流水
閒人腸斷

五言律詩：

西風時細雨
山川釣建章
龍門看蕭索
幾年鄉斜陽

藏頭詩：

落花流水

落暉首南宮
花枝成公子
流水名朝廷
水聲勝白石

參考：

https://segmentfault.com/a/11…

當然，現在生成的唐詩還是比較低階的，屬於基礎的古詩文詞語排列組合。
接下來考慮優化模版，提取五言和七言常用句式作為模版。
另外考慮使用機器學習的方法，寫RNN來讓計算機自動生成充滿韻味的詩

ArkUI與MVVM模式的詩和遠方
2024-12-04
UIMVVM模式
國貨美妝需要“詩和遠方”
2020-12-27
GIFTO（GTO）：不止眼前的苟且，還有詩和遠方
2021-09-07
區塊鏈和能源網際網路的“詩和遠方”
2018-04-18
區塊鏈
詩和遠方：旅行小賬本雲開發實戰
2018-11-30
《山海旅人》與它的詩與遠方
2021-09-27
詩和遠方：螞蟻金服 Service Mesh 深度實踐 | QCon 實錄
2019-11-15
詩與遠方：無題（八十二）- 遇到你真好
2020-10-10
高曉鬆：區塊鏈也可以有詩與遠方
2019-02-16
區塊鏈
奧林帕斯懸紅：攻克資料儲存世界級難題的詩與遠方
2021-01-01
AI，讓大海永遠蔚藍如詩
2019-06-08
AI
查詢東方通是否被啟用，和啟用東方通方法
2024-04-25
教你用python搭建一個「生活常識解答」機器人
2021-06-26
Python機器人
使用python 下載全國曆代古詩
2020-12-22
Python
Python匯出和安裝第三方庫
2024-06-17
Python
5種方法教你用Python玩轉histogram直方圖
2019-03-04
PythonHistogram直方圖
在時光中編織生活之詩《片語：蔚然生長》現已正式發售
2024-08-01
用 Python 遠端控制 Windows 伺服器，太好用了！
2022-05-12
PythonWindows伺服器
急速搭建 Serverless AI 應用：為你寫詩
2020-01-02
ServerAI
AI 智慧寫情詩、藏頭詩
2022-02-09
AI
不史詩，不大氣，《八方旅人》感動我的無關情懷
2019-07-23
程式詩(+)
2019-02-01
詩詞
2021-08-02
Deutsche Bank：2019年全球生活成本和生活質量報告
2019-05-23
極客視角看安全：智慧生活遠沒想象中安全
2018-09-03
為你寫詩：3 步搭建 Serverless AI 應用
2020-01-03
ServerAI
python如何畫直方圖
2021-09-11
Python直方圖
《Sable》：踏上飛行摩托去遠方探索遺蹟
2019-05-21
《寄夢遠方》：治癒靈魂的奇妙之旅
2023-02-13
詩人有情詩程式設計師有情碼
2018-05-21
程式設計師
為了上班摸魚我用Python製作了俄羅斯方塊？
2022-01-07
Python
寒山詩集
2019-04-09
工人詩歌
2024-06-21
OI之詩
2024-07-10
詩兩首
2021-12-31
詩三首
2021-06-11
智慧生活不再遙遠，可穿戴裝置概念不久就會失效
2018-03-06
PLC遠端監控助力農村生活汙水數字化治理
2023-03-16

用python，生活仍有詩和遠方

準備：

具體步驟：

藏頭詩

相關文章