思路記錄

weixin_34320159發表於2018-06-06

原文網址 : https://blog.csdn.net/weixin_34320159/article/details/87513236

1.用維基百科語料、待連結文件和知識庫語料，一起訓練一份詞向量。

2.用求詞向量平均的方法去表示知識庫中的實體向量，然後將待連結實體的向量加入知識庫實體向量表中，使用gensim給的similarity top n方法返回與待連結實體最相近的前30個實體ID。 --詞向量平均方法

3.將知識庫的實體和待連結實體的單詞進行串聯，得到實體的一個字串表示，更換語料中

4.候選集有兩份：通過維基百科硬匹配得到一個候選集year_houxuanji_wiki.txt；通過query自己查縮寫，非完全硬匹配，最小編輯距離得到一個候選集year_houxuanji_query.txt。

兩個候選集的合集，能達到的召回率為：

wiki+query

wiki+query

目前暫定，為每個query篩選出30個候選集。用平均詞向量的方法篩選：

生成結果存放在2009_result.txt

生成結果存放在2010_result.txt

所以還是將沒有選中的答案，也加入到候選集中。這樣是為了驗證模型是否有效。

必須去獲取候選集實體的上下文資訊。query自己的上下文資訊是否準備好？？？

1）準備query的上下文資訊

prepare_query_context.py

2）準備候選集的上下文資訊

那些候選集組成一個小的資料庫mindb（其實是根據候選集+答案，及其與其他實體之間的關係，形成了一個小型資料庫，所以每一年的資料都會形成這麼一個mindb）2009年 mindb dbnum=110382 2010年 mindb dbnum=118062

prepare_houxuanji_context.py 這個程式裡面其實包含了兩大部分，前一個大部分是生成mindb，然後將mindb的原始檔抽出來並存在...eval\\test_minDBText目錄資料夾下。後一個大部分，是將這個原文字轉換成屬性詞向量索引+關係實體向量索引。！！！！注意：關係實體向量索引在這裡還是沒能完成，要通過db補全過程，然後才能產生實體關係索引。

db補全----《實體關係補全程式執行順序記錄---更新版》

1.伺服器上105節點 yao/entity/.....目錄下有補全過程相關的程式程式碼。萬能的bu_link_new.py 在原來的bu_link.py程式上修改了部分。

bu_link.py 將修改成 bu_link_new.py 的原因

我想把所有沒有連結的實體的都補一下補100種常見的關係，每種關係只補一個值。 BigDB裡沒有連結的實體有120213個

注意：一個伺服器節點重複執行40個這個程式，導致多工間不斷的切換，白白浪費了時間。所以一個linux伺服器節點，最多執行10個左右程式。！！！！！2018.06.07時間被程式在不任務的切換中白白浪費了。

從28 到40

2018.06.10開始幹活：

1）bu_link.py增加了生成no_link_id_temp.txt的程式碼。09年+10年有1341個沒連結的實體。

2）補全實體過程，稍稍改了，在伺服器上分批執行produce_entity_db_index_new.py程式。

等結果中。。。。

produce_entity_db_index_new.py程式結果執行完。上傳bu_link.py，在伺服器上執行得到bu_link.txt。

伺服器上

當前補的閾值設定的是0.8

補全之後，應該是生成實體索引：

此處實驗不再生成小的mindb的實體向量檔案了。直接用整個資料庫的實體向量檔案生成實體索引。所以《實體關係補全程式執行順序記錄》裡的3、4小點使用的程式就不再使用了！！！！！自己寫一個新的。參照4小點的produce_entity_index.py改寫。

bu_DBIndexAll.txt 沒有在實體向量表中出現的實體索引為0。

該準備訓練集了。。。。。。有點麻煩

好像能用原來準備的。 ------不能，因為詞向量也換了，所以索引不對。

！！！！要變 train_queryTextIndex.txt 和 vector_100.txt都要變因為詞向量變了

當前新版的詞向量：用維基百科語料、待連結文件和知識庫語料，一起訓練一份詞向量。

根據data_analysis/word2vec/prepare_query_context.py 改寫一份prepare_train_context.py

1）需要生成訓練集答案檔案 2014_train_answer.txt

在mypython_workspace/findHouXuanJi_2/目錄下query_dbAnswer01.py能夠生成2014_answer.txt 稍作修改(刪掉第一行，然後把名字改為2014_train_answer.txt，複製到data_analysis/word2vec/目錄下)

2）需要生成訓練集的query_context詞索引

在data_analysis/word2vec/目錄下，改寫了一份prepare_train_context.py。可以生成如下目錄裡的一些檔案

注意，在這個過程中程式執行出錯太多，所以該了一下14年training的training_queries.xml檔案的內容，所以以後要用得重新解壓縮

3）還需要生成訓練集的houxuanji_context詞索引

在data_analysis/word2vec/目錄下，改寫了一份prepare_train_houxuanji_context.py。可以生成如下目錄裡的一些檔案

##############訓練集基本準備好2018年6月12日############接下來上傳相關資料到伺服器上，進行模型執行

然後參考《換份詞向量，程式執行記錄》裡的第五步：模型執行

模型執行打算在伺服器的/home/feng/yao/new_work/目錄下執行：

1

2

3

4

5

6

7

相關文章

介面測試返回結構對比實現思路記錄
2020-09-03
記錄---nextTick用過嗎？講一講實現思路吧
2024-11-16
expdp匯出慢的解決思路__增加引數metrics記錄每個步驟時間,增加引數trace記錄trace
2018-10-29
記錄一個利用資料庫引擎格式化異常sql的思路
2024-03-08
資料庫SQL
記錄一次重灌電腦黑屏問題解決辦法與解決思路
2022-07-09
記錄
2024-12-10
微信JSSDK上傳圖片過程中編輯圖片描述，解決思路記錄
2019-02-14
JS
20240505記錄《程式碼隨想錄》筆記
2024-05-05
筆記
Conda常用命令記錄（自用記錄）
2024-10-23
記錄工作中React antdesign Tree元件實現時序圖的思路，及碰到的問題
2019-04-01
React元件時序圖
planetype記錄
2019-04-10
Spring記錄
2018-10-18
Spring
Ionic記錄
2019-03-08
paper記錄
2018-09-08
GitText記錄
2018-04-09
Git
MongoDB 記錄
2024-04-11
MongoDB
2024.3 記錄
2024-03-10
MyBatis記錄
2024-03-23
MyBatis
debian記錄
2024-03-06
工具記錄
2019-08-08
Git記錄
2020-02-18
Git
命令記錄
2019-12-04
explain記錄
2020-09-25
AI
地址記錄
2019-05-01
PEAC記錄
2019-04-19
PlaneLoc記錄
2019-03-26
科研記錄
2024-10-23
2024.10 記錄
2024-10-02
rabbitmq 記錄
2024-10-08
MQ
nginx 記錄
2024-10-06
Nginx
mybatis 記錄
2024-10-06
MyBatis
jvm 記錄
2024-10-06
JVM
spring 記錄
2024-10-06
Spring
Kafka 記錄
2024-09-28
Kafka
netty 記錄
2024-10-04
Netty
指令記錄
2024-11-25
照片記錄
2024-07-01
git 記錄
2024-06-28
Git