Python 對文件內容TFIDF處理
CODE:
#!/usr/bin/python
# -*- coding: utf-8 -*-
'''
Created on 2014-9-8
@author: guaguastd
@name: tf_idf_sample.py
'''
from tfIdf import tf, tf_idf, idf
# Enter in a query term from the corpus variable
QUERY_TERMS = ['mr.', 'green']
corpus = \
{'a': 'Mr. Green killed Colonel Mustard in the study with the candlestick. \
Mr. Green is not a very nice fellow.',
'b': 'Professor Plum has a green plant in his study.',
'c': "Miss Scarlett watered Professor Plum's green plant while he was away \
from his office last week."}
for (k, v) in sorted(corpus.items()):
print k, ':', v
print
# Score queries by calculating cumulative tf_idf score for each term in query
query_scores = {'a':0, 'b':0, 'c':0}
for term in [t.lower() for t in QUERY_TERMS]:
for doc in sorted(corpus):
print 'TF(%s): %s' % (doc, term), tf(term, corpus[doc])
print 'IDF: %s' % (term, ), idf(term, corpus.values())
print
for doc in sorted(corpus):
score = tf_idf(term, corpus[doc], corpus.values())
print 'TF-IDF(%s): %s' % (doc, term), score
query_scores[doc] += score
print
print "Overall TF-IDF scores for query '%s'" % (' '.join(QUERY_TERMS), )
for (doc, score) in sorted(query_scores.items()):
print doc, score
RESULT:
a : Mr. Green killed Colonel Mustard in the study with the candlestick. Mr. Green is not a very nice fellow.
b : Professor Plum has a green plant in his study.
c : Miss Scarlett watered Professor Plum's green plant while he was away from his office last week.
TF(a): mr. 0.105263157895
TF(b): mr. 0.0
TF(c): mr. 0.0
IDF: mr. 2.09861228867
TF-IDF(a): mr. 0.220906556702
TF-IDF(b): mr. 0.0
TF-IDF(c): mr. 0.0
TF(a): green 0.105263157895
TF(b): green 0.111111111111
TF(c): green 0.0625
IDF: green 1.0
TF-IDF(a): green 0.105263157895
TF-IDF(b): green 0.111111111111
TF-IDF(c): green 0.0625
Overall TF-IDF scores for query 'mr. green'
a 0.326169714597
b 0.111111111111
c 0.0625
相關文章
- zt 運用 Range 物件處理 Word 文件內容物件
- [python] LDA處理文件主題分佈及分詞、詞頻、tfidf計算PythonLDA分詞
- 如何使用awk處理文字內容
- php形式的內容被處理PHP
- textarea中內容處理問題
- Python處理Excel文件之openpyxlPythonExcel
- ModernUI教程:處理內容導航事件UI事件
- 正規表示式小指令碼(對輸入內容進行處理)指令碼
- Git提交文件部分內容Git
- 【python012】Python根據頁碼處理PDF檔案的內容Python
- Java String 對 null 物件的容錯處理JavaNull物件
- robotframework 使用jQuery處理頁面display隱藏內容FrameworkjQuery
- 處理網站中的重複內容問題網站
- jQuery 文件碎片處理jQuery
- jQuery內部對<script>標籤的處理jQuery
- 多對一處理 和一對多處理的處理
- Word文件異地文件處理 借力“谷歌文件”谷歌
- python對json格式原檔案追加內容PythonJSON
- ElasticSearch 文件併發處理以及文件路由Elasticsearch路由
- python面試內容Python面試
- Apache POI處理Excel文件ApacheExcel
- jQuery 篩選&文件處理jQuery
- linux 中兩個文件怎麼對比內容是否一致Linux
- 使用 React.cloneElement 動態處理 JSX 和字串內容ReactJS字串
- 技術文件:基於 Python 的影像處理系統Python
- 核對不同資料夾所含內容的差異並提取缺失內容:Python程式碼Python
- python爬蟲之快速對js內容進行破解Python爬蟲JS
- python基礎內容Python
- 如何基於文件的內容實現 AI 對話功能,以 Documate 為例AI
- 用JDOM處理XML文件 (轉)XML
- Liunx運維(三)-檔案過濾及內容編輯處理運維
- 利用 Amazon API Gateway 和 Amazon Lambda 處理 Cloudfront 的內容請求APIGatewayCloud
- 使用IText7和miniExcel處理pdf並輸出內容Excel
- 補: Rest 風格請求處理的的內容補充(1)REST
- python3對於時間的處理Python
- 如何讓 python 處理速度翻倍?內含程式碼Python
- 如何解析word文件中的公式內容公式
- [Python影象處理] 七.影象閾值化處理及演算法對比Python演算法