使用貝葉斯進行新聞分類

bo_hai發表於2020-09-29

貝葉斯新聞分類任務

  • 新聞資料集處理

爬取的新聞資料,需要我們對文字資料進行很多預處理才能使用

  • 文字分詞

通常我們處理的都是詞而不是一篇文章

  • 去停用詞

停用詞會對結果產生不好的影響,所以一定得把他們去剔除掉

  • 構建文字特徵

如何構建合適特徵是自然語言處理中最重要的一步,這倆我們選擇兩種方案來進行對比

  • 貝葉斯分類

基於貝葉斯演算法來完成最終的分類任務

import csv

import jieba.analyse
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
df_news = pd.read_table(filepath_or_buffer='./bayes/data.txt',names=['category','theme','URL','content'],encoding='UTF-8')
df_news.dropna()
df_news.tail()

categorythemeURLcontent
4995時尚常吃六類食物快速補充水分http://lady.people.com.cn/GB/18248366.html隨著天氣逐漸炎熱,補水變得日益重要。據美國《跑步世界》雜誌報導,喝水並不是為身體補充水分的唯...
4996時尚情感:你是我的那盤菜 吃不起我走【2】http://lady.people.com.cn/n/2012/0712/c1014-18...我其實不想說這些話刺激他,他也是不得已。可是,我又該怎樣說,怎樣做?我只能走,離開這個傷心地...
4997時尚揭祕不老女神劉曉慶的四任丈夫(圖)http://lady.people.com.cn/n/2012/0730/c1014-18...58歲劉曉慶最新嫩照O衷詰牧蹕慶絕對看不出她已經58歲了,她絕對可以秒殺劉亦菲、范冰冰這類美...
4998時尚樣板潮爸 時尚圈裡的父親們http://lady.people.com.cn/GB/18215232.html導語:做了爸爸就是一種幸福,無論是領養還是親生,更何況出現在影視劇中。時尚圈永遠是需要領軍人...
4999時尚全球最美女人長啥樣?中國最美女人酷似章子怡(圖)http://lady.people.com.cn/BIG5/n/2012/0727/c10...全球最美女人合成圖::國整形外科教授李承哲,在國際學術雜誌美容整形外科學會學報發表了考慮種族...
stopwords = pd.read_table(filepath_or_buffer='./bayes/stopwords.txt',names=['stopword'],sep='\t',quoting=csv.QUOTE_NONE,encoding='UTF-8')
stopwords = stopwords['stopword'].values.tolist()

content_arr = df_news['content'].values.tolist()
content_arr[0]
'經銷商\u3000電話\u3000試駕/訂車U憬杭州濱江區江陵路1780號4008-112233轉5864#保常叮00萬9闃菔邪自魄白雲大道北1361號;廣州市天河區黃埔大道西100號富力盈泰大廈105室4008-112233轉9915#保常福00萬I蕉省淄博市張店區山泉路89號4008-112233轉5156#保常叮00萬4罅保稅區黃海西三路101號4008-112233轉2603#保玻埃00萬L粕絞新紡杴復興路21號4008-112233轉3043#保常叮00萬V洩雲南昆明市度假區滇池路1268號4008-112233轉7312#保常叮00萬R川市興慶區麗景北街800號4008-112233轉3269#保常叮00萬9爾濱市道外區先鋒路469號4008-112233轉2029#保矗福00萬3ど呈刑煨那桂花坪街道雀園路口/星沙中南汽車世界A區05號4008-112233轉7666#保常梗00萬N浜菏信塘城經濟開發區盤龍汽車城#矗埃埃福112233轉7524#保常叮00萬9闃莘禺區市廣路989號(祈福食街旁)#矗埃埃福112233轉9963#保常叮00萬F侄新區御橋路1377號4008-112233轉6337#保常福00萬0不帳『戲適邪河工業區緯一路22號138.00萬I蝦J斜ι角江楊南路1381號4008-112233轉6722#保常叮00萬t奚蕉路198號4008-112233轉5933#保常叮00萬1本┦諧陽區北四環望京街68號4008-112233轉8615#保玻福00萬1本┦脅平區立湯路亞北博晟汽車匯展中心#保埃福86萬=西省南昌市青山湖區科技大道599號136.00萬I苄聳信勱工業區康寧路車管所對面#保常叮00萬D暇┦薪寧區天元中路111號4008-112233轉5501#保常叮00萬3ご菏形饜戮濟技術開發區長沈路4222號136.00萬J家莊市北二環東路86號河北國際汽車貿易園區#矗埃埃福112233轉3178#保矗福00萬8壅⑶城港路99號廣達車城永興路3號136.00萬I蜓羰刑西區北二中路11號4008-112233轉2498#保常叮00萬3啥際星嘌虼蟮潰保福負牛ㄐ攣幕宮對面)#保矗常80萬A贍省瀋陽市皇姑區鴨綠江街32號甲(長客總站北行1500米)#保矗福00萬I鉦謔新蘚區羅芳立交六星汽車園進口大眾4S店4008-112233轉9866#保擔埃00萬3ご憾環城路10056號136.00萬'
content_words = []
for line in content_arr:
    current_segment = jieba.lcut(line)
    if len(current_segment) > 1 and current_segment != '\t\r':
        content_words.append(current_segment)
content_words[0]
['經銷商',
 '\u3000',
 '電話',
 '\u3000',
 '試駕',
 '/',
 '訂車',
 'U',
 '憬',
 '杭州',
 '濱江區',
 '江陵',
 '路',
 '1',
 '7',
 '8',
 '0',
 '號',
 '4',
 '0',
 '0',
 '8',
 '-',
 '1',
 '1',
 '2',
 '2',
 '3',
 '3',
 '轉',
 '5',
 '8',
 '6',
 '4',
 '#',
 '保常',
 '叮',
 '0',
 '0',
 '萬',
 '9',
 '闃',
 '菔',
 '邪',
 '自魄',
 '白雲',
 '大道北',
 '1',
 '3',
 '6',
 '1',
 '號',
 ';',
 '廣州市',
 '天河區',
 '黃埔',
 '大道',
 '西',
 '1',
 '0',
 '0',
 '號',
 '富力',
 '盈泰',
 '大廈',
 '1',
 '0',
 '5',
 '室',
 '4',
 '0',
 '0',
 '8',
 '-',
 '1',
 '1',
 '2',
 '2',
 '3',
 '3',
 '轉',
 '9',
 '9',
 '1',
 '5',
 '#',
 '保常福',
 '0',
 '0',
 '萬',
 'I',
 '蕉',
 '省',
 '淄博市',
 '張店區',
 '山泉',
 '路',
 '8',
 '9',
 '號',
 '4',
 '0',
 '0',
 '8',
 '-',
 '1',
 '1',
 '2',
 '2',
 '3',
 '3',
 '轉',
 '5',
 '1',
 '5',
 '6',
 '#',
 '保常',
 '叮',
 '0',
 '0',
 '萬',
 '4',
 '罅',
 '保稅區',
 '黃海',
 '西',
 '三路',
 '1',
 '0',
 '1',
 '號',
 '4',
 '0',
 '0',
 '8',
 '-',
 '1',
 '1',
 '2',
 '2',
 '3',
 '3',
 '轉',
 '2',
 '6',
 '0',
 '3',
 '#',
 '保玻埃',
 '0',
 '0',
 '萬',
 'L',
 '粕',
 '絞',
 '新',
 '紡杴',
 '復興路',
 '2',
 '1',
 '號',
 '4',
 '0',
 '0',
 '8',
 '-',
 '1',
 '1',
 '2',
 '2',
 '3',
 '3',
 '轉',
 '3',
 '0',
 '4',
 '3',
 '#',
 '保常',
 '叮',
 '0',
 '0',
 '萬',
 'V',
 '洩',
 '雲南',
 '昆明市',
 '度假區',
 '滇池',
 '路',
 '1',
 '2',
 '6',
 '8',
 '號',
 '4',
 '0',
 '0',
 '8',
 '-',
 '1',
 '1',
 '2',
 '2',
 '3',
 '3',
 '轉',
 '7',
 '3',
 '1',
 '2',
 '#',
 '保常',
 '叮',
 '0',
 '0',
 '萬',
 'R',
 '川市',
 '興慶區',
 '麗景',
 '北街',
 '8',
 '0',
 '0',
 '號',
 '4',
 '0',
 '0',
 '8',
 '-',
 '1',
 '1',
 '2',
 '2',
 '3',
 '3',
 '轉',
 '3',
 '2',
 '6',
 '9',
 '#',
 '保常',
 '叮',
 '0',
 '0',
 '萬',
 '9',
 '爾濱市',
 '道外區',
 '先鋒',
 '路',
 '4',
 '6',
 '9',
 '號',
 '4',
 '0',
 '0',
 '8',
 '-',
 '1',
 '1',
 '2',
 '2',
 '3',
 '3',
 '轉',
 '2',
 '0',
 '2',
 '9',
 '#',
 '保',
 '矗福',
 '0',
 '0',
 '萬',
 '3',
 'ど',
 '呈刑',
 '煨',
 '那',
 '桂花',
 '坪',
 '街道',
 '雀園',
 '路口',
 '/',
 '星沙',
 '中南',
 '汽車',
 '世界',
 'A',
 '區',
 '0',
 '5',
 '號',
 '4',
 '0',
 '0',
 '8',
 '-',
 '1',
 '1',
 '2',
 '2',
 '3',
 '3',
 '轉',
 '7',
 '6',
 '6',
 '6',
 '#',
 '保常',
 '梗',
 '0',
 '0',
 '萬',
 'N',
 '浜',
 '菏',
 '信塘城',
 '經濟',
 '開發區',
 '盤龍',
 '汽車城',
 '#',
 '矗埃埃福',
 '1',
 '1',
 '2',
 '2',
 '3',
 '3',
 '轉',
 '7',
 '5',
 '2',
 '4',
 '#',
 '保常',
 '叮',
 '0',
 '0',
 '萬',
 '9',
 '闃莘禺',
 '區市',
 '廣路',
 '9',
 '8',
 '9',
 '號',
 '(',
 '祈福',
 '食街',
 '旁',
 ')',
 '#',
 '矗埃埃福',
 '1',
 '1',
 '2',
 '2',
 '3',
 '3',
 '轉',
 '9',
 '9',
 '6',
 '3',
 '#',
 '保常',
 '叮',
 '0',
 '0',
 '萬',
 'F',
 '侄',
 '新區',
 '御橋',
 '路',
 '1',
 '3',
 '7',
 '7',
 '號',
 '4',
 '0',
 '0',
 '8',
 '-',
 '1',
 '1',
 '2',
 '2',
 '3',
 '3',
 '轉',
 '6',
 '3',
 '3',
 '7',
 '#',
 '保常福',
 '0',
 '0',
 '萬',
 '0',
 '不帳',
 '『',
 '戲適',
 '邪河',
 '工業區',
 '緯',
 '一路',
 '2',
 '2',
 '號',
 '1',
 '3',
 '8',
 '.',
 '0',
 '0',
 '萬',
 'I',
 '蝦',
 'J',
 '斜',
 'ι',
 '角江',
 '楊',
 '南路',
 '1',
 '3',
 '8',
 '1',
 '號',
 '4',
 '0',
 '0',
 '8',
 '-',
 '1',
 '1',
 '2',
 '2',
 '3',
 '3',
 '轉',
 '6',
 '7',
 '2',
 '2',
 '#',
 '保常',
 '叮',
 '0',
 '0',
 '萬',
 't',
 '奚蕉路',
 '1',
 '9',
 '8',
 '號',
 '4',
 '0',
 '0',
 '8',
 '-',
 '1',
 '1',
 '2',
 '2',
 '3',
 '3',
 '轉',
 '5',
 '9',
 '3',
 '3',
 '#',
 '保常',
 '叮',
 '0',
 '0',
 '萬',
 '1',
 '本',
 '┦',
 '諧陽區',
 '北四環',
 '望京',
 '街',
 '6',
 '8',
 '號',
 '4',
 '0',
 '0',
 '8',
 '-',
 '1',
 '1',
 '2',
 '2',
 '3',
 '3',
 '轉',
 '8',
 '6',
 '1',
 '5',
 '#',
 '保玻福',
 '0',
 '0',
 '萬',
 '1',
 '本',
 '┦',
 '脅',
 '平區立',
 '湯路',
 '亞北博晟',
 '汽車',
 '匯展',
 '中心',
 '#',
 '保埃福',
 '8',
 '6',
 '萬',
 '=',
 '西省',
 '南昌市',
 '青山湖區',
 '科技',
 '大道',
 '5',
 '9',
 '9',
 '號',
 '1',
 '3',
 '6',
 '.',
 '0',
 '0',
 '萬',
 'I',
 '苄',
 '聳信',
 '勱',
 '工業區',
 '康寧',
 '路',
 '車管所',
 '對面',
 '#',
 '保常',
 '叮',
 '0',
 '0',
 '萬',
 'D',
 '暇',
 '┦',
 '薪寧區',
 '天元',
 '中路',
 '1',
 '1',
 '1',
 '號',
 '4',
 '0',
 '0',
 '8',
 '-',
 '1',
 '1',
 '2',
 '2',
 '3',
 '3',
 '轉',
 '5',
 '5',
 '0',
 '1',
 '#',
 '保常',
 '叮',
 '0',
 '0',
 '萬',
 '3',
 'ご',
 '菏形',
 '饜',
 '戮濟',
 '技術開發區',
 '長沈路',
 '4',
 '2',
 '2',
 '2',
 '號',
 '1',
 '3',
 '6',
 '.',
 '0',
 '0',
 '萬',
 'J',
 '家莊',
 '市',
 '北二環',
 '東路',
 '8',
 '6',
 '號',
 '河北',
 '國際',
 '汽車貿易',
 '園區',
 '#',
 '矗埃埃福',
 '1',
 '1',
 '2',
 '2',
 '3',
 '3',
 '轉',
 '3',
 '1',
 '7',
 '8',
 '#',
 '保',
 '矗福',
 '0',
 '0',
 '萬',
 '8',
 '壅',
 '⑶',
 '城港路',
 '9',
 '9',
 '號',
 '廣達',
 '車城',
 '永興路',
 '3',
 '號',
 '1',
 '3',
 '6',
 '.',
 '0',
 '0',
 '萬',
 'I',
 '蜓',
 '羰刑',
 '西區',
 '北二',
 '中路',
 '1',
 '1',
 '號',
 '4',
 '0',
 '0',
 '8',
 '-',
 '1',
 '1',
 '2',
 '2',
 '3',
 '3',
 '轉',
 '2',
 '4',
 '9',
 '8',
 '#',
 '保常',
 '叮',
 '0',
 '0',
 '萬',
 '3',
 '啥際星',
 '嘌',
 '虼',
 '蟮',
 '潰',
 '保福',
 '負牛',
 'ㄐ',
 '攣幕宮',
 '對面',
 ')',
 '#',
 '保',
 '矗常',
 '8',
 '0',
 '萬',
 'A',
 '贍省',
 '瀋陽市',
 '皇姑區',
 '鴨綠江',
 '街',
 '3',
 '2',
 '號',
 '甲',
 '(',
 '長客',
 '總站',
 '北',
 '行',
 '1',
 '5',
 '0',
 '0',
 '米',
 ')',
 '#',
 '保',
 '矗福',
 '0',
 '0',
 '萬',
 'I',
 '鉦',
 '謔',
 '新蘚區',
 '羅芳',
 '立交',
 '六星',
 '汽車',
 '園',
 '進口',
 '大眾',
 '4',
 'S',
 '店',
 '4',
 '0',
 '0',
 '8',
 '-',
 '1',
 '1',
 '2',
 '2',
 '3',
 '3',
 '轉',
 '9',
 '8',
 '6',
 '6',
 '#',
 '保擔',
 '埃',
 '0',
 '0',
 '萬',
 '3',
 'ご',
 '憾',
 '環城路',
 '1',
 '0',
 '0',
 '5',
 '6',
 '號',
 '1',
 '3',
 '6',
 '.',
 '0',
 '0',
 '萬']
def drop_stopwords(content_words,stopwords):
    content_words_clean = []
    for line_words in content_words:
        line_clean = []
        for word in line_words:
            if word in stopwords:
                continue
            line_clean.append(word)
        content_words_clean.append(line_clean)
    return content_words_clean
content_words_clean = drop_stopwords(content_words,stopwords)
train_data = pd.DataFrame({"content_clean":content_words_clean,"label":df_news['category']})
train_data.head()
content_cleanlabel
0[經銷商, 電話, 試駕, 訂車, U, 憬, 杭州, 濱江區, 江陵, 路, 號, 轉, ...汽車
1[呼叫, 熱線, 服務, 郵箱, k, f, p, e, o, p, l, e, d, a,...汽車
2[M, I, N, I, 品牌, 二月, 公佈, 最新, M, I, N, I, 新, 概念...汽車
3[清倉, 甩賣, 一汽, 夏利, N, 威志, V, 低至, 萬, 啟新, 中國, 一汽, ...汽車
4[日內瓦, 車展, 見到, 高爾夫, 家族, 新, 成員, 高爾夫, 敞篷版, 款, 全新,...汽車
label_mapping = {"汽車": 1, "財經": 2, "科技": 3, "健康": 4, "體育":5, "教育": 6,"文化": 7,"軍事": 8,"娛樂": 9,"時尚": 0}
train_data['label'].unique()
array(['汽車', '財經', '科技', '健康', '體育', '教育', '文化', '軍事', '娛樂', '時尚'],
      dtype=object)
train_data['label'] = train_data['label'].map(label_mapping)
train_data.head()
content_cleanlabel
0[經銷商, 電話, 試駕, 訂車, U, 憬, 杭州, 濱江區, 江陵, 路, 號, 轉, ...1
1[呼叫, 熱線, 服務, 郵箱, k, f, p, e, o, p, l, e, d, a,...1
2[M, I, N, I, 品牌, 二月, 公佈, 最新, M, I, N, I, 新, 概念...1
3[清倉, 甩賣, 一汽, 夏利, N, 威志, V, 低至, 萬, 啟新, 中國, 一汽, ...1
4[日內瓦, 車展, 見到, 高爾夫, 家族, 新, 成員, 高爾夫, 敞篷版, 款, 全新,...1
x_train,x_test,y_train,y_test = train_test_split(train_data['content_clean'].values,train_data['label'].values,random_state=1)

train_words = []
for line_index in range(len(x_train)):
    train_words.append(' '.join(x_train[line_index]))
train_words[0]
'中新網 上海 日電 於俊 父親節 網路 吃 一頓 電影 快餐 微 電影 爸 對不起 我愛你 定於 本月 父親節 當天 各大 視訊 網站 首映 葜 譜 鞣 劍 保慈 障蚣 欽 囈 檣 埽 ⒌ 纈 埃 ǎ 停 椋 悖 潁 鎩 媯 椋 恚 稱 微型 電影 新 媒體 平臺 播放 狀態 短時 休閒 狀態 觀看 完整 策劃 系統 製作 體系 支援 顯示 較完整 故事情節 電影 微 超短 放映 微 週期 製作 天 數週 微 規模 投資 人民幣 幾千 數萬元 每部 內容 融合 幽默 搞怪 時尚 潮流 人文 言情 公益 教育 商業 定製 主題 單獨 成篇 系列 成劇 脣 開播 微 電影 爸 對不起 我愛你 講述 一對 父子 觀念 缺少 溝通 導致 關係 父親 傳統 固執 鍾情 傳統 生活 方式 兒子 新派 音樂 達 習慣 晚出 早 生活 性格 張揚 叛逆 兩種 截然不同 生活 方式 理念 差異 一場 父子 間 拉開序幕 子 失手 打破 父親 心愛 物品 父親 趕出 家門 劇情 演繹 父親節 妹妹 哥哥 化解 父親 這場 矛盾 映逋壞 嚼 斫 狻 ⒍ 粵 ⒌ 槳容 爭執 退讓 傳統 尷尬 父子 尷尬 情 男人 表達 心中 那份 感恩 一杯 濾掛 咖啡 父親節 變得 溫馨 鎂 纈 繕 蝦 N 逄 煳 幕 傳播 迪歐 咖啡 聯合 出品 出品人 希望 觀摩 捫心自問 父親節 父親 記得 父親 生日 哪一天 父親 愛喝 跨出 家門 那一刻 感覺 一顆 顫動 心 操勞 天下 兒女 父親節 大聲 喊出 父親 家人 愛 完'
test_words = []
for line_index in range(len(x_test)):
    test_words.append(' '.join(x_test[line_index]))
test_words[0]
'國家 公務員 考試 申論 應用文 類 試題 實質 一道 集 概括 分析 提出 解決問題 一體 綜合性 試題 說 一道 客觀 凝練 申發 論述 文章 題目 分析 歷年 國考 申論 真題 公文 類 試題 型別 多樣 包括 公文 類 事務性 文書 類 題材 從題 幹 作答 材料 內容 整合 分析 無需 太 創造性 發揮 縱觀 歷年 申論 真題 作答 應用文 類 試題 文種 格式 作出 特別 重在 內容 考查 行文 格式 考生 平常心 面對 應用文 類 試題 準確 把握 作答 領會 內在 含義 把握 題材 主旨 材料 結構 輕鬆 應對 應用文 類 試題 R 弧 ⒆ 釩 鹽 展文 寫作 原則 T 材料 中來 應用文 類 試題 材料 總體 把握 客觀 考生 材料 中來 材料 中 把握 材料 準確 理解 題材 主旨 T 政府 角度 作答 應用文 類 試題 更應 注重 政府 角度 觀點 政府 角度 出發 原則 表述 觀點 提出 解決 之策 考生 作答 站 政府 人員 角度 看待 提出 解決問題 T 文體 結構 形式 考查 重點 文體 結構 大部分 評分 關鍵點 解答 方法 薄 ⒆ ス 丶 詞 明 方向 作答 題目 題幹 作答 作答 方向 作答 角度 關鍵 嚮導 考生 仔細閱讀 題幹 作答 抓住 關鍵詞 作答 方向 相關 要點 整理 作答 思路 年國考 地市級 真 題為 例 潦惺姓 府 宣傳 推進 近海 水域 汙染 整治 工作 請 給定 資料 市政府 工作人員 身份 草擬 一份 宣傳 綱要 R 求 保對 宣傳 內容 要點 提綱挈領 陳述 玻 體現 政府 精神 全市 各界 關心 支援 汙染 整治 工作 通俗易懂 超過 字 骯 丶 詞 近海 水域 汙染 整治 工作 市政府 工作人員 身份 宣傳 綱要 提綱挈領 陳述 體現 政府 精神 全市 各界 關心 支援 汙染 整治 工作 通俗易懂 提示 歸結 作答 要點 包括 汙染 情況 原因 解決 對策 作答 思路 情況 原因 對策 意義 邏輯 順序 安排 文章 結構 病 ⒋ 缶殖 齜 ⅲ 明 結構 解答 應用文 類 試題 考生 材料 整體 出發 大局 出發 高屋建瓴 把握 材料 主題 思想 事件 起因 解決 對策 閱讀文章 構建 文章 結構 直至 快速 解答 場 ⒗ 硭 乘悸 罰明 邏輯 應用文 類 試題 嚴密 邏輯思維 情況 原因 對策 意義 考生 作答 先 弄清楚 解答 思路 統籌安排 脈絡 清晰 邏輯 表達 內容 表述 礎 把握 明 詳略 考生 仔細閱讀 分析 揣摩 應用文 類 試題 內容 答題 時要 詳略 得當 主次 分明 安排 內容 增加 文章 層次感 閱卷 老師 閱卷 時能 明白 清晰 一目瞭然 玻埃 保蹦旯 考 考試 申論 試卷 分為 省級 地市級 兩套 試卷 能力 大有 省級 申論 試題 考生 巨集觀 角度看 注重 深度 廣度 考生 深謀遠慮 地市級 試題 考生 微觀 視角 觀察 側重 考查 解決 能力 考生 貫徹執行 作答 區別對待'
cv = CountVectorizer(analyzer='word',max_features=5000,lowercase=False)
feature  = cv.fit_transform(train_words)
classifier = MultinomialNB()
classifier.fit(feature,y_train)
classifier.score(cv.transform(test_words),y_test)
0.8048
tv = TfidfVectorizer(analyzer='word',max_features=5000,lowercase=False)
feature = tv.fit_transform(train_words)
classifier = MultinomialNB()
classifier.fit(feature,y_train)
classifier.score(tv.transform(test_words),y_test)
0.816

選擇一篇文章進行測試

test_content  = "昨日,滬指收盤擊穿鑽石底,報2126點,創2009年3月以來新低,深指破位9100點關口。 鑽石底淪陷,兩市昨日交投不足千億,A股持倉賬戶比例下滑至33.96%創新低,股民投資意願降至“冰點”。A頭地產股大跌A絞凶蛉找蝗緙韌低開,盤初窄幅震盪,滬指一度突破5日均線,升至日內高點2147.66點,深指衝上9200點。N綰螅受困基本面表現乏力、利好訊息缺失,兩市成交持續低迷。地產板塊午後大幅下挫,四大龍頭地產股“招保萬金”放量大跌,加重場內擔憂,權重股紛紛翻綠,導致兩市最後半小時放量跳水。W鈧眨滬指報收2126點,下跌0.48%,創2009年3月9日以來收盤新低。深指下跌0.80%,收報9081.90點,失守9100點關口。#凍燒嘶Э詹鑄@醋災械槍司的最新資料顯示,7月16日至7月20日當週,新增A股開戶數為8.41萬戶,較上週增加0.67萬戶,增幅8.56%,已連續兩週增加。但上週市場參與度僅為5.01%,已連降兩週;截至上週末,A股持倉賬戶數為5645萬戶,較前一週減少7.17萬戶,比例下滑至33.96%,續創歷史新低。M庾士始唱多S肷⒒У摹白山觀虎鬥”迥異的是,外資機構唱多聲音此起彼伏,更有機構“冰川期”滿倉操作。DΩ士丹利在其最新研報中稱,中國A股和H股的估值都顯著低於歷史水平,年內應有較好表現;高盛高華則認為,上證指數有望到年底達到2750點。M庾駛構“看多”同時也做多。2006年獲得A股QFII資格的愛德蒙得洛希爾資產管理公司總經理湯熠近日透露,該公司在A股市場的7億多美元投資目前已滿倉操作。";
test_current_segment = jieba.lcut(test_content)
test_contents_clean = drop_stopwords(content_words = [test_current_segment],stopwords=stopwords)
t_words = [' '.join(test_contents_clean[0])]
classifier.predict(tv.transform(t_words))
array([2], dtype=int64)

參考資料:

  • 必須先用fit_transform(trainData),之後再transform(testData)
  • 如果直接transform(testData),程式會報錯
  • 如果fit_transfrom(trainData)後,使用fit_transform(testData)而不transform(testData),雖然也能歸一化,但是兩個結果不是在同一個“標準”下的,具有明顯差異。(一定要避免這種情況)

https://blog.csdn.net/weixin_38278334/article/details/82971752

相關文章