Python爬蟲百度新聞標題
原文:https://blog.csdn.net/weixin_43881394/article/details/108200983
新學requests-html模組
import pandas as pd
from requests_html import HTMLSession
session = HTMLSession()
news_dict = {}
r = session.get('http://news.baidu.com/')
# 提取首頁新聞內容
hot_news = r.html.find('div#pane-news', first=True)
a_s = hot_news.find('a')
news_dict['首頁新聞標題'] = [a.text for a in a_s] # 首頁新聞標題
news_dict['首頁新聞連結'] = [a.attrs['href'] for a in a_s] # 首頁新聞連結
# 提取熱搜詞內容
hot_news_words = r.html.find('ul.hotwords', first=True)
a_s = hot_news_words.find('a')
news_dict['熱搜新聞詞'] = [a.text for a in a_s] # 熱搜新聞詞
news_dict['熱搜連結'] = [a.attrs['href'] for a in a_s] # 熱搜連結
# 輸出csv檔案
dataframe = pd.DataFrame(dict([(k, pd.Series(v)) for k, v in news_dict.items()]))
dataframe.to_csv('首頁新聞.csv', sep=',', encoding='utf-8-sig')
輸出:
相關文章
- python爬蟲---網頁爬蟲,圖片爬蟲,文章爬蟲,Python爬蟲爬取新聞網站新聞Python爬蟲網頁網站
- 大規模非同步新聞爬蟲:簡單的百度新聞爬蟲非同步爬蟲
- 大規模非同步新聞爬蟲:實現一個同步定向新聞爬蟲非同步爬蟲
- 爬蟲實戰:探索XPath爬蟲技巧之熱榜新聞爬蟲
- Python爬蟲教程-05-python爬蟲實現百度翻譯Python爬蟲
- python 爬蟲之獲取標題和連結Python爬蟲
- 大規模非同步新聞爬蟲: 用asyncio實現非同步爬蟲非同步爬蟲
- 【Python學習】爬蟲爬蟲爬蟲爬蟲~Python爬蟲
- Python爬蟲教程-06-爬蟲實現百度翻譯(requests)Python爬蟲
- Python爬蟲實戰系列3:今日BBNews程式設計新聞採集Python爬蟲程式設計
- python爬蟲獲取百度熱搜Python爬蟲
- Python爬蟲實戰系列1:部落格園cnblogs熱門新聞採集Python爬蟲
- 爬蟲搭建代理池、爬取某網站影片案例、爬取新聞案例爬蟲網站
- Python爬蟲亂碼問題Python爬蟲
- 通用新聞爬蟲開發系列(專案介紹)爬蟲
- Jsoup + HtmlUtil 實現網易新聞網頁爬蟲JSHTML網頁爬蟲
- python爬蟲如何爬知乎的話題?Python爬蟲
- python 爬蟲 下載百度美女圖片Python爬蟲
- 百度地圖POI爬蟲(Python3)地圖爬蟲Python
- 如何利用 Python 爬蟲實現給微信群發新聞早報?(詳細)Python爬蟲
- python就是爬蟲嗎-python就是爬蟲嗎Python爬蟲
- 大規模非同步新聞爬蟲的實現思路非同步爬蟲
- python 爬蟲Python爬蟲
- python爬蟲Python爬蟲
- python 爬蟲 簡單實現百度翻譯Python爬蟲
- Python爬蟲實戰案例-爬取幣世界標紅快訊Python爬蟲
- 大規模非同步新聞爬蟲的分散式實現非同步爬蟲分散式
- 大規模非同步新聞爬蟲:網頁正文的提取非同步爬蟲網頁
- python爬蟲初探--第一個python爬蟲專案Python爬蟲
- python網路爬蟲_Python爬蟲:30個小時搞定Python網路爬蟲視訊教程Python爬蟲
- Python爬蟲--2Python爬蟲
- Python asyncio 爬蟲Python爬蟲
- Python 爬蟲系列Python爬蟲
- python爬蟲2Python爬蟲
- Python爬蟲-xpathPython爬蟲
- Python爬蟲——XPathPython爬蟲
- Python爬蟲入門教程 50-100 Python3爬蟲爬取VIP視訊-Python爬蟲6操作Python爬蟲
- Java爬蟲與Python爬蟲的區別?Java爬蟲Python