Python爬蟲百度新聞標題
原文:https://blog.csdn.net/weixin_43881394/article/details/108200983
新學requests-html模組
import pandas as pd
from requests_html import HTMLSession
session = HTMLSession()
news_dict = {}
r = session.get('http://news.baidu.com/')
# 提取首頁新聞內容
hot_news = r.html.find('div#pane-news', first=True)
a_s = hot_news.find('a')
news_dict['首頁新聞標題'] = [a.text for a in a_s] # 首頁新聞標題
news_dict['首頁新聞連結'] = [a.attrs['href'] for a in a_s] # 首頁新聞連結
# 提取熱搜詞內容
hot_news_words = r.html.find('ul.hotwords', first=True)
a_s = hot_news_words.find('a')
news_dict['熱搜新聞詞'] = [a.text for a in a_s] # 熱搜新聞詞
news_dict['熱搜連結'] = [a.attrs['href'] for a in a_s] # 熱搜連結
# 輸出csv檔案
dataframe = pd.DataFrame(dict([(k, pd.Series(v)) for k, v in news_dict.items()]))
dataframe.to_csv('首頁新聞.csv', sep=',', encoding='utf-8-sig')
輸出:
相關文章
- python爬蟲---網頁爬蟲,圖片爬蟲,文章爬蟲,Python爬蟲爬取新聞網站新聞Python爬蟲網頁網站
- 大規模非同步新聞爬蟲:簡單的百度新聞爬蟲非同步爬蟲
- 大規模非同步新聞爬蟲:實現一個同步定向新聞爬蟲非同步爬蟲
- 爬蟲實戰:探索XPath爬蟲技巧之熱榜新聞爬蟲
- scrapy入門教程2:建立一個簡單的爬取南郵新聞標題的爬蟲demo爬蟲
- 大規模非同步新聞爬蟲: 用asyncio實現非同步爬蟲非同步爬蟲
- Python爬蟲教程-05-python爬蟲實現百度翻譯Python爬蟲
- python 爬蟲之獲取標題和連結Python爬蟲
- Python3 大型網路爬蟲實戰 002 --- scrapy 爬蟲專案的建立及爬蟲的建立 --- 例項:爬取百度標題和CSDN部落格Python爬蟲
- 【Python學習】爬蟲爬蟲爬蟲爬蟲~Python爬蟲
- Python爬蟲教程-06-爬蟲實現百度翻譯(requests)Python爬蟲
- Python爬蟲實戰系列3:今日BBNews程式設計新聞採集Python爬蟲程式設計
- 爬蟲搭建代理池、爬取某網站影片案例、爬取新聞案例爬蟲網站
- java爬蟲入門--用jsoup爬取汽車之家的新聞Java爬蟲JS
- Jsoup + HtmlUtil 實現網易新聞網頁爬蟲JSHTML網頁爬蟲
- 通用新聞爬蟲開發系列(專案介紹)爬蟲
- 【python爬蟲】python爬蟲demoPython爬蟲
- python爬蟲獲取百度熱搜Python爬蟲
- 如何利用 Python 爬蟲實現給微信群發新聞早報?(詳細)Python爬蟲
- python爬蟲如何爬知乎的話題?Python爬蟲
- 大規模非同步新聞爬蟲的實現思路非同步爬蟲
- 百度地圖POI爬蟲(Python3)地圖爬蟲Python
- python 爬蟲 下載百度美女圖片Python爬蟲
- Python爬蟲實戰系列1:部落格園cnblogs熱門新聞採集Python爬蟲
- Python爬蟲亂碼問題Python爬蟲
- 大規模非同步新聞爬蟲的分散式實現非同步爬蟲分散式
- 大規模非同步新聞爬蟲:網頁正文的提取非同步爬蟲網頁
- 爬蟲監控1000家企業新聞動態爬蟲
- 網路爬蟲——爬百度貼吧爬蟲
- Python爬蟲實戰案例-爬取幣世界標紅快訊Python爬蟲
- python就是爬蟲嗎-python就是爬蟲嗎Python爬蟲
- python 爬蟲 簡單實現百度翻譯Python爬蟲
- Python爬蟲實戰(2):百度貼吧帖子Python爬蟲
- python爬蟲Python爬蟲
- python 爬蟲Python爬蟲
- 爬取網站新聞網站
- puppeteer+mysql—爬蟲新方法!抓取新聞&評論so easy!MySql爬蟲
- 爬蟲百戰穿山甲(2):百度翻譯爬蟲爬蟲