想獲取JS載入網頁的源網頁的原始碼，不想獲取JS載入後的資料

dcpeng發表於2024-04-10

原文網址 : https://www.cnblogs.com/dcpeng/p/18125274

大家好，我是Python進階者。

一、前言

前幾天在Python鑽石交流群【夢】問了一個Python網路爬蟲的問題，這個網站不知道使用了什麼反爬手段，都獲取不到頁面資料。原來的那篇文章竟然爆文了，突破了1.5w的閱讀量，歡迎大家圍觀。

不過這裡粉絲的需求有點奇怪，他不需要JS載入後的資料頁面，而是需要JS的源網頁。昨天在群裡又討論起這個問題，這次一起來看看這個問題。

二、實現過程

這裡【瑜亮老師】指出非同步頁面中，標籤和資料都是不在頁面原始碼中的。你的這個頁面，資料在json，然後js拼裝後顯示在頁面中。如果你想要獲取你說的帶標籤的原始碼，可以使用自動化模組，例如：selenium（不建議用這個），playwright，drissionpage。

後來【提請問粘給圖截報錯貼代原始碼】給出了具體的原始碼：

from DrissionPage import WebPage

page = WebPage()
# 訪問網頁並渲染
page.get('https://fx.cmbchina.com/hq', timeout=300)
response = page.html
print(response)
page.quit()

開啟network，檢視這個網頁的渲染方式，你就知道這個網頁一開始是沒有內容的，全靠js在渲染。

你直接訪問這個連結就是沒有內容。

先渲染再獲取就有了，再者說，你的目的肯定是隻要這頁面上的表格，表格就是json，獲取json連結比獲取渲染後的網頁方便多了。可以不在頁面本身的，使用dom插入，現在的資料頁面基本都是這種方式，效率高且安全性好。

【貓藥師Kelly】也指出使用drissionpage，配合自帶的監聽或者mitmproxy，能搞定很多活。

順利地解決了粉絲的問題。

如果你也有類似這種Python相關的小問題，歡迎隨時來交流群學習交流哦，有問必答！

三、總結

大家好，我是Python進階者。這篇文章主要盤點了一個Python網路爬蟲網頁JS渲染源網頁原始碼獲取的問題，文中針對該問題，給出了具體的解析和程式碼實現，幫助粉絲順利解決了問題。

最後感謝粉絲【夢】提出的問題，感謝【論草莓如何成為凍幹莓】、【瑜亮老師】、【貓藥師Kelly】給出的思路，感謝【莫生氣】等人參與學習交流。

【提問補充】溫馨提示，大家在群裡提問的時候。可以注意下面幾點：如果涉及到大檔案資料，可以資料脫敏後，發點demo資料來（小檔案的意思），然後貼點程式碼（可以複製的那種），記得發報錯截圖（截全）。程式碼不多的話，直接發程式碼文字即可，程式碼超過50行這樣的話，發個.py檔案就行。

js/jq 獲取網頁寬高
2018-12-12
JS網頁
QWebView獲取網頁原始碼
2018-11-01
WebView網頁原始碼
js 進入頁面載入的方法
2020-11-12
JS
Python3.x：Selenium+PhantomJS爬取帶Ajax、Js的網頁及獲取JS返回值
2024-04-12
PythonJS網頁
手機直播原始碼，JS實現頁面下拉載入資料操作
2023-04-13
原始碼JS
用 js 獲取頁面元素的位置圖文總結
2019-03-01
JS
Postman模擬瀏覽器網頁請求並獲取網頁資料
2024-04-03
Postman瀏覽器網頁
js-----時間格式化、獲取當前網頁路徑
2018-03-08
JS網頁
php獲取網頁內容的三種方法
2018-10-17
PHP網頁
夢想cad在網頁開發時如何獲取圖層操作的資訊
2021-06-10
網頁
線上直播原始碼，js獲取捲軸的位置
2023-02-08
原始碼JS
網頁效能優化之非同步載入js檔案
2018-10-22
網頁優化非同步JS
JavaScript 獲取網頁尾本程式碼內容
2020-02-20
JavaScript網頁
python3中編碼如何獲取網頁?
2021-09-11
Python網頁
Spring原始碼剖析4：懶載入的單例Bean獲取過程分析
2019-11-15
Spring原始碼單例Bean
python四種方式解析網頁獲取頁面中的連結
2020-12-31
Python網頁
js獲取多少天以後的時間
2020-10-21
JS
vue 前端框架的網頁是否是不能用 js 和 jquery 獲取元素屬性或修改？
2020-08-31
Vue前端框架網頁JSjQuery
直播軟體原始碼，js獲取n天前的日期
2023-02-10
原始碼JS
H5頁面載入後表單獲取焦點並喚起軟鍵盤?
2018-12-29
H5
python 從mongodb中獲取資料載入到pandas中
2019-03-16
PythonMongoDB
js獲取url傳遞引數，js獲取url？號後面的引數
2018-05-30
JS
JS 頁面載入過程問題
2020-11-22
JS
如何使用js獲取USB掃碼槍資料
2021-12-11
JS
js獲取日期
2021-09-09
JS
「無程式碼」高效的爬取網頁資料神器
2021-10-18
網頁
js獲取帶#號連結後的引數
2018-09-25
JS
Chrome 獲取網頁顏色（文字、圖片）
2022-04-06
Chrome網頁
一種實現 MediaWiki 分頁面載入 JS 的思路
2024-08-29
JS
python獲取頁面亂碼時的處理
2021-11-11
Python
GIS資料獲取：氣象資料免費下載網站
2024-06-21
網站
toapi：抓取任意網頁內容並提供 HTTP API獲取資料
2024-05-07
API網頁HTTP
SyntaxHighlighter 頁面動態js載入方式整理
2019-05-11
JS
網頁載入CAD圖紙的兩個方案
2021-05-18
網頁
JS 獲取文件元素
2019-08-16
JS
Puppeteer爬取網頁資料
2019-03-22
網頁
直播平臺搭建，JS實現頁面下拉載入資料操作
2023-03-27
JS
直播軟體原始碼，JS獲取指定長度的隨機字元
2022-12-22
原始碼JS隨機字元

想獲取JS載入網頁的源網頁的原始碼，不想獲取JS載入後的資料

一、前言

二、實現過程

三、總結

相關文章