Python爬蟲入門教程 21-100 網易雲課堂課程資料抓取

夢想橡皮擦發表於2019-01-09

寫在前面

今天我們們抓取一下網易雲課堂的課程資料，這個網站的資料量並不是很大，我們只需要使用requests就可以快速的抓取到這部分資料了。
你第一步要做的是開啟全部課程的地址，找出爬蟲規律，

在這裡插入圖片描述

我簡單的看了一下，頁面資料是基於
https://study.163.com/p/search/studycourse.json 這個地址進行非同步載入的。你自己嘗試的時候需要藉助開發者工具
進行多次嘗試，抓取到這個地址的資料為準。

還有一個地方需要注意，這次是post提交方式，並且提交資料是payload型別的，這個原因導致我們的程式碼和以前的略微有一些不同的地方。

在這裡插入圖片描述

提取post關鍵字，看一下各個引數的意思，如果你爬取的網站足夠多，那麼訓練出來的敏感度能夠快速的分析這些引數

{"pageIndex":55, # 頁碼
"pageSize":50,  # 每頁資料大小
"relativeOffset":2700,
"frontCategoryId":-1,
"searchTimeType":-1,
"orderType":50,
"priceType":-1,
"activityId":0,
"keyword":""   # 搜尋相關
}

好了，可以開始編寫程式碼了，核心的程式碼就是通過requests模組傳送post請求

def get_json(index):
    print(f"正在抓取{index}頁資料")
    payload = {"pageIndex":index,
            "pageSize":50,
            "relativeOffset":50,
            "frontCategoryId":-1,
            "searchTimeType":-1,
            "orderType":50,
            "priceType":-1,
            "activityId":0,
            "keyword":""
    }
    headers = {"Accept":"application/json",
               "Host":"study.163.com",
               "Origin":"https://study.163.com",
               "Content-Type":"application/json",
               "Referer":"https://study.163.com/courses",
               "User-Agent":"自己去找個瀏覽器UA"
    }
    try:
        # 請注意這個地方傳送的是post請求
        # CSDN 部落格 夢想橡皮擦
        res = requests.post("https://study.163.com/p/search/studycourse.json",json=payload,headers=headers)
        content_json = res.json()
        if content_json and content_json["code"] == 0:
            data = get_content(content_json)  # 獲取正確的資料
            
            ############################################
            if len(data) > 0:
                save_mongo(data)   # 儲存資料
            ############################################


    except Exception as e:
        print("出現BUG了")
        print(e)
    finally:
        time.sleep(1)
        index+=1
        get_json(index)



def get_content(content_json):
    if "result" in content_json:
        return content_json["result"]["list"]

因為獲取到的資料是json型別的，所以，資料可以快速的儲存到mongodb裡面，儲存資料的程式碼我依舊留空，希望你自己可以完善。

通過很短的時間，我們就捕獲到了3000門課程

在這裡插入圖片描述

好了，需要程式碼和資料，請評論留下我能聯絡你的方式即可。

教你爬取騰訊課堂、網易雲課堂、mooc等所有課程資訊
2020-04-17
網易雲課堂影片課件課程下載工具，如何在電腦端下載網易雲課堂影片課程課件資料到本地？
2024-11-02
Python爬蟲入門教程 29-100 手機APP資料抓取 pyspider
2019-01-23
Python爬蟲APPIDE
Python爬蟲入門教程 33-100 《海王》評論資料抓取 scrapy
2019-02-14
Python爬蟲
Python爬蟲入門教程 18-100 煎蛋網XXOO圖片抓取
2019-01-04
Python爬蟲
thinkphp開發網易雲課堂-線上IT學習|視訊教程|慕課網
2019-05-11
PHP
利用Python網路爬蟲抓取網易雲音樂歌詞
2018-05-06
Python爬蟲
課程設計：python_網路爬蟲專案
2021-03-09
Python爬蟲
python爬蟲實戰教程-Python爬蟲開發實戰教程（微課版）
2020-11-11
Python爬蟲
python爬蟲開發微課版pdf_Python爬蟲開發實戰教程（微課版）
2020-11-21
Python爬蟲
Python入門第7課——tuple變數（只讀課堂）
2020-10-08
Python變數
Python爬蟲新手教程：微醫掛號網醫生資料抓取
2019-07-20
Python爬蟲
Python逆向爬蟲入門教程: 網易雲音樂加密引數 params & encSecKey 逆向解析
2024-03-27
Python爬蟲加密
Python爬蟲新手教程：手機APP資料抓取 pyspider
2019-07-20
Python爬蟲APPIDE
Python爬蟲入門【3】：美空網資料爬取
2019-07-30
Python爬蟲
AA_網易雲課堂學習目錄
2019-04-15
爬蟲抓取網頁資料原理
2021-12-06
爬蟲網頁
Python入門第5課——字串變數初級（只讀課堂）
2020-10-08
Python字串變數
小程式網易雲課堂雲開發初體驗
2018-11-25
計算機網路微課堂-課程概述
2024-05-26
計算機網路
AI入門課程資源
2019-01-09
AI
Python爬蟲之js加密破解，抓取網易雲音樂評論生成詞雲
2020-10-22
Python爬蟲JS加密
Python爬蟲實戰一：爬取csdn學院所有課程名、價格和課時
2018-06-23
Python爬蟲
Python爬蟲入門教程 16-100 500px攝影師社群抓取攝影師資料
2018-12-25
Python爬蟲
開源 | Python基礎入門課程
2018-05-17
Python
Python爬蟲入門實戰之貓眼電影資料抓取(理論篇)
2019-04-06
Python爬蟲
Python爬蟲入門實戰之貓眼電影資料抓取（實戰篇）
2019-04-07
Python爬蟲
Python爬蟲從入門到精通系列──第1課基礎知識
2019-01-17
Python爬蟲
爬蟲進階——動態網頁Ajax資料抓取（簡易版）
2024-04-12
爬蟲網頁
Python爬蟲入門教程導航帖
2019-01-08
Python爬蟲
Python爬蟲抓取股票資訊
2021-01-03
Python爬蟲
“種草”10門網課，最佳資料科學線上課程！
2018-10-09
資料科學
Python爬蟲抓取技術的門道
2019-09-21
Python爬蟲
Python爬蟲入門教程 2-100 妹子圖網站爬取
2018-12-13
Python爬蟲網站
爬蟲技術抓取網站資料方法
2021-09-11
爬蟲網站
Python爬蟲入門教程 48-100 使用mitmdump抓取手機惠農APP-手機APP爬蟲部分
2019-03-12
Python爬蟲MITAPP
Python爬蟲實踐--爬取網易雲音樂
2022-02-15
Python爬蟲
Python爬蟲入門
2020-11-30
Python爬蟲

Python爬蟲入門教程 21-100 網易雲課堂課程資料抓取

寫在前面

相關文章