通過文章獲得的贊同數爬取、過濾“掘金”中的文章（python Web）

kk_miles發表於2018-01-21

原文網址 : https://juejin.im/post/5a640416f265da3e585971cb

之前初學python時寫過一個練手的Demo，程式實現了在主機上根據關鍵詞和獲得贊同數爬取“掘金”中的文章：利用Python爬蟲過濾“掘金”的關鍵詞檢索結果。但是這個專案只是簡單地實現了功能，在很多方面都需要加強。現利用假期在這個程式地基礎上修改了一下，加入了Web支援，並且部署到了我私人的伺服器上，大家如果有興趣可以訪問使用：點我試用。

首先看一下使用方法和結果：

假設我們在輸入框中分別輸入了python（關鍵字）和10（獲得贊數下限）後，點選按鈕：

如果想要獲取更多結果，繼續點選 '點選獲得更多結果。。'就好了，不過後臺設定了不斷獲取資料的限制（15頁搜尋結果，一般夠用了）。

1. 專案結構

其中'main'包中是程式檔案，'static'放置靜態檔案，'templates'放置html模板檔案，'venv'是虛擬環境，'app.py'是主程式入口檔案，'requirements.txt'記錄程式所有依賴及版本號。

2. app.py

app.py負責構建Flask應用，且由於程式功能比較簡單，將檢視函式也放置其中，

app = Flask(__name__)

# set the secret key.  keep this really secret:
app.secret_key = os.urandom(24)

# 帶爬取的url地址，不包含請求引數
ajax_base_url = 'https://search-merger-ms.juejin.im/v1/search'

# 根目錄，返回輸入截面
@app.route('/')
def index():
    return render_template('input.html')

# 搜尋功能檢視函式
@app.route('/search')
def search():
    try:
        baseline = int(request.args.get('baseline'))    # 從請求引數中獲取文章贊同數的下限值
    except ValueError:
        raise InvalidParameter('輸入框不能為空或者請不要在輸入框第二欄中輸入非數字字元!')
    keyword = quote(request.args.get('keyword'))  # 獲取搜尋的關鍵字, urllib.parse.quote() 複雜處理url中的中文
    if keyword is None or len(keyword) == 0:
        raise InvalidParameter('輸入框不能為空!')

    params = {}  # 對應的請求引數
    params['query'] = keyword
    params['page'] = '0'
    params['raw_result'] = 'false'
    params['src'] = 'web'

    new_url = url_manager.build_ajax_url(ajax_base_url, params)     # 構建請求地址
    craw_json = crawler.craw_one_page(crawler.parse_from_json)      # 選擇json解析器
    datas = craw_json(new_url, baseline)        # 進行下載、解析，獲得結果
    if datas is None or len(datas) == 0:
        return

    return render_template('output.html', datas=datas, keyword=request.args.get('keyword'), baseline=baseline)  # keyword傳原始值，否則next_page中再進行quote則會出錯

# 請求獲得更多資料
@app.route('/nextPage')
def next_page():
    keyword = quote(request.args.get('keyword'))  # 獲取搜尋的關鍵字, urllib.parse.quote() 複雜處理url中的中文
    try:
        baseline = int(request.args.get('baseline'))
        req_page = int(request.args.get('req_page'))
    except ValueError:
        return redirect(url_for('index'))
    if keyword is None or len(keyword) == 0:
        return redirect(url_for('index'))
    
    params = {}  # 對應的請求引數
    params['query'] = keyword
    params['page'] = str(req_page)
    params['raw_result'] = 'false'
    params['src'] = 'web'

    new_url = url_manager.build_ajax_url(ajax_base_url, params)     # 構建請求地址
    craw_json = crawler.craw_one_page(crawler.parse_from_json)      # 選擇json解析器
    datas = craw_json(new_url, baseline)        # 進行下載、解析，獲得結果
    # 將結果物件構成的列表轉完成json陣列
    json_array = []
    for data in datas:
        json_array.append(data.__dict__)

    return jsonify(json_array)

# 引數錯誤介面
@app.errorhandler(InvalidParameter)
def invalid_param(error):
    return render_template('param-error.html', error_message=error.message), error.status_code

if __name__ == '__main__':
    app.debug = True
    app.run()
複製程式碼

app.py中主要包含了三個檢視函式：index(), search(), next_page()；search()負責搜尋文章資料，next_page()負責獲取下一頁的文章資料。

3. 下載並解析資料

我們可以通過兩種不同的URL來獲取掘金的文章資訊，一種會返回html資料，一種會返回JSON資料。我們選擇第二種方式獲取JSON資料。下面首先介紹程式的下載器： downloader.py

import urllib.request

def download_json(url):
    if url is None:
        print('one invalid url is found!')
        return None
    response = urllib.request.urlopen(url)
    if response.getcode() != 200:
        print('response from %s is invalid!' % url)
        return None
    return response.read().decode('utf-8')
複製程式碼

通過該方法返回的是JSON的字串資料。接下來使用解析器來解析JSON資料： json_parser.py

# 將json字元創解析為一個物件
def json_to_object(json_content):
    if json_content is None:
        print('parse error!json is None!')
        return None
    return json.loads(str(json_content))


# 從JSON構成的物件中提取出文章的title、link、collectionCount等資料，並將其封裝成一個Bean物件，最後將這些物件新增到結果列表中
def build_bean_from_json(json_collection, baseline):
    if json_collection is None:
        raise ParseError('build bean from json error! json_collection is None!')
    list = json_collection['d'] # 文章的列表
    result_list = []    # 結果的列表
    if list is None or len(list) == 0:
        return []
    for element in list:
        starCount = element['collectionCount']  # 獲得的收藏數，即獲得的贊數
        if int(starCount) >= baseline:   # 如果收藏數不小於baseline，則構建結果物件並新增到結果列表中
            title = element['title']
            link = element['originalUrl']
            result = ResultBean(title, link, starCount)
            result_list.append(result)      # 新增到結果列表中
            print(title, link, starCount)
    return result_list
複製程式碼

4. 爬取器

上面的下載、解析都可以看作是爬取過程中的工具，下面我們通過爬取模組將下載和解析過程結合起來： crawler.py

# 爬取一頁資訊
def craw_one_page(func):
    def in_craw_one_page(new_url, baseline=10):    # 預設baseline=10
        print('begin to main..')

        content = downloader.download_json(new_url)  # 根據URL獲取網頁
        datas = func(content, baseline)     # 一次解析所得的結果

        print('main end..')
        return datas
    return in_craw_one_page


def parse_from_json(content, baseline):
    json_collection = json_parser.json_to_object(content)
    results = json_parser.build_bean_from_json(json_collection, baseline)
    return results


def parse_from_html(content, baseline):
    html_parser.build_soup(content)  # 使用BeautifulSoup將html網頁構建成soup樹
    results = html_parser.build_bean_from_html(baseline)
    return results
複製程式碼

這裡使用閉包修飾爬取函式，使我們可以傳入html或JSON對應的解析器。

完成

github: github
部署: 通過Gunicorn部署flask應用（阿里雲伺服器：Ubuntu 16.04）

點贊功能模組-獲取使用者詳情與點贊過的歷史文章
2020-10-21
使用puppeteer爬取掘金收藏數超過50的所有面試文章，整理成兩張思維導圖。
2018-07-24
面試
redis系列：通過文章點贊排名案例學習sortedset命令
2018-07-27
Redis
新手爬蟲教程：Python爬取知乎文章中的圖片
2019-01-17
爬蟲Python
http獲取get引數過濾
2021-03-01
HTTP
富貴教你用PHP爬取掘金文章
2018-12-02
PHP
python 爬蟲爬取 learnku 精華文章
2020-04-17
Python爬蟲
爬取網頁文章
2021-09-29
網頁
通過web url獲取檔案資訊
2019-05-11
Web
springboot系列文章之過濾器 vs 攔截器
2018-09-20
Spring Boot過濾器
java web 通過request獲取客戶端IP
2020-09-29
JavaWeb客戶端
爬取部落格園文章
2020-07-31
來通過寫技術文章掙錢
2020-02-07
通過反射獲取上傳檔案方法引數中的檔名
2022-01-11
反射
Python爬蟲新手教程：知乎文章圖片爬取器
2019-07-20
Python爬蟲
如何通過WinDbg獲取方法引數值
2022-06-29
Java爬取先知論壇文章
2020-08-12
Java
Wireshark的捕獲過濾器
2024-02-20
過濾器
通過用shellcode獲取shell
2020-10-08
【爬蟲】利用Python爬蟲爬取小麥苗itpub部落格的所有文章的連線地址（1）
2018-12-26
爬蟲Python
分享運維優質文章，得掘金大禮包啦~
2018-07-17
運維
協同過濾筆記
2024-04-07
筆記
select通過onchange獲取每次改變的值
2020-11-13
【爬蟲】利用Python爬蟲爬取小麥苗itpub部落格的所有文章的連線地址並寫入Excel中（2）
2018-12-27
爬蟲PythonExcel
C#通過反射獲取類中的方法和引數個數，反射呼叫方法帶引數
2018-05-06
C#反射
協同過濾在推薦系統中的應用
2020-10-30
vue實現對文章列表的點贊
2020-05-24
Vue
Gson通過藉助TypeToken獲取泛型引數的型別的方法
2018-03-22
泛型型別
開通了掘金文章
2019-11-25
Grails通過sessionId獲取session物件
2019-02-22
AISession物件
JavaScript 通過class獲取元素物件
2019-05-16
JavaScript物件
Python 爬取 "王者榮耀.英雄桌布" 過程中的矛和盾
2022-03-05
Python
JavaMap通過key或者value過濾
2019-05-13
Java
爬取微信公眾號文章工具
2021-03-31
在Spring boot中通過ApplicationContext獲取bean失敗
2018-12-31
Spring BootAPPContextBean
使用 PHP 的 Filter 函式（過濾器）高效、安全地獲取請求引數
2018-07-09
PHPFilter函式過濾器
python爬蟲---網頁爬蟲，圖片爬蟲，文章爬蟲，Python爬蟲爬取新聞網站新聞
2019-01-04
Python爬蟲網頁網站
過濾器中獲取form表單或url請求資料
2018-04-24
過濾器ORM
看完這篇關於MVVM的文章，面試通過率提升了80%
2018-05-14
MVVM面試

通過文章獲得的贊同數爬取、過濾“掘金”中的文章（python Web）

1. 專案結構

2. app.py

3. 下載並解析資料

4. 爬取器

完成

相關文章