網路爬蟲: 從allitebooks.com抓取書籍資訊並從amazon.com抓取價格(3): 根據書籍ISBN碼抓取amazon.com價格...

weixin_34290000發表於2016-08-19

原文網址 : https://blog.csdn.net/weixin_34290000/article/details/86914665

通過上一篇隨筆的處理，我們已經拿到了書的書名和ISBN碼。(網路爬蟲: 從allitebooks.com抓取書籍資訊並從amazon.com抓取價格(2): 抓取allitebooks.com書籍資訊及ISBN碼)
接下來將通過ISBN碼去amazon.com獲取每本書對應的價格。

一、瞭解需要和分析網站

通過分析amazon.com得知，以ISBN碼作為搜尋關鍵字可查詢到對應的書。
結果頁碼就有這本書的價格，既然價格是以$符號開頭，那就可以通過正規表示式得到價格。

通過正規表示式匹配價格程式碼：

def get_price_amazon(isbn):
    base_url = "https://www.amazon.com/s/ref=nb_sb_noss?url=search-alias%3Daps&field-keywords="
    url = base_url + str(isbn)
    page = urlopen(url)
    soup = BeautifulSoup(page, 'lxml')
    page.close()
    soup = BeautifulSoup(html_content, 'lxml')
    price_regexp = re.compile("\$[0-9]+(\.[0-9]{2})?")
    price = soup.find(text=price_regexp)
    return [isbn, price]

上一篇隨筆中已經得到了所有書籍的ISBN碼，遍歷所有的ISBN碼傳入get_price_amazon()方法即可獲取所有書籍的價格：

def get_all_isbn():
    all_isbn = []
    with open('isbn.csv', 'rt') as csvfile:
        spamreader = csv.reader(csvfile, delimiter=' ', quotechar='|')
        for row in spamreader:
            all_isbn.append(row[0])
    return all_isbn

def run():
    qs = []
    pool = ThreadPool(processes=10)
    book_price_list = []
    for isbn in get_all_isbn():
        price = get_price_amazon(isbn)
        book_price_list.append(price)

執行結果：

二、將兩部分結果資料合併

剛學過資料處理（利用Python進行資料分析基礎系列隨筆彙總），為了練練手，這裡通過pandas將兩部分資料合併起來：

book_info_data = pd.read_csv('books.csv')
price_data = pd.read_csv('prices.csv')
result = pd.merge(book_info_data, price_data, on='isbn')
result.to_csv('result.csv', index=False, header=True, columns=['isbn', 'title', 'price'])

最終結果：

完整程式碼請移步github：https://github.com/backslash112/book_scraper_python

Beautiful Soup基礎知識：網路爬蟲: 從allitebooks.com抓取書籍資訊並從amazon.com抓取價格(1): 基礎知識Beautiful Soup
我們處於大資料時代，對資料處理感興趣的朋友歡迎檢視另一個系列隨筆：利用Python進行資料分析基礎系列隨筆彙總

接下來打算學習Scrapy庫，Scrapy是一個採集工具，它可以幫你大幅降低網頁查詢和識別工作，輕鬆採集一個或多個域名的資訊。有興趣的朋友歡迎關注本部落格，也歡迎大家留言進行討論。

TypeScript_抓取酒店價格資料
2023-11-07
TypeScript
50行爬蟲?️抓取並處理圖靈書目
2019-02-25
爬蟲圖靈
爬蟲app資訊抓取之apk反編譯抓取
2019-05-10
爬蟲APPAPK編譯
Python爬蟲抓取股票資訊
2021-01-03
Python爬蟲
網路爬蟲之抓取郵箱
2018-06-18
爬蟲
爬蟲抓取網頁資料原理
2021-12-06
爬蟲網頁
爬蟲原理與資料抓取
2020-12-17
爬蟲
python簡書資料抓取
2018-08-25
Python
爬蟲技術抓取網站資料方法
2021-09-11
爬蟲網站
Python爬蟲教程+書籍分享
2018-11-29
Python爬蟲
網路爬蟲如何獲取IP進行資料抓取
2022-05-19
爬蟲
Scrapy爬蟲：實習僧網最新招聘資訊抓取
2021-09-09
爬蟲
Python網路爬蟲抓取動態網頁並將資料存入資料庫MYSQL
2019-01-04
Python爬蟲網頁資料庫MySql
爬蟲抓取網頁的詳細流程
2023-11-28
爬蟲網頁
計算機書籍- 網路爬蟲開發實戰
2019-03-28
計算機爬蟲
java爬取豆瓣書籍資訊
2019-01-03
Java
python爬蟲抓取哈爾濱天氣資訊（靜態爬蟲）
2020-04-05
Python爬蟲
網路爬蟲抓取邊界的法律與技術思考
2019-11-19
爬蟲
IPIDEA大盤點，藉助網路爬蟲抓取資料的作用？
2023-04-27
Idea爬蟲
利用Python網路爬蟲抓取網易雲音樂歌詞
2018-05-06
Python爬蟲
如何抓取網頁資訊？
2022-06-02
網頁
2019最新Python爬蟲教程+書籍分享
2019-01-06
Python爬蟲
如何使用代理IP進行資料抓取，PHP爬蟲抓取亞馬遜商品資料
2019-05-15
PHP爬蟲亞馬遜
用Python爬蟲抓取代理IP
2019-04-17
Python爬蟲
Python爬蟲二：抓取京東商品列表頁面資訊
2018-06-26
Python爬蟲
Python爬蟲抓取知乎所有使用者資訊
2018-03-14
Python爬蟲
爬蟲抓取網路資料時經常遇到的六種問題
2022-06-11
爬蟲
python爬蟲練習之爬取豆瓣讀書所有標籤下的書籍資訊
2018-07-23
Python爬蟲
Python爬蟲抓取技術的門道
2019-09-21
Python爬蟲
施普林格（Springer）免費書籍
2020-11-06
Spring
入門須知之網路爬蟲的基本流程及抓取策略
2018-11-10
爬蟲
爬蟲利器Pyppeteer的介紹和使用爬取京東商城書籍資訊
2020-09-22
爬蟲
Python爬蟲入門教程 40-100 部落格園Python相關40W部落格抓取 scrapy
2019-02-25
Python爬蟲
如何進行網路抓取？
2022-02-09
Python爬蟲新手教程：手機APP資料抓取 pyspider
2019-07-20
Python爬蟲APPIDE
讓爬蟲無障礙抓取上千萬APP資料
2019-05-16
爬蟲APP
【Python3網路爬蟲開發實戰】3.4-抓取貓眼電影排行
2019-07-04
Python爬蟲
圖片抓取_千圖網圖片抓取
2021-01-13
網路爬蟲小偏方：robots.txt快速抓取網站的小竅門
2019-01-03
爬蟲網站

網路爬蟲: 從allitebooks.com抓取書籍資訊並從amazon.com抓取價格(3): 根據書籍ISBN碼抓取amazon.com價格...

一、瞭解需要和分析網站

通過正規表示式匹配價格程式碼：

二、將兩部分結果資料合併

相關文章