網路爬蟲: 從allitebooks.com抓取書籍資訊並從amazon.com抓取價格(3): 根據書籍ISBN碼抓取amazon.com價格...
通過上一篇隨筆的處理,我們已經拿到了書的書名和ISBN碼。(網路爬蟲: 從allitebooks.com抓取書籍資訊並從amazon.com抓取價格(2): 抓取allitebooks.com書籍資訊及ISBN碼)
接下來將通過ISBN碼去amazon.com獲取每本書對應的價格。
一、瞭解需要和分析網站
通過分析amazon.com得知,以ISBN碼作為搜尋關鍵字可查詢到對應的書。
結果頁碼就有這本書的價格,既然價格是以$符號開頭,那就可以通過正規表示式得到價格。

通過正規表示式匹配價格程式碼:
def get_price_amazon(isbn):
base_url = "https://www.amazon.com/s/ref=nb_sb_noss?url=search-alias%3Daps&field-keywords="
url = base_url + str(isbn)
page = urlopen(url)
soup = BeautifulSoup(page, 'lxml')
page.close()
soup = BeautifulSoup(html_content, 'lxml')
price_regexp = re.compile("\$[0-9]+(\.[0-9]{2})?")
price = soup.find(text=price_regexp)
return [isbn, price]
上一篇隨筆中已經得到了所有書籍的ISBN碼,遍歷所有的ISBN碼傳入get_price_amazon()方法即可獲取所有書籍的價格:
def get_all_isbn():
all_isbn = []
with open('isbn.csv', 'rt') as csvfile:
spamreader = csv.reader(csvfile, delimiter=' ', quotechar='|')
for row in spamreader:
all_isbn.append(row[0])
return all_isbn
def run():
qs = []
pool = ThreadPool(processes=10)
book_price_list = []
for isbn in get_all_isbn():
price = get_price_amazon(isbn)
book_price_list.append(price)
執行結果:

二、將兩部分結果資料合併
剛學過資料處理(利用Python進行資料分析 基礎系列隨筆彙總),為了練練手,這裡通過pandas將兩部分資料合併起來:
book_info_data = pd.read_csv('books.csv')
price_data = pd.read_csv('prices.csv')
result = pd.merge(book_info_data, price_data, on='isbn')
result.to_csv('result.csv', index=False, header=True, columns=['isbn', 'title', 'price'])
最終結果:

完整程式碼請移步github:https://github.com/backslash112/book_scraper_python
Beautiful Soup基礎知識:網路爬蟲: 從allitebooks.com抓取書籍資訊並從amazon.com抓取價格(1): 基礎知識Beautiful Soup
我們處於大資料時代,對資料處理感興趣的朋友歡迎檢視另一個系列隨筆:利用Python進行資料分析 基礎系列隨筆彙總
接下來打算學習Scrapy庫,Scrapy是一個採集工具,它可以幫你大幅降低網頁查詢和識別工作,輕鬆採集一個或多個域名的資訊。有興趣的朋友歡迎關注本部落格,也歡迎大家留言進行討論。
相關文章
- TypeScript_抓取酒店價格資料TypeScript
- 50行爬蟲?️抓取並處理圖靈書目爬蟲圖靈
- 爬蟲app資訊抓取之apk反編譯抓取爬蟲APPAPK編譯
- Python爬蟲抓取股票資訊Python爬蟲
- 網路爬蟲之抓取郵箱爬蟲
- 爬蟲抓取網頁資料原理爬蟲網頁
- 爬蟲原理與資料抓取爬蟲
- python簡書資料抓取Python
- 爬蟲技術抓取網站資料方法爬蟲網站
- Python爬蟲教程+書籍分享Python爬蟲
- 網路爬蟲如何獲取IP進行資料抓取爬蟲
- Scrapy爬蟲:實習僧網最新招聘資訊抓取爬蟲
- Python網路爬蟲抓取動態網頁並將資料存入資料庫MYSQLPython爬蟲網頁資料庫MySql
- 爬蟲抓取網頁的詳細流程爬蟲網頁
- 計算機書籍- 網路爬蟲開發實戰計算機爬蟲
- java爬取豆瓣書籍資訊Java
- python爬蟲抓取哈爾濱天氣資訊(靜態爬蟲)Python爬蟲
- 網路爬蟲抓取邊界的法律與技術思考爬蟲
- IPIDEA大盤點,藉助網路爬蟲抓取資料的作用?Idea爬蟲
- 利用Python網路爬蟲抓取網易雲音樂歌詞Python爬蟲
- 如何抓取網頁資訊?網頁
- 2019最新Python爬蟲教程+書籍分享Python爬蟲
- 如何使用代理IP進行資料抓取,PHP爬蟲抓取亞馬遜商品資料PHP爬蟲亞馬遜
- 用Python爬蟲抓取代理IPPython爬蟲
- Python爬蟲二:抓取京東商品列表頁面資訊Python爬蟲
- Python爬蟲抓取知乎所有使用者資訊Python爬蟲
- 爬蟲抓取網路資料時經常遇到的六種問題爬蟲
- python爬蟲練習之爬取豆瓣讀書所有標籤下的書籍資訊Python爬蟲
- Python爬蟲抓取技術的門道Python爬蟲
- 施普林格(Springer)免費書籍Spring
- 入門須知之網路爬蟲的基本流程及抓取策略爬蟲
- 爬蟲利器Pyppeteer的介紹和使用 爬取京東商城書籍資訊爬蟲
- Python爬蟲入門教程 40-100 部落格園Python相關40W部落格抓取 scrapyPython爬蟲
- 如何進行網路抓取?
- Python爬蟲新手教程:手機APP資料抓取 pyspiderPython爬蟲APPIDE
- 讓爬蟲無障礙抓取上千萬APP資料爬蟲APP
- 【Python3網路爬蟲開發實戰】3.4-抓取貓眼電影排行Python爬蟲
- 圖片抓取_千圖網圖片抓取
- 網路爬蟲小偏方:robots.txt快速抓取網站的小竅門爬蟲網站