Python小白的爬蟲問題與解決(含程式碼)
因為上一篇文章沒辦法放程式碼,所以重新發一次
2018/5/7
看到作者發的程式碼很簡單,嗯,適合我這個新手+懶人!但是,問題沒有那麼簡單!
原文地址:https://www.jianshu.com/p/ea0b56e3bd86
data:image/s3,"s3://crabby-images/a9141/a91414fe017042b3461b7e1bf2ccc7ab8482d3ab" alt="9279273-9f07eccabd2b9d0d"
抓取1頁影評,print內容出錯
data:image/s3,"s3://crabby-images/da3b9/da3b9ee1bbabd132be15871a672da3e21b71d22f" alt="9279273-f37cd49b3f8faa15"
抓取結果編碼出錯,存在score未取到的情況
Python版本:2.7.13
2018/5/8
data:image/s3,"s3://crabby-images/32ecf/32ecf0adc5b51bd7804a2b6cb891586d81b3cedb" alt="9279273-3b58afe437c03aed"
print同時列印2個結果時,文字編碼錯誤
data:image/s3,"s3://crabby-images/1d238/1d2388c24399f51b9dace6dd29ead09bc3fe7545" alt="9279273-5d5beb944a0cd99e"
print結果參考,求大神告知原因
data:image/s3,"s3://crabby-images/65b54/65b545de7b46471916d80bcaa5ad6f0e297f0160" alt="9279273-97c6445a75c3f7d6"
獲取使用者名稱程式碼,xpath內容待學習
data:image/s3,"s3://crabby-images/e39fb/e39fb166db0da82b44f0ad6ced8668cb538ac305" alt="9279273-a7795ee8a67d70b7"
測試結果OK
data:image/s3,"s3://crabby-images/287bc/287bc41d1e6b5ed6c7c042e5c2fc191a7eaa2073" alt="9279273-a30f8fbf43ab5126"
列印全部內容
data:image/s3,"s3://crabby-images/44e3d/44e3da8b22c99245c5a1cf18381f647e0857b71b" alt="9279273-60b46809790c3815"
列印結果OK
5/9
data:image/s3,"s3://crabby-images/c809e/c809eb94920861cecd68989ac926d0a4d8e58d98" alt="9279273-23d0da84ac804521"
檢視列表元素的型別
data:image/s3,"s3://crabby-images/fe4c2/fe4c215d3048f10b904d09437b6a0c1a8f22746a" alt="9279273-5d91c2102e6a8247"
評分獲取程式碼
data:image/s3,"s3://crabby-images/61182/611823ed3a1d6a55095e177517ecdd688e99b4b8" alt="9279273-b4b9968fdd796b78"
原始碼
data:image/s3,"s3://crabby-images/27862/27862fe89732d154c6e815a5090e3fc8ee8a298f" alt="9279273-9daa5e65525ca6c7"
程式碼執行結果,先獲取class屬性儲存為字串,取字串的第8位即所需評分
data:image/s3,"s3://crabby-images/f7211/f721146636d28242825fc33d1cca90247f86b894" alt="9279273-94cc7bbf450c0b15"
列表內容獲取正常
data:image/s3,"s3://crabby-images/5ba59/5ba597575bada5f68a50aef483659cbfa618e15b" alt="9279273-f57f95c3595ac85e"
嘗試寫入CSV出錯,發現name中既有Unicode又有str,絕望!!
參考前輩經驗後,編碼問題得到改善。
連結:https://blog.csdn.net/gyafdxis/article/details/77923516
data:image/s3,"s3://crabby-images/d52cf/d52cfa97f9eb3833c0f03063fe117fcdc6fcb999" alt="9279273-2f8911078cfe4076"
文字能夠正常顯示,但是不在同一個單元格
data:image/s3,"s3://crabby-images/d66a8/d66a8beb0c970c81a86edaae8b089fdb1d15b78b" alt="9279273-296fb23c2623de0d"
萬能百度:.writerow()和writerows()寫入的是list型別,把單個資料變成[]就行。
data:image/s3,"s3://crabby-images/ff1da/ff1dab0d9c0d52e29d39ca0b5315e7ad227d208f" alt="9279273-e04919cbb62450a8"
剛開心一會,又碰到了問題!!我要換Python3(;´д`)ゞ
參考了這位大神(https://www.jianshu.com/p/d1bf2f0bdc51)對資料的儲存方法,終於成功了!!
data:image/s3,"s3://crabby-images/e9b40/e9b4081b674f077c45fdbec1c8c14511ff746e26" alt="9279273-6c3502f4371368e4"
3個元素作為一個列表儲存到大列表中
data:image/s3,"s3://crabby-images/e95f1/e95f157d258cbc9024ae109bd411230986639bfe" alt="9279273-b04e39052ce5bef2"
將列表中的資料依次寫入CSV
data:image/s3,"s3://crabby-images/bdf7d/bdf7d8529d15a8e8adcd0386cd6b7db78c02a0db" alt="9279273-1d30f59a9b09a57c"
終於成功啦!撒花!
5/10
今日任務:把程式碼改為函式
data:image/s3,"s3://crabby-images/29518/295181ab0f861456802ea9e8a9cd9bdc00ec4e18" alt="9279273-affe52542674b837"
這一段程式碼導致程式執行無結果,連print都不行,只能重新處理編碼問題
data:image/s3,"s3://crabby-images/cb0c0/cb0c098e4d75301f824484546da9187889f3f42d" alt="9279273-e0aa1d2da1dacfab"
在經歷了無數次報錯,無數次百度後終於找到了問題的關鍵
data:image/s3,"s3://crabby-images/d52b2/d52b252995cbc15a74f725103bb9826dfbc02f27" alt="9279273-accf44d823f0a78e"
把資料統一為‘str’類,最終執行成功
data:image/s3,"s3://crabby-images/0ca57/0ca57955e4d3622e8bf8d00fe63ca81c9aa4a7c2" alt="9279273-f5e32d0b29ea79a3"
執行中Tqdm出現警告,不知道什麼原因,不過對結果沒有影響
最後修改完成的程式碼
import requests
from lxml import etree
import pandas as pd
import time
import random
from tqdm import tqdm
import csv
import codecs
'''
import sys
reload(sys)
sys.setdefaultencoding('utf8')
'''
data = []
def getyp(page):
url = 'https://movie.douban.com/subject/6390825/comments?start=%d&limit=20&sort=new_score&status=P&percent_type='%(page*20)
response = requests.get(url)
response.encoding = 'utf-8'
#print (response.content)
response = etree.HTML(response.content)
print (url)
for i in range(1,21):#每頁顯示20條評論
name1 = response.xpath('//*[@id="comments"]/div[%d]/div[2]/h3/span[2]/a'%(i))#獲取使用者名稱,儲存為列表形式,每次迴圈,name1中都只有一個元素
score1 = response.xpath('//*[@id="comments"]/div[%d]/div[2]/h3/span[2]/span[2]'%(i))#獲取評分
comment1 = response.xpath('//*[@id="comments"]/div[%d]/div[2]/p'%(i))#獲取影評
if type(name1[0].text) == unicode:
name_element = name1[0].text.encode('utf-8')
else:
name_element = name1[0].text
score_element = score1[0].attrib['class'][7]#獲取class屬性,取第8個字元
if type(comment1[0].text) == unicode:
comment_element = comment1[0].text.encode('utf-8')
else:
comment_element = comment1[0].text
print type(comment_element)
data.append([name_element,score_element,comment_element])
for i in tqdm(range(1,3)):#抓取2頁
getyp(i)
time.sleep(random.uniform(6,9))
with open("DBtest.csv","wb") as f:
f.write(codecs.BOM_UTF8)
writer = csv.writer(f)
writer.writerow(['name','score','comment'])
for k in data:
writer.writerow(k)
相關文章
- python爬蟲爬取網頁中文亂碼問題的解決Python爬蟲網頁
- Python爬蟲程式設計常見問題解決方法Python爬蟲程式設計
- Python爬蟲亂碼問題Python爬蟲
- 爬蟲常見問題及解決方式爬蟲
- 新手小白的爬蟲神器-無程式碼高效爬取資料爬蟲
- Selenium爬蟲遇到超時TimeOut問題的解決方法爬蟲
- 如何利用ip住宅代理解決python爬蟲遇到反爬措施的問題?Python爬蟲
- python爬蟲常見的那點問題!Python爬蟲
- Java爬蟲與Python爬蟲的區別?Java爬蟲Python
- 爬蟲常見錯誤程式碼及解決措施爬蟲
- Python 萬能程式碼模版:爬蟲程式碼篇Python爬蟲
- 小白學 Python 爬蟲(25):爬取股票資訊Python爬蟲
- python爬蟲總是爬不到資料,你需要解決反爬蟲了Python爬蟲
- 手把手教你寫網路爬蟲(8):徹底解決亂碼問題爬蟲
- 使用代理爬蟲出302錯誤程式碼解決方法爬蟲
- Python開發爬蟲專案+程式碼Python爬蟲
- 爬蟲錯誤程式碼如何解決?爬蟲
- 爬蟲ip代理池搭建前需解決的問題及搭建思路爬蟲
- 爬蟲必備工具,掌握它就解決了一半的問題爬蟲
- IPIDEA乾貨|Java爬蟲與Python爬蟲的區別IdeaJava爬蟲Python
- python爬蟲如何爬知乎的話題?Python爬蟲
- 不踩坑的Python爬蟲:Python爬蟲開發與專案實戰,從爬蟲入門 PythonPython爬蟲
- 送給Python小白學習爬蟲的小專案Python爬蟲
- Python爬蟲與Java爬蟲有何區別?Python爬蟲Java
- 解決:如何將Python程式碼打包成exe可執行程式的問題Python行程
- python爬蟲解決趕集網掃碼獲取手機號Python爬蟲
- 徹底解決Python編碼問題Python
- 【Python學習】爬蟲爬蟲爬蟲爬蟲~Python爬蟲
- 手把手教你利用爬蟲爬網頁(Python程式碼)爬蟲網頁Python
- 不用寫程式碼的爬蟲爬蟲
- python爬蟲之多執行緒、多程式+程式碼示例Python爬蟲執行緒
- python解決反爬蟲方法的優缺點對比Python爬蟲
- 爬蟲中經常出現Traceback (most recent call last):問題解決!!!爬蟲AST
- ts程式碼提示很慢問題解決
- 如何爬取視訊的爬蟲程式碼原始碼爬蟲原始碼
- 關於爬蟲工具 colly 的問題爬蟲
- 爬蟲過程中遇到的問題爬蟲
- 爬蟲使用海外HTTP代理時常見的錯誤程式碼及解決方法爬蟲HTTP