一個實現批量抓取淘女郎寫真圖片的爬蟲

青衫無名發表於2018-03-14

淘女郎,也被很多人稱作“網路模特”,就是專門給淘寶、天貓等線上商家拍攝圖片的平面模特。

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

我們將用Python3和Selenium Webdriver抓取每一個美眉的個人主頁內的寫真圖片,把每一個美眉的寫真圖片按照資料夾儲存到本地。

先說一下網頁爬取的一般步驟:

1.檢視目標網站頁面的原始碼,找到需要爬取的內容 
2.用正則或其他如xpath/bs4的工具獲取爬取內容 
3.寫出完整的python程式碼,實現爬取過程

檢視網站原始碼,火狐瀏覽器右鍵-檢視原始碼即可獲取

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

程式碼編寫的關鍵步驟:

①需要用到的模組

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

②解析目標網頁的 Html 原始碼
bsObj = BeautifulSoup(driver.page_source, parser)

③用正規表示式獲取美女圖片
imagesUrl = re.findall(`//gtd.alicdn.com/sns_logo.*.jpg`,driver.page_source)

④解析出個人主頁地址等資訊
girlsUrl = bsObj.find_all("a",{"href":re.compile("//.*.htm?(userId=)d*")})

⑤獲取所有美女的圖片url
girlsHURL = [(`http:` + i[`href`]) for i in girlsUrl]

⑥判斷路徑資料夾是否建立,如果未建立則建立資料夾儲存圖片


def mkdir(path):

    # 判斷路徑是否存在

    isExists = os.path.exists(path)

    # 判斷結果

    if not isExists:

        # 如果不存在則建立目錄

        print("    [*]新建了資料夾", path)

        # 建立目錄操作函式

        os.makedirs(path)

    else:

        # 如果目錄存在則不建立,並提示目錄已存在

        print(`    [+]資料夾`, path, `已建立`)





 if __name__ == `__main__`:

    if not os.path.exists(outputDir):

        os.makedirs(outputDir)

    main()

Python執行檔案後抓取的效果如下圖所示:

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy

原文釋出時間為:2016-11-01
本文來自雲棲社群合作伙伴“Python中文社群”,瞭解相關資訊可以關注“Python中文社群”微信公眾號


相關文章