Python爬蟲新手教程：Python分析了 7 萬款 App，萬萬沒想到

程式設計師啟航發表於2019-07-29

原文網址 : http://blog.itpub.net/69913713/viewspace-2652101/

摘要：使用 Scrapy 爬取豌豆莢全網 70,000+ App，並進行探索性分析。

寫在前面：若對資料抓取部分不感興趣，可以直接下拉到資料分析部分。

1 分析背景

之前我們使用了 Scrapy 爬取並分析了酷安網 6000+ App，為什麼這篇文章又在講抓 App 呢？

如果你依然在程式設計的世界裡迷茫，可以加入我們的Python學習扣qun：784758214，看看前輩們是如何學習的！交流經驗！

自己是一名高階python開發工程師，從基礎的python指令碼到web開發、爬蟲、django、資料探勘等，零基礎到專案實戰的資料都有整理。送給每一位python的小夥伴！分享一些學習的方法和需要注意的小細節，這裡是python學習者聚集地

因為我喜歡折騰 App，哈哈。當然，主要是因為下面這幾點：

第一、之前抓取的網頁很簡單

在抓取酷安網時，我們使用 for 迴圈，遍歷了幾百頁就完成了所有內容的抓取，非常簡單，但現實往往不會這麼 easy，有時我們要抓的內容會比較龐大，比如抓取整個網站的資料，為了增強爬蟲技能，所以本文選擇了「豌豆莢」這個網站。

目標是：爬取該網站所有分類下的 App 資訊並下載 App 圖示，數量在 70,000 左右，比酷安升了一個數量級。

第二、再次練習使用強大的 Scrapy 框架

之前只是初步地使用了 Scrapy 進行抓取，還沒有充分領會到 Scrapy 有多麼牛逼，所以本文嘗試深入使用 Scrapy，增加隨機 UserAgent、代理 IP 和圖片下載等設定。

第三、對比一下酷安和豌豆莢兩個網站

相信很多人都在使用豌豆莢下載 App，我則使用酷安較多，所以也想比較一下這兩個網站有什麼異同點。

話不多說，下面開始抓取流程。

▌分析目標

首先，我們來了解一下要抓取的目標網頁是什麼樣的。

可以看到該網站上的 App 分成了很多類，包括：「應用播放」、「系統工具」等，一共有 14 個大類別，每個大類下又細分了多個小類，例如，影音播放下包括：「視訊」、「直播」等。

點選「視訊」進入第二級子類頁面，可以看到每款 App 的部分資訊，包括：圖示、名稱、安裝數量、體積、評論等。

接著，我們可以再進入第三級頁面，也就是每款 App 的詳情頁，可以看到多了下載數、好評率、評論數這幾樣引數，抓取思路和第二級頁面大同小異，同時為了減小網站壓力，所以 App 詳情頁就不抓取了。

image

所以，這是一個分類多級頁面的抓取問題，依次抓取每一個大類下的全部子類資料。

學會了這種抓取思路，很多網站我們都可以去抓，比如很多人愛爬的「豆瓣電影」也是這樣的結構。

▌分析內容

資料抓取完成後，本文主要是對分型別資料的進行簡單的探索性分析，包括這麼幾個方面：

下載量最多 / 最少的 App 總排名
下載量最多 / 最少的 App 分類 / 子分類排名
App 下載量區間分佈
App 名稱重名的有多少
和酷安 App 進行對比

▌分析工具

Python
Scrapy
MongoDB
Pyecharts
Matplotlib

2 資料抓取

▌網站分析

我們剛才已經初步對網站進行了分析，大致思路可以分為兩步，首先是提取所有子類的 URL 連結，然後分別抓取每個 URL 下的 App 資訊就行了。

可以看到，子類的 URL 是由兩個數字構成，前面的數字表示分類編號，後面的數字表示子分類編號，得到了這兩個編號，就可以抓取該分類下的所有 App 資訊，那麼怎麼獲取這兩個數值程式碼呢？

回到分類頁面，定位檢視資訊，可以看到分類資訊都包裹在每個 li 節點中，子分類 URL 則又在子節點 a 的 href 屬性中，大分類一共有 14 個，子分類一共有 88 個。

到這兒，思路就很清晰了，我們可以用 CSS 提取出全部子分類的 URL，然後分別抓取所需資訊即可。

另外還需注意一點，該網站的首頁資訊是靜態載入的，從第 2 頁開始是採用了 Ajax 動態載入，URL 不同，需要分別進行解析提取。

▌Scrapy抓取

我們要爬取兩部分內容，一是 APP 的資料資訊，包括前面所說的：名稱、安裝數量、體積、評論等，二是下載每款 App 的圖示，分資料夾進行存放。

由於該網站有一定的反爬措施，所以我們需要新增隨機 UA 和代理 IP

這裡隨機 UA 使用 **scrapy-fake-useragent **庫，一行程式碼就能搞定，代理 IP 直接上阿布雲付費代理，幾塊錢搞定簡單省事。

下面，就直接上程式碼了。

items.py

 1import scrapy 2 3class WandoujiaItem(scrapy.Item): 4    cate_name = scrapy.Field() #分類名 5    child_cate_name = scrapy.Field() #分類編號 6    app_name = scrapy.Field()   # 子分類名 7    install = scrapy.Field()    # 子分類編號 8    volume = scrapy.Field()     # 體積 9    comment = scrapy.Field()    # 評論10    icon_url = scrapy.Field()   # 圖示url
Python資源分享qun 784758214 ,內有安裝包，PDF，學習視訊，這裡是Python學習者的聚集地，零基礎，進階，都歡迎

middles.py

中介軟體主要用於設定代理 IP。

 1import base64 2proxyServer = "http://http-dyn.abuyun.com:9020" 3proxyUser = "你的資訊" 4proxyPass = "你的資訊" 5 6proxyAuth = "Basic " + base64.urlsafe_b64encode(bytes((proxyUser + ":" + proxyPass), "ascii")).decode("utf8") 7class AbuyunProxyMiddleware(object): 8    def process_request(self, request, spider): 9        request.meta["proxy"] = proxyServer10        request.headers["Proxy-Authorization"] = proxyAuth11        logging.debug('Using Proxy:%s'%proxyServer)

pipelines.py

該檔案用於儲存資料到 MongoDB 和下載圖示到分類資料夾中。

儲存到 MongoDB：

 1MongoDB 儲存 2class MongoPipeline(object): 3    def __init__(self,mongo_url,mongo_db): 4        self.mongo_url = mongo_url 5        self.mongo_db = mongo_db 6 7    @classmethod 8    def from_crawler(cls,crawler): 9        return cls(10            mongo_url = crawler.settings.get('MONGO_URL'),11            mongo_db = crawler.settings.get('MONGO_DB')12        )1314    def open_spider(self,spider):15        self.client = pymongo.MongoClient(self.mongo_url)16        self.db = self.client[self.mongo_db]1718    def process_item(self,item,spider):19        name = item.__class__.__name__20        # self.db[name].insert(dict(item))21        self.db[name].update_one(item, {'$set': item}, upsert=True)22        return item2324    def close_spider(self,spider):25        self.client.close()

按資料夾下載圖示：

 1# 分資料夾下載 2class ImagedownloadPipeline(ImagesPipeline): 3    def get_media_requests(self,item,info): 4        if item['icon_url']: 5            yield scrapy.Request(item['icon_url'],meta={'item':item}) 6 7    def file_path(self, request, response=None, info=None): 8        name = request.meta['item']['app_name'] 9        cate_name = request.meta['item']['cate_name']10        child_cate_name = request.meta['item']['child_cate_name']1112        path1 = r'/wandoujia/%s/%s' %(cate_name,child_cate_name)13        path = r'{}\{}.{}'.format(path1, name, 'jpg')14        return path1516    def item_completed(self,results,item,info):17        image_path = [x['path'] for ok,x in results if ok]18        if not image_path:19            raise DropItem('Item contains no images')20        return item

settings.py

 1BOT_NAME = 'wandoujia' 2SPIDER_MODULES = ['wandoujia.spiders'] 3NEWSPIDER_MODULE = 'wandoujia.spiders' 4 5MONGO_URL = 'localhost' 6MONGO_DB = 'wandoujia' 7 8# 是否遵循機器人規則 9ROBOTSTXT_OBEY = False10# 下載設定延遲 由於買的阿布雲一秒只能請求5次，所以每個請求設定了 0.2s延遲11DOWNLOAD_DELAY = 0.21213DOWNLOADER_MIDDLEWARES = {14    'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': None,15    'scrapy_fake_useragent.middleware.RandomUserAgentMiddleware': 100, # 隨機UA16    'wandoujia.middlewares.AbuyunProxyMiddleware': 200 # 阿布雲代理17    ）1819ITEM_PIPELINES = {20   'wandoujia.pipelines.MongoPipeline': 300,21   'wandoujia.pipelines.ImagedownloadPipeline': 400,22}2324# URL不去重25DUPEFILTER_CLASS = 'scrapy.dupefilters.BaseDupeFilter'

wandou.py

主程式這裡列出關鍵的部分：

 1def __init__(self): 2        self.cate_url = 'https://www.wandoujia.com/category/app' 3        # 子分類首頁url 4        self.url = 'https://www.wandoujia.com/category/' 5        # 子分類 ajax請求頁url 6        self.ajax_url = 'https://www.wandoujia.com/wdjweb/api/category/more?' 7        # 例項化分類標籤 8        self.wandou_category = Get_category() 9def start_requests(self):10        yield scrapy.Request(self.cate_url,callback=self.get_category)1112def get_category(self,response):    13        cate_content = self.wandou_category.parse_category(response)14        # ...

這裡，首先定義幾個 URL，包括：分類頁面、子分類首頁、子分類 AJAX 頁，也就是第 2 頁開始的 URL，然後又定義了一個類 Get_category() 專門用於提取全部的子分類 URL，稍後我們將展開該類的程式碼。

程式從 start_requests 開始執行，解析首頁獲得響應，呼叫 get_category() 方法，然後使用 Get_category() 類中的 parse_category() 方法提取出所有 URL，具體程式碼如下：

 1class Get_category(): 2    def parse_category(self, response): 3        category = response.css('.parent-cate') 4        data = [{ 5            'cate_name': item.css('.cate-link::text').extract_first(), 6            'cate_code': self.get_category_code(item), 7            'child_cate_codes': self.get_child_category(item), 8        } for item in category] 9        return data1011    # 獲取所有主分類標籤數值程式碼12    def get_category_code(self, item):13        cate_url = item.css('.cate-link::attr("href")').extract_first()14        pattern = re.compile(r'.*/(\d+)')  # 提取主類標籤程式碼15        cate_code = re.search(pattern, cate_url)16        return cate_code.group(1)1718    # 獲取所有子分類名稱和編碼19    def get_child_category(self, item):20        child_cate = item.css('.child-cate a')21        child_cate_url = [{22            'child_cate_name': child.css('::text').extract_first(),23            'child_cate_code': self.get_child_category_code(child)24        } for child in child_cate]25        return child_cate_url2627    # 正則提取子分類編碼28    def get_child_category_code(self, child):29        child_cate_url = child.css('::attr("href")').extract_first()30        pattern = re.compile(r'.*_(\d+)')  # 提取小類標籤編號31        child_cate_code = re.search(pattern, child_cate_url)32        return child_cate_code.group(1)
Python資源分享qun 784758214 ,內有安裝包，PDF，學習視訊，這裡是Python學習者的聚集地，零基礎，進階，都歡迎

這裡，除了分類名稱 cate_name 可以很方便地直接提取出來，分類編碼和子分類的子分類的名稱和編碼，我們使用了 get_category_code() 等三個方法進行提取。提取方法使用了 CSS 和正規表示式，比較簡單。

最終提取的分類名稱和編碼結果如下，利用這些編碼，我們就可以構造 URL 請求開始提取每個子分類下的 App 資訊了。

 1{'cate_name': '影音播放', 'cate_code': '5029', 'child_cate_codes': [ 2    {'child_cate_name': '視訊', 'child_cate_code': '716'},  3    {'child_cate_name': '直播', 'child_cate_code': '1006'},  4    ... 5    ]},  6{'cate_name': '系統工具', 'cate_code': '5018', 'child_cate_codes': [ 7    {'child_cate_name': 'WiFi', 'child_cate_code': '895'},  8    {'child_cate_name': '瀏覽器', 'child_cate_code': '599'},  9    ...10    ]}, 11...

接著前面的 get_category() 繼續往下寫，提取 App 的資訊：

 1def get_category(self,response):     2        cate_content = self.wandou_category.parse_category(response) 3        # ... 4        for item in cate_content: 5            child_cate = item['child_cate_codes'] 6            for cate in child_cate: 7                cate_code = item['cate_code'] 8                cate_name = item['cate_name'] 9                child_cate_code = cate['child_cate_code']10                child_cate_name = cate['child_cate_name']1112                page = 1 # 設定爬取起始頁數13                if page == 1:14                    # 構造首頁url15                    category_url = '{}{}_{}' .format(self.url, cate_code, child_cate_code)16                else:17                    params = {18                        'catId': cate_code,  # 類別19                        'subCatId': child_cate_code,  # 子類別20                        'page': page,21                        }22                    category_url = self.ajax_url + urlencode(params)23                dict = {'page':page,'cate_name':cate_name,'cate_code':cate_code,'child_cate_name':child_cate_name,'child_cate_code':child_cate_code}24                yield scrapy.Request(category_url,callback=self.parse,meta=dict)

這裡，依次提取出全部的分類名稱和編碼，用於構造請求的 URL。

由於首頁的 URL 和第 2 頁開始的 URL 形式不同，所以使用了 if 語句分別進行構造。接下來，請求該 URL 然後呼叫 self.parse() 方法進行解析，這裡使用了 meta 引數用於傳遞相關引數。

 1def parse(self, response): 2        if len(response.body) >= 100:  # 判斷該頁是否爬完，數值定為100是因為無內容時長度是87 3            page = response.meta['page'] 4            cate_name = response.meta['cate_name'] 5            cate_code = response.meta['cate_code'] 6            child_cate_name = response.meta['child_cate_name'] 7            child_cate_code = response.meta['child_cate_code'] 8 9            if page == 1:10                contents = response11            else:12                jsonresponse = json.loads(response.body_as_unicode())13                contents = jsonresponse['data']['content']14                # response 是json,json內容是html，html 為文字不能直接使用.css 提取，要先轉換15                contents = scrapy.Selector(text=contents, type="html")1617            contents = contents.css('.card')18            for content in contents:19                # num += 120                item = WandoujiaItem()21                item['cate_name'] = cate_name22                item['child_cate_name'] = child_cate_name23                item['app_name'] = self.clean_name(content.css('.name::text').extract_first())  24                item['install'] = content.css('.install-count::text').extract_first()25                item['volume'] = content.css('.meta span:last-child::text').extract_first()26                item['comment'] = content.css('.comment::text').extract_first().strip()27                item['icon_url'] = self.get_icon_url(content.css('.icon-wrap a img'),page)28                yield item2930            # 遞迴爬下一頁31            page += 132            params = {33                    'catId': cate_code,  # 大類別34                    'subCatId': child_cate_code,  # 小類別35                    'page': page,36                    }37            ajax_url = self.ajax_url + urlencode(params)38            dict = {'page':page,'cate_name':cate_name,'cate_code':cate_code,'child_cate_name':child_cate_name,'child_cate_code':child_cate_code}39            yield scrapy.Request(ajax_url,callback=self.parse,meta=dict)

最後，parse() 方法用來解析提取最終我們需要的 App 名稱、安裝量等資訊，解析完成一頁後，page 進行遞增，然後重複呼叫 parse() 方法迴圈解析，直到解析完全部分類的最後一頁。

最終，幾個小時後，我們就可以完成全部 App 資訊的抓取，我這裡得到 73,755 條資訊和 72,150 個圖示，兩個數值不一樣是因為有些 App 只有資訊沒有圖示。

圖示下載：

下面將對提取的資訊，進行簡單的探索性分析。

3 資料分析

▌總體情況

首先來看一下 App 的安裝量情況，畢竟 70000 多款 App，自然很感興趣哪些 App 使用地最多，哪些又使用地最少。

程式碼實現如下：

 1plt.style.use('ggplot') 2colors = '#6D6D6D' #字型顏色 3colorline = '#63AB47'  #紅色CC2824  #豌豆莢綠 4fontsize_title = 20 5fontsize_text = 10 6 7# 下載量總排名 8def analysis_maxmin(data): 9    data_max = (data[:10]).sort_values(by='install_count')10    data_max['install_count'] = (data_max['install_count'] / 100000000).round(1)11    data_max.plot.barh(x='app_name',y='install_count',color=colorline)12    for y, x in enumerate(list((data_max['install_count']))):13        plt.text(x + 0.1, y - 0.08, '%s' %14                 round(x, 1), ha='center', color=colors)1516    plt.title('安裝量最多的 10 款 App ?',color=colors)17    plt.xlabel('下載量(億次)')18    plt.ylabel('App')19    plt.tight_layout()20    # plt.savefig('安裝量最多的App.png',dpi=200)21    plt.show()

看了上圖，有兩個「沒想到」：

排名第一的居然是一款手機管理軟體

對豌豆莢網上的這個第一名感到意外，一是、好奇大家都那麼愛手機清理或者怕中毒麼？畢竟，我自己的手機都「裸奔」了好些年；二是、第一名居然不是鵝廠的其他產品，比如：微信或者QQ。
榜單放眼望去，以為會出現的沒有出現，沒有想到的卻出現了

前十名中，居然出現了書旗小說、印客這些比較少聽過的名字，而國民 App 微信、支付寶等甚至都沒有出現在這個榜單中。

帶著疑問和好奇，分別找到了「騰訊手機管家」和「微信」兩款 App 的主頁：

騰訊手機管家下載和安裝量：

微信下載和安裝量：

這是什麼情況？？？

騰訊管家 3 億多的下載量等同於安裝量，而微信 20 多億的下載量，只有區區一千多萬的安裝量，兩組資料對比，大致反映了兩個問題：

要麼是騰訊管家的下載量實際並沒有那麼多
要麼是微信的下載量寫少了

不管是哪個問題，都反映了一個問題：該網站做得不夠走心啊。

為了證明這個觀點，將前十名的安裝量和下載量都作了對比，發現很多 App 的安裝量和下載量是一樣的，也就是說：這些 App 的實際安裝量並沒有那麼多，而如果這樣的話，那麼這份榜單就有很大水分了。

難道，辛辛苦苦爬了那麼久，就得到這樣的結果？

不死心，接著再看看安裝量最少的 App 是什麼情況，這裡找出了其中最少的 10 款：

掃了一眼，更加沒想到了：

「QQ 音樂」竟然是倒數第一，只有 3 次安裝量！

這和剛剛上市、市值千億的 QQ 音樂是同一款產品?

再次核實了一下：

沒有看錯，是寫著 3人安裝!

這是已經不走心到什麼程度了？這個安裝量，鵝廠還能「用心做好音樂」?

說實話，到這兒已經不想再往下分析下去了，擔心爬扒出更多沒想到的東西，不過辛苦爬了這麼久，還是再往下看看吧。

看了首尾，我們再看看整體，瞭解一下全部 App 的安裝數量分佈，這裡去除了有很大水分的前十名 App。

很驚訝地發現，竟然有多達 67,195 款，佔總數的 94% 的 App 的安裝量不足 1萬!

如果這個網站的所有資料都是真的話，那麼上面排名第一的手機管家，它一款就差不多抵得上這 6 萬多款 App 的安裝量!

對於多數 App 開發者，只能說：現實很殘酷，辛辛苦苦開發出來的 App，使用者不超過 1萬人的可能性高達近 95% 。

程式碼實現如下：

 1def analysis_distribution(data): 2    data = data.loc[10:,:] 3    data['install_count'] = data['install_count'].apply(lambda x:x/10000) 4    bins = [0,1,10,100,1000,10000] 5    group_names = ['1萬以下','1-10萬','10-100萬','100-1000萬','1000萬-1億'] 6    cats = pd.cut(data['install_count'],bins,labels=group_names) 7    cats = pd.value_counts(cats) 8    bar = Bar('App 下載數量分佈','高達 94% 的 App 下載量低於1萬') 9    bar.use_theme('macarons')10    bar.add(11        'App 數量',12        list(cats.index),13        list(cats.values),14        is_label_show = True,15        xaxis_interval = 0,16        is_splitline_show = 0,17        )18    bar.render(path='App下載數量分佈.png',pixel_ration=1)

▌分類情況

下面，我們來看看各分類下的 App 情況，不再看安裝量，而看數量，以排出干擾。

可以看到 14 個大分類中，每個分類的 App 數量差距都不大，數量最多的「生活休閒」是「攝影影象」的兩倍多一點。

接著，我們進一步看看 88 個子分類的 App 數量情況，篩選出數量最多和最少的 10 個子類：

可以發現兩點有意思的現象：

「收音機」類別 App 數量最多，達到 1,300 多款

這個很意外，當下收音機完全可以說是個老古董了，居然還有那麼人去開發。
App 子類數量差距較大

最多的「收音機」是最少的「動態桌布」近 20 倍，如果我是一個 App 開發者，那我更願意去嘗試開發些小眾類的 App，競爭小一點，比如：「背單詞」、「小兒百科」這些。

看完了總體和分類情況，突然想到一個問題：這麼多 App，有沒有重名的呢？

驚奇地發現，叫「一鍵鎖屏」的 App 多達 40 款，這個功能 App 很難再想出別的名字了麼？現在很多手機都支援觸控鎖屏了，比一鍵鎖屏操作更加方便。

接下來，我們簡單對比下豌豆莢和酷安兩個網站的 App 情況。

▌對比酷安

二者最直觀的一個區別是在 App 數量上，豌豆莢擁有絕對的優勢，達到了酷安的十倍之多，那麼我們自然感興趣：

豌豆莢是否包括了酷安上所有的 App ?

如果是，「你有的我都有，你沒有的我也有」，那麼酷安就沒什麼優勢了。統計之後，發現豌豆莢僅包括了 3,018 款，也就是一半左右，剩下的另一半則沒有包括。

這裡面固然存在兩個平臺上 App 名稱不一致的現象，但更有理由相信酷安很多小眾的精品 App 是獨有的，豌豆莢裡並沒有。

程式碼實現如下：

 1include = data3.shape[0] 2notinclude = data2.shape[0] - data3.shape[0] 3sizes= [include,notinclude] 4labels = [u'包含',u'不包含'] 5explode = [0,0.05] 6plt.pie( 7    sizes, 8    autopct = '%.1f%%', 9    labels = labels,10    colors = [colorline,'#7FC161'], # 豌豆莢綠11    shadow = False,12    startangle = 90,13    explode = explode,14    textprops = {'fontsize':14,'color':colors}15)16plt.title('豌豆莢僅包括酷安上一半的 App 數量',color=colorline,fontsize=16)17plt.axis('equal')18plt.axis('off')19plt.tight_layout()20plt.savefig('包含不保包含對比.png',dpi=200)21plt.show()
Python資源分享qun 784758214 ,內有安裝包，PDF，學習視訊，這裡是Python學習者的聚集地，零基礎，進階，都歡迎

接下來，我們看看所包含的 App 當中，在兩個平臺上的下載量是怎麼樣的：

可以看到，兩個平臺上 App 下載數量差距還是很明顯。

最後，我面再看看豌豆莢上沒有包括哪些APP：

發現很多神器都沒有包括，比如：RE、綠色守護、一個木函等等。豌豆莢和酷安的對比就到這裡，如果用一句話來總結，我可能會說：

豌豆莢太牛逼了， App 數量是酷安的十倍，所以我選酷安。

來自 “ ITPUB部落格 ” ，連結：http://blog.itpub.net/69913713/viewspace-2652101/，如需轉載，請註明出處，否則將追究法律責任。

Python爬蟲新手教程：手機APP資料抓取 pyspider
2019-07-20
Python爬蟲APPIDE
萬萬沒想到！ModelArts與AppCube組CP了
2020-10-10
APP
Python爬蟲新手教程：知乎文章圖片爬取器
2019-07-20
Python爬蟲
新手爬蟲教程：Python爬取知乎文章中的圖片
2019-01-17
爬蟲Python
萬萬沒想到，我的煉丹爐玩壞了
2020-01-09
python爬蟲專案（新手教程）之知乎（requests方式）
2018-06-13
Python爬蟲
Python爬蟲教程-01-爬蟲介紹
2018-09-06
Python爬蟲
python網路爬蟲_Python爬蟲：30個小時搞定Python網路爬蟲視訊教程
2020-10-21
Python爬蟲
python爬蟲實戰教程-Python爬蟲開發實戰教程（微課版）
2020-11-11
Python爬蟲
Python爬蟲入門教程 50-100 Python3爬蟲爬取VIP視訊-Python爬蟲6操作
2019-02-14
Python爬蟲
【問題總結】萬萬沒想到，竟然栽在了List手裡
2019-05-18
Python爬蟲教程+書籍分享
2018-11-29
Python爬蟲
Python爬蟲教程-05-python爬蟲實現百度翻譯
2018-09-06
Python爬蟲
萬萬沒想到——flutter這樣外接紋理
2019-03-04
Flutter
Python爬蟲教程-34-分散式爬蟲介紹
2018-09-06
Python爬蟲分散式
Python爬蟲教程-30-Scrapy 爬蟲框架介紹
2018-09-06
Python爬蟲框架
Python爬蟲新手教程：微醫掛號網醫生資料抓取
2019-07-20
Python爬蟲
萬萬沒想到，騰訊視訊也開始做遊戲了
2020-03-05
遊戲
《Python3網路爬蟲開發實戰》教程||爬蟲教程
2018-11-13
Python爬蟲
【Python學習】爬蟲爬蟲爬蟲爬蟲~
2018-05-03
Python爬蟲
python就是爬蟲嗎-python就是爬蟲嗎
2020-10-29
Python爬蟲
Python爬蟲教程-31-建立 Scrapy 爬蟲框架專案
2018-09-04
Python爬蟲框架
Python爬蟲教程-26-Selenium + PhantomJS
2018-09-06
Python爬蟲JS
[譯] 30 分鐘 Python 爬蟲教程
2018-05-15
Python爬蟲
Python爬蟲教程-02-使用urlopen
2018-08-05
Python爬蟲
Python爬蟲進階之APP逆向(三)
2019-06-01
Python爬蟲APP
萬萬沒想到，學習風變程式設計Python課程還有這個用處
2021-07-12
程式設計Python
Python爬蟲入門教程 48-100 使用mitmdump抓取手機惠農APP-手機APP爬蟲部分
2019-03-12
Python爬蟲MITAPP
python 爬蟲
2024-04-20
Python爬蟲
python爬蟲
2024-06-13
Python爬蟲
Python爬蟲之JS逆向分析技巧
2020-04-17
Python爬蟲JS
Python爬蟲入門教程 61-100 寫個爬蟲碰到反爬了，動手破壞它！
2019-04-22
Python爬蟲
爬蟲程式最佳化要點—附Python爬蟲影片教程
2020-10-15
爬蟲Python
Python爬蟲入門教程導航帖
2019-01-08
Python爬蟲
2019最新Python爬蟲教程+書籍分享
2019-01-06
Python爬蟲
Python爬蟲教程-21-xpath 簡介
2018-09-06
Python爬蟲
Python爬蟲教程-20-xml 簡介
2018-09-06
Python爬蟲XML
Python爬蟲教程-04-response簡介
2018-09-06
Python爬蟲

Python爬蟲新手教程：Python分析了 7 萬款 App，萬萬沒想到

1 分析背景

▌分析目標

▌分析內容

▌分析工具

2 資料抓取

▌網站分析

▌Scrapy抓取

items.py

middles.py

pipelines.py

settings.py

wandou.py

3 資料分析

▌總體情況

▌分類情況

▌對比酷安

相關文章