不會程式設計?來用Excel抓取網路資料

weixin_33785972發表於2017-05-27

Excel到底有多強大?
能用來畫畫,Excel畫高達
可以賽車遊戲,怎麼用Excel2000玩賽車遊戲
今天我們來介紹用Excel這個人人都有的工具抓取網路資料。

一、抓取一般網頁(以簡書為例)

1. 匯入資料

3099181-dd4670d4ab50b014.png
資料→自網站

3099181-2ed0c82b7749d089.png
輸入網址→轉到

等待網頁載入完畢之後,點選匯入
匯入之後刪除沒用的資料之後是這樣的

3099181-248c37b04ed811f2.png
匯入之後的原始資料

2. 處理資料

這個是重點步驟,需要對Excel公式有一定了解。

將行資料批量複製到列

所有資料均在第A列,所以我們現在的工作是將每一篇文章資訊放到同一行,這裡我們是每隔6行(因為抓取的每篇文章資訊佔據了6行)提取一次。

3099181-eee8f03c060b496d.png
提取第A列中行數為6n-5的單元格為作者資訊放在B列,往右依次類推6n-4、6n-3……分別放在C列、D列……

3099181-ce79304c2164d372.png
轉換結果

這樣除了最後一列,其他的都整理好了。

數值分列

接下來我們來處理最後一列:
(1)因為有些文章沒有專題資訊,為了精準分列,需在純數字單元格前加空格。公式如下圖所示:

3099181-2591b3bedecca4e7.png
判斷第一個字元是不是數字,如果是,加空格,不是則跳過

(2)按分隔符分列(這裡選擇的分隔符是空格)
不能對含有公式的單元格進行分列,需將公式去掉(複製→選擇性貼上→值和數字格式),點選“資料”→“分列”

3099181-383db94d1830db34.png
分列

點選“分隔符號”→”下一步“→“空格”→“下一步”→“完成”

3099181-e5de2189d6430010.png
按空格分列之後的結果

最後插入標題行,整理如下:

3099181-7e6bc9187876af24.png
大功告成

這樣就可以開始做資料分析了~~~~~~~~~~~

二、抓取特殊網頁(以房產資訊網站為例)

現在的網頁越來越華麗,導致Excel抓取網頁資料的適用範圍越來越窄,那麼我們來介紹一下最適合用Excel抓取的網頁長啥樣呢?往下看

3099181-2141a2cefc62b5c0.png
含有表格的網頁

像網頁中有這種表格形式的,匯入到Excel之後就不需要做資料處理了,把格式稍微調整一下就可以了。


3099181-9105c34424f8f77b.png
匯入後的結果

相關文章