不會程式設計?來用Excel抓取網路資料
Excel到底有多強大?
能用來畫畫,Excel畫高達
可以賽車遊戲,怎麼用Excel2000玩賽車遊戲
今天我們來介紹用Excel這個人人都有的工具抓取網路資料。
一、抓取一般網頁(以簡書為例)
1. 匯入資料
![3099181-dd4670d4ab50b014.png](https://i.iter01.com/images/f170f1b340ce69c5b0c276dd44076907c2e1fb397e3b2b2b805896245a11bb54.png)
資料→自網站
![3099181-2ed0c82b7749d089.png](https://i.iter01.com/images/199ffdae3f17d612eb58e360ff4799c8d8131d0e32e30b4d6a4a1d007561f3a9.png)
輸入網址→轉到
等待網頁載入完畢之後,點選匯入
匯入之後刪除沒用的資料之後是這樣的
![3099181-248c37b04ed811f2.png](https://i.iter01.com/images/dbe829aad69a7e5d9e067576f2dc4061b2ed63dfdfe7ff48bc4eb0c6303b9e5b.png)
匯入之後的原始資料
2. 處理資料
這個是重點步驟,需要對Excel公式有一定了解。
將行資料批量複製到列
所有資料均在第A列,所以我們現在的工作是將每一篇文章資訊放到同一行,這裡我們是每隔6行(因為抓取的每篇文章資訊佔據了6行)提取一次。
![3099181-eee8f03c060b496d.png](https://i.iter01.com/images/e1004a8be7ccb08c1011d6660098f317d3793e4771d74539f8c2b70cd3d49527.png)
提取第A列中行數為6n-5的單元格為作者資訊放在B列,往右依次類推6n-4、6n-3……分別放在C列、D列……
![3099181-ce79304c2164d372.png](https://i.iter01.com/images/f0e2e3fe583ba219112f8284dad3dd980bdb1020933e9699f7faa725e1603288.png)
轉換結果
這樣除了最後一列,其他的都整理好了。
數值分列
接下來我們來處理最後一列:
(1)因為有些文章沒有專題資訊,為了精準分列,需在純數字單元格前加空格。公式如下圖所示:
![3099181-2591b3bedecca4e7.png](https://i.iter01.com/images/1a8b2ec9734be438804748890f33036d3bede584ad6feda109ccd762a9abcf83.png)
判斷第一個字元是不是數字,如果是,加空格,不是則跳過
(2)按分隔符分列(這裡選擇的分隔符是空格)
不能對含有公式的單元格進行分列,需將公式去掉(複製→選擇性貼上→值和數字格式),點選“資料”→“分列”
![3099181-383db94d1830db34.png](https://i.iter01.com/images/db387020cd4f020629e2bce288faa661ad72bd4c54cddb153052c749efa13657.png)
分列
點選“分隔符號”→”下一步“→“空格”→“下一步”→“完成”
![3099181-e5de2189d6430010.png](https://i.iter01.com/images/90adfd5784c5017c6892c39dc3c21f725642afc9527fd9415570b8abd8348258.png)
按空格分列之後的結果
最後插入標題行,整理如下:
![3099181-7e6bc9187876af24.png](https://i.iter01.com/images/74af9db53c8b6f2df77895916ee563aa8f7feb184a9bbc759931c410888a2f00.png)
大功告成
這樣就可以開始做資料分析了~~~~~~~~~~~
二、抓取特殊網頁(以房產資訊網站為例)
現在的網頁越來越華麗,導致Excel抓取網頁資料的適用範圍越來越窄,那麼我們來介紹一下最適合用Excel抓取的網頁長啥樣呢?往下看
![3099181-2141a2cefc62b5c0.png](https://i.iter01.com/images/38235d86690a6ef345e1d2655b3da929933620defa998eb9c8a03275f9d0a972.png)
含有表格的網頁
像網頁中有這種表格形式的,匯入到Excel之後就不需要做資料處理了,把格式稍微調整一下就可以了。
![3099181-9105c34424f8f77b.png](https://i.iter01.com/images/44eb5ce2ab66f859ad75e4a79317d6b6ce36c8d95ba9df31ccefcb8c052c3bdf.png)
匯入後的結果
相關文章
- 學會XPath,輕鬆抓取網頁資料網頁
- Python 網路資料傳輸協議 TCP 程式設計Python協議TCP程式設計
- 不會git的程式設計師,會不會被鄙視?Git程式設計師
- 程式設計師被懟!HR:對不起,我們不招“精通Excel”的程式設計師程式設計師Excel
- EXCEL竟靠這招碾壓大資料,網友:以前不會用真是瞎了眼了Excel大資料
- 教你不程式設計快速解析 JSON 資料程式設計JSON
- node 抓取api資料匯出為excel表格APIExcel
- 用python抓取智聯招聘資訊並存入excelPythonExcel
- 網際網路資料庫架構設計資料庫架構
- 超級實用的Excel技巧,不會的趕緊get起來Excel
- "無程式碼開發"會不會是未來程式設計的一大趨勢?程式設計
- 2016中國網際網路大會——全域大資料應用論壇震撼來襲!大資料
- 網路安全可程式設計性的資料日誌管理分析程式設計
- 網頁資料抓取之噹噹網網頁
- Python網路爬蟲抓取動態網頁並將資料存入資料庫MYSQLPython爬蟲網頁資料庫MySql
- 網路爬蟲如何獲取IP進行資料抓取爬蟲
- 程式設計師如何實現“網際網路+”10-如何分析網站資料程式設計師網站
- 網路通訊程式設計程式設計
- py網路工具程式設計程式設計
- 不黑程式設計師會死星人程式設計師
- Python併發程式設計:提高網頁抓取效率實踐指南Python程式設計網頁
- python 網路篇(網路程式設計)Python程式設計
- Go Web 程式設計--應用資料庫GoWeb程式設計資料庫
- 網路程式設計之 Udp接收資料程式設計UDP
- [網路程式設計]mqtt概念&資料包程式設計MQQT
- 還怕Web 安全程式設計學不會?來這裡,準沒錯!Web程式設計
- UDP&TCP Linux網路應用程式設計詳解UDPTCPLinux程式設計
- 學習風變程式設計,學會的不僅僅是程式設計程式設計
- 不會填坑的程式設計師不是一個好程式設計師!程式設計師
- 資料來源Parquet之使用程式設計方式載入資料程式設計
- 你還敢說不會做資料分析?做程式設計師必須掌握的資料分析思維!程式設計師
- 爬蟲抓取網頁資料原理爬蟲網頁
- 匿名IP在網路抓取中的應用探索
- IPIDEA大盤點,藉助網路爬蟲抓取資料的作用?Idea爬蟲
- 如何進行網路抓取?
- 網頁抓取如何幫助資料分析?網頁
- 為什麼你還是學不會程式設計程式設計
- 網路程式設計-計算機網路三要素程式設計計算機網路
- 可程式設計網路卡晶片在滴滴雲網路的應用實踐程式設計晶片