資料採集與融合技術實踐作業三

whj112發表於2024-11-11

第三次實踐報告

這個作業屬於哪個課程 <首頁 - 2024資料採集與融合技術實踐 - 福州大學 - 班級部落格 - 部落格園 (cnblogs.com)>
這個作業要求在哪裡 <作業3 - 作業 - 2024資料採集與融合技術實踐 - 班級部落格 - 部落格園 (cnblogs.com)>
學號 <102202104>

作業①:爬取圖片並儲存到本地

作業程式碼與輸出

使用Scrapy框架爬取了中國氣象網(http://www.weather.com.cn)中的圖片,分別實現了單執行緒和多執行緒的方式。控制了總頁數(學號尾數2位)和總下載圖片數量(尾數後3位)。

截圖:

Gitee資料夾連結:https://gitee.com/wang-hengjie-100/crawl_project


作業②:爬取股票資訊並儲存到MySQL資料庫

使用Scrapy框架和Xpath,爬取了東方財富網(https://www.eastmoney.com/ )的股票相關資訊,並將資料儲存到MySQL資料庫中。包含欄位如股票程式碼、股票名稱、最新報價、漲跌幅等。

截圖:

Gitee資料夾連結:https://gitee.com/wang-hengjie-100/crawl_project


作業③:爬取外匯資料並儲存到MySQL資料庫

爬取中國銀行網(https://www.boc.cn/sourcedb/whpj/)上的外匯資料並儲存到MySQL資料庫,包含匯買價、匯賣價、銀行買賣價等資訊。

截圖:

Gitee資料夾連結:https://gitee.com/wang-hengjie-100/crawl_project


作業心得

作業①:爬取圖片並儲存到本地

在進行這項作業時,我深入瞭解了Scrapy框架的使用,特別是如何控制爬取的數量和限制爬取的範圍。透過實現單執行緒和多執行緒的爬取,我學會了如何透過不同的方式提高爬取效率,同時避免對目標網站造成過多的負擔。圖片下載功能的實現讓我體驗瞭如何處理大規模檔案的儲存問題,並且透過設定資料夾來管理下載的圖片,保持了系統的整潔性。此外,學號尾數的限制讓我更加註重爬取的控制,避免因過度爬取而導致的資源浪費。

作業②:爬取股票資訊並儲存到MySQL資料庫

透過這項作業,我深刻理解了如何使用Scrapy框架結合Xpath進行資料的提取。XPath在選擇和篩選網頁元素時的靈活性給我留下了深刻印象,使得在複雜網頁結構中提取股票資訊變得更加簡便。尤其是在將爬取的資料儲存到MySQL資料庫時,我學會了如何設計資料庫表結構,利用Python與MySQL的連線進行資料儲存。同時,作業中涉及到的資料序列化輸出方法,也讓我掌握瞭如何更好地管理爬取的資料,確保其在資料庫中的儲存形式整潔且可維護。

作業③:爬取外匯資料並儲存到MySQL資料庫

這項作業讓我進一步鞏固了之前學到的爬取網頁資料的技巧,並且透過爬取外匯網站的資料,我瞭解瞭如何處理外匯資料的特殊性,比如實時性和更新頻率。透過Scrapy的Pipeline技術,我可以輕鬆地將資料儲存到MySQL資料庫,並且在遇到重複資料時進行處理。這項作業讓我熟悉瞭如何設計合適的欄位來儲存外匯資料,並確保每次爬取的資料都能夠正確插入資料庫。透過這一過程,我進一步理解了如何用Scrapy框架進行資料抓取、清洗和儲存的全過程。

相關文章