python爬蟲簡歷專案怎麼寫_爬蟲專案咋寫,爬取什麼樣的資料可以作為專案寫在簡歷上?...

weixin_39854867發表於2020-12-01

看樣子,主要目的是上簡歷

如果你想要爬蟲的offer,那麼你的專案應該有這麼幾個特徵:

能用常用的框架,必要時有能力修改框架甚至自己寫一個

熟悉多執行緒多程式分散式等,對爬蟲任務排程有很好的解決辦法

採集資料頻率高,資料量大,範圍廣,能做深度抓取。爬蟲遇到效能瓶頸,如何分析瓶頸並解決。

熟悉並能解決常見的反爬措施,比如常見的圖片驗證,滑動驗證,拼圖,簡訊驗證等。常見的封IP,封header等。比如給爬蟲投毒喂假資料如何識別。

熟悉資料結構和演算法,拿到資料可以進行一些基礎的清洗,比如如何在記憶體容量有限的情況下清洗億萬資料;比如如何從提取目標資料等。甚至可以做一些輿情分析,資料分析等。

熟悉常用的資料庫和nosql資料庫,對資料儲存有一定見解,如何設計資料庫和表結構等,資料庫優化等。

甚至有可能寫介面給別人呼叫。

我沒做過專業的爬蟲,但是面試過爬蟲的offer,能想到的只有這麼多,有別的再補充。

對於非爬蟲offer,僅僅想提升簡歷豐富程度。比如投Python崗位,想有幾個爬蟲專案。那麼你的爬蟲專案可以規模小一點,從上面的流程簡化。比如億萬資料可以降為百萬資料,爬取範圍可以僅限幾個網站,反爬措施可以瞭解不多。

不管什麼崗位,其實後面的技術都不能少,比如多執行緒多程式分散式的瞭解,資料結構和演算法,資料庫等,這都是基礎。

想到別的再補充

以上

相關文章