從今天起,我將在這裡更新一個系列的python簡單爬蟲到建立網站的實踐手記。
內容將會從最簡單的開始,環境搭建,基本爬蟲,入庫,用Django建立可供使用者訪問的網站,網站部署。
同時打算涉及簡單的非同步爬蟲,piplibe,佇列等等。
為了方便,將使用django和sqlite3來作為例子, 雖然有時候這並不是最合適的場景。。
最終目的:一個能用的自動更新的垃圾站
下面進入正題。
第一部分,買VPS,裝環境。
本文的一切操作都在vps上
在Runabove建立最便宜的instance.
選擇魁省機房-Sandbox-M-Ubuntu14.10-輸入Instace名字”PythonSpider”-FireUp!
不出一分鐘,VPS就建立好了。
用SSH 連線伺服器
先建立一個screen,順手更新apt-get,以後都在這裡面操作,避免掉線導致任務中斷。
1 2 3 |
bashscreen -S spider # 取名叫spider的screen sudo apt-get update sudp apt-get upgrade |
再順手安裝一些肯定會用的東西
1 2 3 4 5 6 7 |
bashsudo apt-get install gcc python-dev -y sudo - #這一步以後,使用者就是root了 記住 nginx=stable # use nginx=development for latest development version add-apt-repository ppa:nginx/$nginx apt-get update apt-get install nginx -y apt-get install libxml2-dev libxslt1-dev lib32z1-dev -y |
裝pip和virtualenv
1 2 3 |
bashwget https://bootstrap.pypa.io/get-pip.py python get-pip.py pip install virtualenv |
建立~/venv目錄,建立virtualenv, 啟用virtualenv
1 2 3 4 |
bashmkdir ~/venv cd ~/venv virtualenv spider source ~/venv/spider/bin/activate |
之後,shell提示符應該是這樣
安裝django(1.7)
1 2 |
bashpip install django cd ~ # 返回使用者目錄 |
5秒鐘後,django安裝完畢,現在開始建立專案目錄(Django的project)。我們爬蟲站點的所有檔案都放在裡面。
1 |
bashdjango-admin startproject python_spider |
再測試下安裝是否成功
1 2 |
bashservice nginx stop # 為毛? 因為RunAbove的8000神馬的埠不好用 python manage.py runserver 0.0.0.0:80 # 只能用80,真蛋疼 |
現在訪問192.99.71.91,我就能看到Django的示例頁面
沒騙你吧? 好了,看一眼能用就ctrl+c把伺服器關掉。
然後,再建立一個app
1 2 |
bashcd python_spider python manage.py startapp web |
所以,現在我有一個Django專案,叫python_spider, 它裡面有個app叫web.
未完待續。。。(點選下面閱讀)
下一篇,是簡單Python爬蟲的編寫。