Linux搭建Scrapy爬蟲整合開發環境

郭遠威發表於2016-04-26
    1. 安裝Python

    下載地址:http://www.python.org/, Python 有 Python 2 和 Python 3 兩個版本, 語法有些區別,ubuntu上自帶了python2.7.6,所以在 ubuntu上暫時不需額外安裝。

     

      1. 安裝JAVA JDK

      下載地址:http://www.oracle.com/technetwork/java/javase/downloads,下載與具體機器 對應的版本,我這裡由於是ubuntu64位,所以下載了jdk-8u77-linux-x64.tar.gz

      解壓:tar -zxvf jdk-8u77-linux-x64.tar.gz

      進入到解壓的目錄,拷貝:cp -R jdk1.8.0_77/ /usr/local/

      配置環境變數:vi .bashrc

      新增:

      export JAVA_HOME=/usr/local/jdk1.8.0_77

      export JAVA_BIN=$JAVA_HOME/bin

      export JAVA_LIB=$JAVA_HOME/lib

      export CLASSPATH=.:$JAVA_LIB/tools.jar:$JAVA_LIB/dt.jar

      export PATH=$JAVA_BIN:$PATH

      使環境變數生效:source .bashrc

       

        1. 安裝Eclipse

         下載地址:http://www.eclipse.org/downloads/

         下載完後,解壓就可以直接使用, Eclipse不需要安裝。

          tar -zxvf eclipse-jee-mars-2-linux-gtk-x86_64.tar.gz

          cp -R eclipse /usr/local/

         

          1. 安裝開發python程式的eclipse外掛pydev4.5.5

          下載地址:http://www.pydev.org/index.html

          將壓縮檔案解壓出來,得到features和plugins兩個資料夾,然後將兩個資料夾中的檔案分別拷貝到Eclipse安裝目錄下的features和plugins目錄中。

           

          然後配置python直譯器,啟動Eclipse,開啟window->Preferences,選擇Interpreter-Python,然後選擇New,在彈出的對話方塊的Interpreter Name寫Python, 在Interpreter Executable寫入python可執行直譯器的地址。 

          如果eclipse開啟時沒有選單欄,通過以下方法解決:

          其實就是缺一個環境變數UBUNTU_MENUPROXY. 在/etc/profile 裡面新建這個變數並且把值寫成0, 然後重啟就行啦,export UBUNTU_MENUPROXY=0 

           

          下面是Scrapy爬蟲開發安裝

          1.先安裝好python整合開發環境,參考前面步驟

          2. 安裝 Scrapy

               Scrapy依賴於Python開發庫和pip。

                Python 最新的版本已經在Ubuntu上預裝了,因此我們在安裝 Scrapy之前只需安裝pip和python開發庫就可以了。

                pip是作為python包索引器easy_install的替代品,用於安裝和管理Python包。

               安裝pip:sudo apt-get install python-pip

               安裝python-dev:sudo apt-get install python-dev

               安裝Scrapy:pip install Scrapy

           

          3. 安裝pyquery包 :pip install pyquery  

               pyQuery 是 jQuery 的Python實現,如果對Web前端有了解,特別是有用過 jQuery 的,那麼 pyQuery 將會是你處理HTML內容的最佳選擇。

           

          相關文章