面試—html語義化,SEO的原理,什麼是爬蟲、怎麼去寫一個爬蟲

cosmos033發表於2018-08-07

 html語義化:

        根據內容的結構化(內容語義化),選擇合適的標籤(程式碼語義化)便於開發者閱讀和寫出更優雅的程式碼的同時讓瀏覽器的爬蟲和機器很好地解析。

(1)當元素去掉或者丟失樣式的時候能夠讓頁面呈現出清晰的結構

(2)有利於SEO(搜尋引擎優化),語義化標籤可以和搜尋引擎建立良好溝通,有助於爬蟲抓

(3)取更多的有效資訊——爬蟲依賴於標籤來確定上下文和各個關鍵字的權重

(4)方便其他裝置解析(如螢幕閱讀器、盲人閱讀器、移動裝置)以意義的方式來渲染網頁

(5)便於團隊開發和維護,語義化更具可讀性,遵循W3C標準的團隊都遵循這個標準,可以減少差異化

SEO的原理

SEO是Search Engine Optimization的簡稱,SEO中文意思是搜尋引擎優化

搜尋引擎優化SEO是建立在使用者搜尋體驗為中心的基礎上,通過提高網頁級別、建立合理的網站連結結構/目錄結構、豐富網站內容及表達形式,使網站自身設計符合搜尋引擎規則、對搜尋引擎友好,進而在搜尋引擎上獲得較高的排序權重.

它是通過研究搜尋引擎對網頁的抓取規則,以及搜尋結果排序演算法,來對網頁進行相關的優化,使其更多的內容被搜尋引擎收錄,同時針對關鍵詞獲得搜尋結果中更高的排名,從而提高網站訪問量的一種策略。

搜尋引擎工作主要分為:

1.頁面抓取

2.頁面分析

3.建立索引

4.頁面排序

site語法是檢查一個網站收錄數的最基本搜尋語法

爬蟲

網路爬蟲(又被稱為網頁蜘蛛,網路機器人,在FOAF社群中間,更經常的稱為網頁追逐者),是一種按照一定的規則,自動地抓取全球資訊網資訊的程式或者指令碼。另外一些不常使用的名字還有螞蟻、自動索引、模擬程式或者蠕蟲

怎麼去寫一個爬蟲

—定義已訪問佇列,待訪問佇列和爬取得URL的雜湊表,包括出佇列,入佇列,判斷佇列是否空等操作

—定義DownLoadFile類,根據得到的url,爬取網頁內容,下載到本地儲存。此處需要引用commons-httpclient.jar,commons-codec.jar,commons-logging.jar。

—定義HtmlParserTool類,用來獲得網頁中的超連結(包括a標籤,frame中的src等等),即為了得到子節點的URL。需要引入htmlparser.jar

—編寫測試類MyCrawler,用來測試爬取效果

相關文章