【爬蟲】第一章-Web基礎知識

txmmy發表於2024-04-02

目錄
  • HTML
    • 標籤分類
      • 空標籤/單標籤
      • 閉合標籤/雙標籤
      • 塊級元素
      • 內聯元素(行內元素)
  • 幾種主要網頁編碼
    • Unicode(統一碼、萬國碼、單一碼)
    • UTF-8
    • GB2312
    • GBK

HTML

標籤分類

空標籤/單標籤

1) <meta />元資訊
2) <img />圖片標籤
3) <br />換行標籤
4) <hr />水平線
5) <link />引入標籤
6) <base />base標籤

閉合標籤/雙標籤

1) <html>頁面標籤</html>
2) <body>可視標籤</body>
3) <head>頭部標籤</head>
4)<title>頁面標題</title>
5) <div>盒子標籤</div>
6) <p>段落標籤</p>
7) <h1></h1>標題標籤<h6></h6>
8) <span>空元素</sapn>
9) <em></em>斜體字型<i></i>
10) <strong></strong>加粗字型<b></b>
11) <ul>
	<li>無序列表</li>
	</ul>
12) <ol>
	<li>有序列表</li>
	</ol>
13)<dl>
       <dt>兒子</dt>
       <dd><女兒/dd>
    </dl>
14)<a href=””>超連結</a>
15)<iframe>內聯框架</iframe>

塊級元素

塊級元素是指本身屬性為display:block;的元素,通常用於進行大布局(大結構)的搭建。

預設情況下獨佔一行,寬度為父級的100%;支援設定寬高;支援上下左右的margin、padding值。

常用的塊級元素有:
div 常用塊級容器,也是css layout的主要標籤

h1	   大標題
h2	   副標題
h3	   三級標題
h4	   四級標題
h5	   五級標題
h6	   六級標題
hr	           水平分隔線
menu      選單列表
ol	           有序列表
ul	           無序列表
li	           列表項
dl	           定義列表
dt	           定義術語
dd	   定義描述
table       表格
p	           段落
form       互動表單

內聯元素(行內元素)

內聯元素是指本身屬性為display:inline;的元素,常於進行文字、小圖示(小結構)的搭建。

與其他元素並列在一行;不支援設定寬高,寬度隨內容撐開;支援左右方向的margin、padding。

 常用的內聯元素有:
span	  常用內聯容器,定義文字內區塊
a	          錨點
b	          加粗
strong	  加粗強調
i	          斜體
em	  斜體強調
s	          中劃線(不推薦使用)
strike	  中劃線
del	  文件中已被刪除的文字
br	          強制換行
u	          下劃線
textarea 多行文字輸入框
input      輸入框
select	   下拉選單
label	   input 元素定義標註(標記)
img	   引入圖片
sub	   下標
sup	   上標
big	   大字型文字
small	   小字型文字

幾種主要網頁編碼

Unicode(統一碼、萬國碼、單一碼)

是一種在計算機上使用的字元編碼,可以容納世界上所有文字和符號的字元編碼方案,用數字0-0x10FFFF來對映這些字元,最多可以容納1114112個字元。Unicode 是為了解決傳統的字元編碼方案的侷限而產生的,它為每種語言中的每個字元設定了統一併且唯一的二進位制編碼,以滿足跨語言、跨平臺進行文字轉換、處理的要求。只有一個低位元組的Uncode字元其實就是Latin1字元,所以Unicode字符集相容ASCII字元。Unicode又分為:UCS-2(用兩個位元組編碼)和UCS-4(用四個位元組編碼)。UCS即Universal Character Set。若規定所有的字元都使用固定的最大位元組數表示,則會造成空間浪費,而且存在傳輸問題(Unicode用至少兩個位元組的整數來表示一個字元,在大端機和小端機上兩個位元組的順序正好是相反的,如下圖所示),因此在實際的網頁編碼中常使用utf-8、utf-16等變長編碼方式。
image

UTF-8

Unicode TransformationFormat-8bit,允許含BOM,但通常不含BOM。是用以解決國際上字元的一種多位元組編碼,它對英文使用8位(即一個位元組),中文使用24為(三個位元組)來編碼。UTF-8包含全世界所有國家需要用到的字元,是國際編碼,通用性強。UTF-8編碼的文字可以在各國支援UTF8字符集的瀏覽器上顯示。如果是UTF8編碼,則在外國人的英文IE上也能顯示中文,他們無需下載IE的中文語言支援包。

GB2312

GBK

相關文章