url編碼是一種瀏覽器用來打包表單輸入的格式,一般常見於瀏覽器位址列目中。
目錄
1定義編輯
url編碼是一種瀏覽器用來打包表單輸入的格式。瀏覽器從表單中獲取所有的name和其中的值 ,將它們以name/value引數編碼(移去那些不能傳送的字元,將資料排行等等)作為URL的一部分或者分離地發給伺服器。不管哪種情況,在伺服器端的表單輸入格式樣子象這樣:
theName=Ichabod+Crane&gender=male&status=missing& ;headless=yes
2編碼規則編輯
URL編碼遵循下列規則: 每對name/value由&;符分開;每對來自表單的name/value由=符分開。如果使用者沒有輸入值給這個name,那麼這個name還是出現,只是無值。任何特殊的字元(就是那些不是簡單的七位ASCII,如漢字)將以百分符%用十六進位制編碼,當然也包括象 =,&;,和 % 這些特殊的字元。其實url編碼就是一個字元ascii碼的十六進位制。不過稍微有些變動,需要在前面加上“%”。比如“\”,它的ascii碼是92,92的十六進位制是5c,所以“\”的url編碼就是%5c。那麼漢字的url編碼呢?很簡單,看例子:“胡”的ascii碼是-17670,十六進位制是BAFA,url編碼是“%BA%FA”。
3URL編碼表編輯
backspace %08
|
I %49
|
v %76
|
ó %D3
|
tab %09
|
J %4A
|
w %77
|
Ô %D4
|
linefeed %0A
|
K %4B
|
x %78
|
Õ %D5
|
creturn %0D
|
L %4C
|
y %79
|
Ö %D6
|
space %20
|
M %4D
|
z %7A
|
Ø %D8
|
! %21
|
N %4E
|
{ %7B
|
ù %D9
|
" %22
|
O %4F
|
| %7C
|
ú %DA
|
# %23
|
P %50
|
} %7D
|
Û %DB
|
$ %24
|
Q %51
|
~ %7E
|
ü %DC
|
% %25
|
R %52
|
¢ %A2
|
Y %DD
|
& %26
|
S %53
|
£ %A3
|
T %DE
|
' %27
|
T %54
|
¥ %A5
|
ß %DF
|
( %28
|
U %55
|
| %A6
|
à %E0
|
) %29
|
V %56
|
§ %A7
|
á %E1
|
* %2A
|
W %57
|
« %AB
|
a %E2
|
+ %2B
|
X %58
|
¬ %AC
|
ã %E3
|
, %2C
|
Y %59
|
ˉ %AD
|
ä %E4
|
- %2D
|
Z %5A
|
o %B0
|
å %E5
|
. %2E
|
[ %5B
|
± %B1
|
æ %E6
|
/ %2F
|
\ %5C
|
a %B2
|
ç %E7
|
0 %30
|
] %5D
|
, %B4
|
è %E8
|
1 %31
|
^ %5E
|
μ %B5
|
é %E9
|
2 %32
|
_ %5F
|
» %BB
|
ê %EA
|
3 %33
|
` %60
|
¼ %BC
|
ë %EB
|
4 %34
|
a %61
|
½ %BD
|
ì %EC
|
5 %35
|
b %62
|
¿ %BF
|
í %ED
|
6 %36
|
c %63
|
à %C0
|
î %EE
|
7 %37
|
d %64
|
á %C1
|
ï %EF
|
8 %38
|
e %65
|
 %C2
|
e %F0
|
9 %39
|
f %66
|
à %C3
|
ñ %F1
|
: %3A
|
g %67
|
Ä %C4
|
ò %F2
|
; %3B
|
h %68
|
Å %C5
|
ó %F3
|
< %3C
|
i %69
|
Æ %C6
|
ô %F4
|
= %3D
|
j %6A
|
Ç %C7
|
õ %F5
|
> %3E
|
k %6B
|
è %C8
|
ö %F6
|
%3F
|
l %6C
|
é %C9
|
÷ %F7
|
@ %40
|
m %6D
|
ê %CA
|
ø %F8
|
A %41
|
n %6E
|
Ë %CB
|
ù %F9
|
B %42
|
o %6F
|
ì %CC
|
ú %FA
|
C %43
|
p %70
|
í %CD
|
û %FB
|
D %44
|
q %71
|
Î %CE
|
ü %FC
|
E %45
|
r %72
|
Ï %CF
|
y %FD
|
F %46
|
s %73
|
D %D0
|
t %FE
|
G %47
|
t %74
|
Ñ %D1
|
ÿ %FF
|
H %48
|
u %75
|
ò %D2
|
|
4防止sql注入編輯
URL 編碼平時是用不到的,因為IE會自動將輸入到位址列的非數字字母轉換為url編碼。曾有人提出資料庫名字裡帶上“#”以防止被下載,因為IE遇到#就會忽 略後面的字母。破解方法很簡單——用url編碼%23替換掉#。現在SQL注射非常流行,所以就有人寫了一些防注射的指令碼。下面××SQL通用防注入 asp版部分程式碼。
Fy_Url=Request.ServerVariables("QUERY_STRING")
Fy_a=split(Fy_Url,"&")
redim Fy_Cs(ubound(Fy_a))
On Error Resume Next
for Fy_x=0 to ubound(Fy_a)
Fy_Cs(Fy_x) = left(Fy_a(Fy_x),instr(Fy_a(Fy_x),"=")-1)
Next
For Fy_x=0 to ubound(Fy_Cs)
If Fy_Cs(Fy_x)<>"" Then
If Instr(LCase(Request(Fy_Cs(Fy_x))),"and")<>0 then
Response.Write "出現錯誤!"
Response.End
End If
End If
Next
它的思路就是先獲得提交的資料,以“&;”為分界獲得並處理name/value組,然後判斷value裡是否含有定義的關鍵字,有之,則為注射。
看起來value被檢查了,但是name就不同。它的name/value組值來自於 Request.ServerVariables("QUERY_STRING"),這裡會出現問題。 Request.ServerVariables("QUERY_STRING")是得到客戶端提交的字串,這裡並不會自動轉換url編碼,如果把 name進行url編碼再提交的話,就可以繞過檢查了。例如:引數是ph4nt0m=lake2 and lis0,此時程式能夠檢測到;如果提交%50h4nt0m=lake2 and lis0(對p進行url編碼),程式就會去判斷%50h4nt0m的值,而%50h4nt0m會被轉換為ph4nt0m,所以%50h4nt0m值為 空,於是就繞過了檢測。為什麼既然name不解碼可以繞過檢查而value就不能繞過呢?因為value的值取自 Request(Fy_Cs(Fy_x)),這個伺服器就會解碼的。要想改程式序,只要能夠得到客戶端提交的資料是解碼後的就可以了,把得到name的語 句改為For Each SubmitName In Request.QueryString就可以了。
5使用舉例編輯
前言
編碼問題是JAVA初學者在web開發過程中經常會遇到問題,其中之一是URL中使用中文等非ASCII的字元造成伺服器後臺程式解析出現亂碼的問題。
常見出錯部分
也就是容易出現中文字元的部分:
(1)Query String中的引數值
(2)servlet path
常見出錯原因
(1)瀏覽器:我們的客戶端(瀏覽器)本身並沒有遵循URI編碼的規範。
(2)Servlet伺服器:Servlet伺服器的沒有正確配置。
(3)開發人員並不瞭解Servlet的規範和API的含義。
servlet規範
(1)HttpServletRequest.setCharacterEncoding() 方法 僅僅只適用於設定post提交的requestboda的編碼而不是設定get方法提交的queryString的編碼。該方法告訴應用伺服器應該採用什 麼編碼解析post傳過來的內容。
(2) HttpServletRequest.getPathInfo()返回的結果是由Servlet伺服器解碼(decode)過的。
(3) HttpServletRequest.getRequestURI()返回的字串沒有被Servlet伺服器decoded過。
(4) POST提交的資料是作為request body的一部分。
(5) 網頁的Http頭中ContentType("text/html; charset=GBK")的作用:
(a) 告訴瀏覽器網頁中資料是什麼編碼;
(b) 表單提交時,通常瀏覽器會根據ContentType指定的charset對錶單中的資料編碼,然後傳送給伺服器的。
注意:這裡所說的ContentType是指http頭的ContentType,而不是在網頁中mete中的ContentType。