傳參base64時的+號變空格問題

扣釘日記發表於2023-03-25
原創:扣釘日記(微信公眾號ID:codelogs),歡迎分享,非公眾號轉載保留此宣告。

問題發生

上上週,看到一位老哥找我們組同事聯調介面,不知道是什麼問題,兩人坐一起搞了快1個小時,看起來好像有點複雜。

突然,老哥發出一聲臥槽,"我傳參裡的+號,到你這怎麼變成了空格!",這個聲音很大,我明顯的聽到了,很快,我就大概Get到了他們的問題點。

我猜測他們遇到的問題大概如下:

  1. 我們的介面協議上,都會將請求資料做一次base64編碼,然後放到data引數上。
  2. 然後某些資料做base64編碼後有+,如{"notes":"程式碼"}base64編碼為eyJub3RlcyI6IuS7o+eggSJ9Cg==
  3. 然後直接拼到data引數上,即data=eyJub3RlcyI6IuS7o+eggSJ9Cg==,組織成http請求發出。

如果寫成等價的curl,就是這樣:

$ curl http://localhost:8080/send -d 'data=eyJub3RlcyI6IuS7o+eggSJ9Cg=='

寫個測試介面除錯下看看,如下:
bug
這就是他們遇到的問題,+會變成空格,這個坑其實蠻容易踩到,我自己剛工作時就踩到過這個坑,也多次看到或聽到別人同踩此坑?

問題原因

這個問題和urlencode編碼有關,urlencode編碼,一般來說,除字母、數字和*.-_這些位元組原樣輸出外,其它位元組都會編碼為%XX(16進位制)的形式。
urlencode

但有一個特例,如下:

String enc = URLEncoder.encode(" ", "UTF-8");
System.out.println(enc);   // 輸出+號

String dec = URLDecoder.decode("+", "UTF-8");
System.out.println(dec);   // 輸出空格

特例就是空格會被編碼為+號,反之,+號會被解碼為空格!

注:在新的RFC 2396規範中,空格其實也可以編碼成%20,而解碼時,+號與%20都會被解碼為空格。

回想上面的場景,如果將帶有+號的base64字串,原封不動的封裝到data=中,再傳送給Tomcat等Web伺服器,若Tomcat側做一次urldecode解碼,+是不是就變成空格了?

而Tomcat確實會做urldecode解碼這樣的操作,當呼叫方的Content-Type為application/x-www-form-urlencoded時,這裡知道有這種操作即可,想了解細節可看看我寫的這篇文章 由x-www-form-urlencoded引發的介面對接失敗

解決問題

解決這種問題,主要有兩種方法,如下:

  1. 呼叫方對引數做urlencode編碼。

按規範來看,當Content-Type為application/x-www-form-urlencoded時,呼叫方是必須對引數名與引數值做urlencode的,java實現如下:

String base64Str = Base64.getEncoder().encodeToString(data);
String requestStr = "data=" + URLEncoder.encode(base64Str, "UTF-8");

這裡做了urlencode後,+會被編碼為%2B,再由服務端解碼,就會變成原樣的+號。

注:如果是使用apache的HttpClient,可考慮使用UrlEncodedFormEntity,它會自動做這個事情。
  1. 使用urlsafe版本的base64。

普通的base64不能直接作為引數值,因為它可能包含+/這兩個url不安全的字元,所以base64有個變種叫urlBase64,它將+/替換成了url安全的-_,java實現如下:

String urlBase64Str = Base64.getUrlEncoder().encodeToString(data);
String requestStr = "data=" + urlBase64Str;

關於base64、urlencode編碼,之前也專門寫過一篇文章,感興趣可進一步閱讀 hex,base64,urlencode編碼方案對比

相關文章