html 空白漢字佔位符 

而遠之發表於2014-04-23

  在爬取京東評論時,複製html內容,發現文字中有些空格的寬度沒見過。後來用htmlParser解析html頁面時,發現這些空格都被替換為 。

12288是Unicode編碼,&#表示宋體,&#12288就表示一個漢字的寬度,在瀏覽器中就顯示為一個漢字寬度的空格。

 

相關文章