在爬取京東評論時,複製html內容,發現文字中有些空格的寬度沒見過。後來用htmlParser解析html頁面時,發現這些空格都被替換為 。
12288是Unicode編碼,&#表示宋體, 就表示一個漢字的寬度,在瀏覽器中就顯示為一個漢字寬度的空格。
在爬取京東評論時,複製html內容,發現文字中有些空格的寬度沒見過。後來用htmlParser解析html頁面時,發現這些空格都被替換為 。
12288是Unicode編碼,&#表示宋體, 就表示一個漢字的寬度,在瀏覽器中就顯示為一個漢字寬度的空格。