1,基本概念
jsoup 是一款Java 的HTML解析器,可直接解析某個URL地址、HTML文字內容。它提供了一套非常省力的API,可通過DOM,CSS以及類似於jQuery的操作方法來取出和運算元據。
2,使用jsoup能夠做什麼
1> 從URL,文字或者字串中解析HTML;
2>查詢和提取資料,使用DOM遍歷或者CSS選擇器;
3>操縱html元素,屬性和文字;
4>使用白名單,過濾使用者提交的內容,防止XSS攻擊;
5>輸出整潔的html。
3,jsoup中重要的類:Whitelist類,繼承Object類,預設的配置方法有如下:
none():只保留文字,其他所有的html內容均被刪除
simpleText():只允許: b, em, i, strong, u.
basic():允許的標籤包括: a, b, blockquote, br, cite, code, dd, dl, dt, em, i, li, ol, p, pre, q, small, strike, strong, sub, sup, u, ul
basicWithImages():在basic的基礎上增加了圖片的標籤:img以及使用src指向http或https型別的圖片連結。
relaxed():允許的標籤: a, b, blockquote, br, caption, cite, code, col, colgroup, dd, dl, dt, em, h1, h2, h3, h4, h5, h6, i, img, li, ol, p, pre, q, small, strike, strong, sub, sup, table, tbody, td, tfoot, th, thead, tr, u, ul。
4,在專案中,如何使用jsoup中的whitelist防止XSS攻擊
第一步:maven專案,pom.xml檔案中引入
<!--Jsoup-->
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.10.2</version>
</dependency>
第二步:使用過濾器的方法對需要的請求路徑做過濾
(1)XSSFilterUtil實現HttpServletRequestWrapper,
import org.apache.commons.lang3.StringUtils;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.safety.Whitelist;
import javax.servlet.http.HttpServletRequest;
import javax.servlet.http.HttpServletRequestWrapper;
/**
* @author zhangna
* @version Id: XSSFilterUtil.java, v 0.1 2018/4/4 下午2:28 zhangna Exp $$
*/
public class XSSFilterUtil extends HttpServletRequestWrapper {
public XSSFilterUtil(HttpServletRequest request) {
super(request);
}
@Override
public String getParameter(String name) {
return Jsoup.clean(name, Whitelist.none());
}
@Override
public String[] getParameterValues(String name) {
String requestURI = getRequestURI();
if (StringUtils.equals(requestURI,"/**請求路徑**") && StringUtils.equals(name,"**請求的引數**")) {
String[] values = super.getParameterValues(name);
if (values != null) {
int length = values.length;
String[] escapseValues = new String[length];
for (int i = 0; i < length; i++) {
escapseValues[i] = Jsoup.clean(values[i], Whitelist.relaxed());
}
return escapseValues;
}
} else {
String[] values = super.getParameterValues(name);
if (values != null) {
int length = values.length;
String[] escapseValues = new String[length];
for (int i = 0; i < length; i++) {
escapseValues[i] = Jsoup.clean(values[i],"", Whitelist.none(),new Document.OutputSettings().prettyPrint(false));
}
return escapseValues;
}
}
return super.getParameterValues(name);
}
}
注意:利用過濾器實現jsoup對請求的過濾時,預設時是過濾所有的請求,但是如果想要做部分過濾的話,應該使用 getRequestURI()的方法獲取當前請求的路徑,然後根據需要對路徑進行過濾,進一步,還可以精確到過濾請求路徑的某個請求引數上面。
(2)XSSFilter實現Filter介面
import javax.servlet.*;
import javax.servlet.http.HttpServletRequest;
import java.io.IOException;
/**
* @author zhangna
* @version Id: XSSFilter.java, v 0.1 2018/4/4 下午2:24 zhangna Exp $$
*/
public class XSSFilter implements Filter{
@Override
public void init(FilterConfig filterConfig) throws ServletException {
}
@Override
public void doFilter(ServletRequest servletRequest, ServletResponse servletResponse, FilterChain filterChain) throws IOException, ServletException {
filterChain.doFilter(new XSSFilterUtil((HttpServletRequest) servletRequest), servletResponse);
}
@Override
public void destroy() {
}
}
(3)在web.xml中配置自己寫的過濾器讓其生效
<!--自定義過濾器-->
<filter>
<filter-name>XSSFilter</filter-name>
<filter-class>com.zhangna.ssm.mng.common.filter.XSSFilter</filter-class>
</filter>
<filter-mapping>
<filter-name>XSSFilter</filter-name>
<url-pattern>/*</url-pattern>
<dispatcher>REQUEST</dispatcher>
</filter-mapping>
使用jsoup實現防止XSS攻擊就到此完畢。
本作品採用《CC 協議》,轉載必須註明作者和本文連結