jsoup爬蟲技術+druid連線池

項羽齊發表於2018-03-21

 

介紹:

 

 優點:

  1、與java形成良好的支援

  2、jsoup技術類似於

同型別產品:

  1、入門 級:八爪魚提取工具

  2、jsoup:java原生提供的爬取工具

入門案例:

  爬蟲原理:模擬http請求,然後從目標網站或整個或者json資料/xml資料

  爬蟲步驟:

    1、定位目標網站url

    2、模擬http請求爬取資料

    3、分析處理頁面資訊

    4、將資料封裝特定的格式後入庫

 獲取靜態資料

    @Test
    public void test01() throws IOException{
        String url = "http://www.it211.com.cn/web/index_new.html?tedu";
        Document dom = Jsoup.connect(url).get();
        Element element1 = dom.select(".b_search").get(0);
        Element element2 = element1.select("div h2").get(0);
        String result = element2.text();
        System.out.println(result);
    }
獲取靜態資料

 

獲取動態資料

  有些網站出於安全性和互動性的考慮,採用了動態的資料獲取的方式,進行資料載入!

  1、通過瀏覽器的開發者工具分析網站的js請求,根據js的返回值獲取需要的資料

@Test
    public void test03() throws IOException{
        String url = "http://www.it211.com.cn/boutiqueSeries/findSeriesCourseByCourseId?courseId=1000";
        String result = Jsoup.connect(url).ignoreContentType(true).execute().body();
        //通過objectMapper解析json串
        JsonNode node = objectMapper.readTree(result);
        String data = node.get("obj").get("bookNum").asText();
        System.out.println(data);
    }
獲取動態資料

 

獲得json資料並進行處理

public void insert(String url, int status) {
        try {
            //通過url獲取json資料,在擷取前需要對獲取的資料進行分析
            String data = Jsoup.connect(url).ignoreContentType(true).execute().body();
            StudentBookListVO studentBookListVO = objectMapper.readValue(data, StudentBookListVO.class);
            List<StudentBook> lists = studentBookListVO.getBookList();
            for(StudentBook studentBook : lists){
                List<StudentSection> sections = studentBook.getSections();
                if(sections!=null){
                    for (StudentSection studentSection : sections) {
                        studentSectionMapper.insert(studentSection);
                    }
                }                
                studentBook.setBookImg("http://www.it211.com.cn/web/library/tu_new/"+studentBook.getBookImg());
                studentBook.setStatus(status);
                studentBookMapper.insert(studentBook);
            }
        } catch (Exception e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }
    }
處理爬到孤資料

 

druid連線池及監控

說明:使用阿里的Druid資料來源,是當前國內效能最好的資料庫連結池.並且提供了資料的監控功能.

新增依賴:

<dependency>
      <groupId>com.alibaba</groupId>
      <artifactId>druid</artifactId>
      <version>1.0.29</version>
</dependency>
<?xml version="1.0" encoding="UTF-8"?>
<web-app xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
    xmlns="http://java.sun.com/xml/ns/javaee"
    xsi:schemaLocation="http://java.sun.com/xml/ns/javaee http://java.sun.com/xml/ns/javaee/web-app_2_5.xsd"
    id="jt-manage" version="2.5">
    <display-name>jt-jsoup</display-name>

    <!-- web應用狀態監控過濾器 -->
    <filter>
        <filter-name>DruidWebStatFilter</filter-name>
        <filter-class>com.alibaba.druid.support.http.WebStatFilter</filter-class>
        <init-param>
            <param-name>exclusions</param-name>
            <param-value>*.js,*.gif,*.jpg,*.png,*.css,*.ico,/druid/*</param-value>
        </init-param>
    </filter>
    
    <filter-mapping>
        <filter-name>DruidWebStatFilter</filter-name>
        <url-pattern>/*</url-pattern>
    </filter-mapping>
    
    <!-- Druid監控檢視Servlet -->
    <servlet>
        <servlet-name>DruidStatView</servlet-name>
        <servlet-class>com.alibaba.druid.support.http.StatViewServlet</servlet-class>
        <!-- 可選項 登陸的使用者名稱和密碼 -->
        <init-param>
            <param-name>loginUsername</param-name>
            <param-value>druid</param-value>
        </init-param>
        <init-param>
            <param-name>loginPassword</param-name>
            <param-value>druid</param-value>
        </init-param>
    </servlet>
    <servlet-mapping>
        <servlet-name>DruidStatView</servlet-name>
        <url-pattern>/druid/*</url-pattern>
    </servlet-mapping>
    
    <!--定義前端控制器  -->
    <servlet>
        <servlet-name>springmvc</servlet-name>
        <servlet-class>org.springframework.web.servlet.DispatcherServlet</servlet-class>
        <init-param>
            <param-name>contextConfigLocation</param-name>
            <param-value>classpath:/spring/applicationContext*.xml</param-value>
        </init-param>
    </servlet>
    
    <!--/表示攔截所有請求和靜態資源 不攔截動態資源 -->
    <servlet-mapping>
        <servlet-name>springmvc</servlet-name>
        <url-pattern>/</url-pattern>
    </servlet-mapping>
    
</web-app>
web.xml

 

JDBC連線配置

jdbc.driverClassName=com.mysql.jdbc.Driver

jdbc.url=jdbc:mysql://127.0.0.1:3306/jtdb?useUnicode=true&characterEncoding=UTF-8

jdbc.username=root
jdbc.password=root
#初始化連線數量
jdbc.initialSize=10
#最大併發連線數
jdbc.maxActive=100
#已經不再使用,配置了也沒效果
jdbc.maxIdle=10
#最小空閒連線數
jdbc.minIdle=5
#獲取連線等待超時的時間
jdbc.maxWait=5000

#用來檢測連線是否有效的sql,要求是一個查詢語句
jdbc.validationQuery=SELECT * FROM USER
#單位:秒,檢測連線是否有效的超時時間。底層呼叫jdbc Statement物件的void setQueryTimeout(int seconds)方法
jdbc.validationQueryTimeout=3
#申請連線的時候檢測,如果空閒時間大於timeBetweenEvictionRunsMillis,執行validationQuery檢測連線是否有效。
jdbc.testWhileIdle=true
#申請連線時執行validationQuery檢測連線是否有效,配置為true會降低效能
jdbc.testOnBorrow=false
#歸還連線時執行validationQuery檢測連線是否有效,配置為true會降低效能
jdbc.testOnReturn=false

#連線保活
#開啟KeepAlive之後的效果:
#1、初始化連線池時會填充到minIdle數量。
#2、連線池中的minIdle數量以內的連線,空閒時間超過minEvictableIdleTimeMillis,則會執行keepAlive操作。
#3、當網路斷開等原因產生的由ExceptionSorter檢測出來的死連線被清除後,自動補充連線到minIdle數量。
jdbc.keepAlive=true

#對於建立時間超過removeAbandonedTimeout的連線強制關閉(連線洩露自動檢測)
jdbc.removeAbandoned=true
#連線建立多長時間就需要被強制關閉(1800秒,也就是30分鐘)(連線長時間沒有使用,被認為發生洩露時長)
jdbc.removeAbandonedTimeout=1800

#配置間隔多久才進行一次檢測,檢測需要關閉的空閒連線,單位是毫秒
#jdbc.timeBetweenEvictionRunsMillis=60000
jdbc.timeBetweenEvictionRunsMillis=60000
#連線保持空閒而不被驅逐的最長時間(Destory執行緒中如果檢測到當前連線的最後活躍時間和當前時間的差值大於minEvictableIdleTimeMillis,則關閉當前連線)。單位是毫秒
#jdbc.minEvictableIdleTimeMillis=1800000
#jdbc.minEvictableIdleTimeMillis=300000
jdbc.minEvictableIdleTimeMillis=60000

#是否開啟PreparedStatementCache,並且指定每個連線上PSCache的大小
jdbc.poolPreparedStatements=true
#指定每個連線上PSCache的大小
jdbc.maxPoolPreparedStatementPerConnectionSize=500

#關閉abanded連線時輸出錯誤日誌
jdbc.logAbandoned=true
#屬性型別是字串,通過別名的方式配置擴充套件外掛,常用的外掛有: 常用的外掛有: 監控統計用的filter:stat     日誌用的filter:log4j   防禦sql注入的filter:wall
jdbc.filters=stat,wall
jdbc.properties

springMVC配置

<?xml version="1.0" encoding="UTF-8"?>
<beans xmlns="http://www.springframework.org/schema/beans"
    xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:p="http://www.springframework.org/schema/p"
    xmlns:context="http://www.springframework.org/schema/context"
    xmlns:mvc="http://www.springframework.org/schema/mvc"
    xsi:schemaLocation="http://www.springframework.org/schema/beans http://www.springframework.org/schema/beans/spring-beans.xsd
        http://www.springframework.org/schema/mvc http://www.springframework.org/schema/mvc/spring-mvc-4.0.xsd
        http://www.springframework.org/schema/context http://www.springframework.org/schema/context/spring-context.xsd">


    <!--開啟mvc註解  -->
    <mvc:annotation-driven/>
    
    <!--開啟包掃描  -->
    <context:component-scan base-package="com.tedu.druid.controller"/>
    
    <!--定義檢視解析器  -->
    <bean class="org.springframework.web.servlet.view.InternalResourceViewResolver">
        <!--定義字首和字尾  -->
        <property name="prefix" value="/WEB-INF/"/>
        <property name="suffix" value=".jsp"/>
    </bean>
    
    <!--定義檔案上傳檢視解析器  規定id的值必須為multipartResolver-->
    <bean id="multipartResolver" class="org.springframework.web.multipart.commons.CommonsMultipartResolver">
        <!--定義檔案上傳最大值 10M   1024*1024*10 =10485760 -->
        <property name="maxUploadSize" value="10485760"/>
        
        <!--定義檔案上傳的編碼  -->
        <property name="defaultEncoding" value="UTF-8"/>
    </bean>
    
    
    <!--放行靜態資原始檔  -->
    <mvc:default-servlet-handler/>    
    
</beans>
applicationContext-mvc.xml

spring配置

<beans xmlns="http://www.springframework.org/schema/beans"
    xmlns:context="http://www.springframework.org/schema/context"
    xmlns:aop="http://www.springframework.org/schema/aop" 
    xmlns:tx="http://www.springframework.org/schema/tx"
    xmlns:util="http://www.springframework.org/schema/util"
    xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
    xsi:schemaLocation="
    http://www.springframework.org/schema/beans http://www.springframework.org/schema/beans/spring-beans-4.0.xsd
    http://www.springframework.org/schema/context http://www.springframework.org/schema/context/spring-context-4.0.xsd
    http://www.springframework.org/schema/aop http://www.springframework.org/schema/aop/spring-aop-4.0.xsd 
    http://www.springframework.org/schema/tx http://www.springframework.org/schema/tx/spring-tx-4.0.xsd
    http://www.springframework.org/schema/util http://www.springframework.org/schema/util/spring-util-4.0.xsd">
                        
    <!--開啟包掃描  -->
    <context:component-scan base-package="com.tedu.druid.service"/>  

    <!--引入多個配置檔案-->
    <bean id="propertyConfigurer"  
        class="org.springframework.beans.factory.config.PropertyPlaceholderConfigurer">
        <property name="locations">
            <list>
                <value>classpath:jdbc.properties</value>
            </list>
        </property>  
    </bean>  

    <!--druid資料庫連線  -->
     <bean id="dataSource" class="com.alibaba.druid.pool.DruidDataSource">
        <property name="driverClassName" value="${jdbc.driverClassName}" />
        <property name="url" value="${jdbc.url}" />
        <property name="username" value="${jdbc.username}" />
        <property name="password" value="${jdbc.password}" />
        <property name="initialSize" value="${jdbc.initialSize}" />
        <property name="maxActive" value="${jdbc.maxActive}" />
        <property name="minIdle" value="${jdbc.minIdle}" />
        <property name="maxWait" value="${jdbc.maxWait}" />
        <property name="validationQuery" value="${jdbc.validationQuery}"/>
        <property name="validationQueryTimeout" value="${jdbc.validationQueryTimeout}"/> 
        <property name="keepAlive" value="${jdbc.keepAlive}" />
        <property name="testOnBorrow" value="${jdbc.testOnBorrow}" />
        <property name="testOnReturn" value="${jdbc.testOnReturn}" />
        <property name="testWhileIdle" value="${jdbc.testWhileIdle}" />
        <property name="removeAbandoned" value="${jdbc.removeAbandoned}" />
        <property name="removeAbandonedTimeout" value="${jdbc.removeAbandonedTimeout}" />
        <property name="timeBetweenEvictionRunsMillis" value="${jdbc.timeBetweenEvictionRunsMillis}" />
        <property name="minEvictableIdleTimeMillis" value="${jdbc.minEvictableIdleTimeMillis}" />

        <!-- 關閉abanded連線時輸出錯誤日誌 -->
        <property name="logAbandoned" value="${jdbc.logAbandoned}" />
        <!-- 監控資料庫 -->
        <property name="filters" value="${jdbc.filters}" />
    </bean>

    <!-- 配置druid監控spring jdbc -->
    <bean id="druid-stat-interceptor" class="com.alibaba.druid.support.spring.stat.DruidStatInterceptor"></bean>
    <bean id="druid-stat-pointcut" class="org.springframework.aop.support.JdkRegexpMethodPointcut" scope="prototype">
        <property name="patterns">
            <list>
                <!-- 針對專案中的Service層呼叫進行監控 -->
                <value>com.tedu.druid.service.*</value>
            </list>
        </property>
    </bean>
    
    <aop:config>
        <aop:advisor advice-ref="druid-stat-interceptor" pointcut-ref="druid-stat-pointcut" />
    </aop:config>
    
    
    <!-- spring和MyBatis完美整合,不需要mybatis的配置對映檔案 -->  
    <bean id="sqlSessionFactory" class="org.mybatis.spring.SqlSessionFactoryBean">  
        <property name="dataSource" ref="dataSource" />
        <!-- 開啟別名包  -->
        <property name="typeAliasesPackage" value="com.tedu.druid.pojo"></property>
        <property name="configLocation" value="classpath:mybatis/mybatis-config.xml"></property>  
        
        <!-- 自動掃描mapping.xml檔案-->  
        <property name="mapperLocations" value="classpath:mybatis/mappers/*.xml"></property> 
    </bean>  

    <!-- 配置掃描Dao介面包,動態實現Dao介面,注入到spring容器中 -->  
    <bean class="org.mybatis.spring.mapper.MapperScannerConfigurer">  
        <property name="basePackage" value="com.tedu.druid.mapper" />  
        <property name="sqlSessionFactoryBeanName" value="sqlSessionFactory"></property>  
    </bean>  

    <!-- (事務管理)transaction manager -->  
    <bean id="transactionManager"  
        class="org.springframework.jdbc.datasource.DataSourceTransactionManager">  
        <property name="dataSource" ref="dataSource" />  
    </bean>
    <!-- 第一種方式: 註解方式配置事物 -->
    <!-- <tx:annotation-driven transaction-manager="transactionManager" /> -->

    <!-- 第二種方式: 攔截器方式配置事物 -->

    <tx:advice id="transactionAdvice" transaction-manager="transactionManager">
        <tx:attributes>
            <tx:method name="save*" propagation="REQUIRED" rollback-for="Exception" />
            <tx:method name="update*" propagation="REQUIRED" rollback-for="Exception" />
            <tx:method name="delete*" propagation="REQUIRED" rollback-for="Exception"/>
            <tx:method name="insert*" propagation="REQUIRED" rollback-for="Exception"/>
            <tx:method name="get*" propagation="SUPPORTS" read-only="true"/>
            <tx:method name="select*" propagation="SUPPORTS" read-only="true"/>
            <tx:method name="*" propagation="SUPPORTS" read-only="true"/>
        </tx:attributes>
    </tx:advice>

    <!-- Spring AOP config 解釋一下 (* com.evan.crm.service.*.*(..)) 中幾個萬用字元的含義: -->
    <!-- 第一個 * —— 通配 任意返回值型別 -->
    <!-- 第二個 * —— 通配 包com.evan.crm.service下的任意class -->
    <!-- 第三個 * —— 通配包com.evan.crm.service下的任意class的任意方法 -->
    <!-- 第四個 .. —— 通配 方法可以有0個或多個引數 -->
    <!-- 事務控制位置,一般在業務層service -->

   <aop:config>
        <aop:pointcut id="transactionPointcut" expression="execution(* com.tedu.druid.service.*.*(..))" />
        
        <!-- 多個 expression="(execution(* com.weixin.web.service..*Impl.*(..)))or(execution(* org.weixin.service..*Impl.*(..)))" -->
        <aop:advisor pointcut-ref="transactionPointcut" advice-ref="transactionAdvice" />
    </aop:config>
</beans>
applicationContext.xml

mybatis-config配置

<?xml version="1.0" encoding="UTF-8" ?>
<!DOCTYPE configuration
  PUBLIC "-//mybatis.org//DTD Config 3.0//EN"
  "http://mybatis.org/dtd/mybatis-3-config.dtd">
<configuration>

    <settings>
        <!-- 開啟駝峰自動對映 -->
        <setting name="mapUnderscoreToCamelCase" value="true" />
        <!-- 二級快取的總開關,被redis替代 -->
        <setting name="cacheEnabled" value="false" />
    </settings>
    
    <plugins>
        <!-- 通用Mapper外掛 -->
        <plugin interceptor="com.github.abel533.mapperhelper.MapperInterceptor">
            <!--主鍵自增回寫方法,預設值MYSQL,詳細說明請看文件 -->
            <property name="IDENTITY" value="MYSQL" />
            <!--通用Mapper介面,多個通用介面用逗號隔開 -->
            <property name="mappers" value="com.jt.common.mapper.SysMapper" />
        </plugin>
    </plugins>
</configuration>
mybatis-config.xml

 

訪問地址:http://localhost:8097/druid/

 

 

 

 

 

 

 

  

相關文章