使用多執行緒查詢百萬條使用者資料將漢字轉化成拼音

一顆向上的草莓發表於2018-08-27

現在有一個需求:使用者表裡面有將近200萬條資料,查詢時需要按使用者名稱字的漢語拼音按從a-z排序。有兩種解決方案:1.查詢時使用資料庫自帶的CONVERT()函式進行轉化,按拼音首字母排序;2.新加一個拼音欄位(spell_name),使用者註冊時,將使用者名稱字的漢語拼音也一併插入資料庫。權衡之後我採用了第二種,因為使用者量還會持續增長,使用資料庫自帶的函式會拖慢查詢速度,索引也會失效,如果採用第二種加一個拼音欄位,就涉及到對原來老資料拼音欄位的一個初始化,資料量比較多,使用多執行緒,在這裡記錄一下。

1.使用jpinyin和emoji-java將漢字轉化成拼音

引入相關jar

		<!--漢字轉拼音jar-->
		<dependency>
			<groupId>com.github.stuxuhai</groupId>
			<artifactId>jpinyin</artifactId>
			<version>1.0</version>
		</dependency>
		<!--java操作emoji的jar-->
		<dependency>
			<groupId>com.vdurmont</groupId>
			<artifactId>emoji-java</artifactId>
			<version>4.0.0</version>
		</dependency>
複製程式碼

emoji表情處理工具類

public class EmojiDealUtil extends EmojiParser {
    /**
     * 獲取非表情字串
     * @param input
     * @return
     */
    public static String getNonEmojiString(String input) {
        int prev = 0;
        StringBuilder sb = new StringBuilder();
        List<UnicodeCandidate> replacements = getUnicodeCandidates(input);
        for (UnicodeCandidate candidate : replacements) {
            sb.append(input.substring(prev, candidate.getEmojiStartIndex()));
            prev = candidate.getFitzpatrickEndIndex();
        }
        return sb.append(input.substring(prev)).toString();
    }

    /**
     * 獲取表情字串
     * @param input
     * @return
     */
    public static String getEmojiUnicodeString(String input){
        EmojiTransformer  transformer = new EmojiTransformer() {
            public String transform(UnicodeCandidate unicodeCandidate) {
                return unicodeCandidate.getEmoji().getHtmlHexadecimal();
            }
        };
        StringBuilder sb = new StringBuilder();
        List<UnicodeCandidate> replacements = getUnicodeCandidates(input);
        for (UnicodeCandidate candidate : replacements) {
            sb.append(transformer.transform(candidate));
        }
        return  parseToUnicode(sb.toString());
    }

    public static String getUnicode(String source){
        String returnUniCode=null;
        String uniCodeTemp=null;
        for(int i=0;i<source.length();i++){
            uniCodeTemp = "\\u"+Integer.toHexString((int)source.charAt(i));
            returnUniCode=returnUniCode==null?uniCodeTemp:returnUniCode+uniCodeTemp;
        }
        return returnUniCode;
    }
}
複製程式碼

漢字轉換成拼音的工具類

public class ChineseToPinYinUtil {

    /**
     * 轉換為不帶音調的拼音字串
     * @param pinYinStr 需轉換的漢字
     * @return 拼音字串
     */
    public static String changeToTonePinYin(String pinYinStr) {
        String tempStr = null;
        try {
            tempStr = PinyinHelper.convertToPinyinString(pinYinStr, " ", PinyinFormat.WITHOUT_TONE);
        } catch (Exception e) {
            e.printStackTrace();
        }
        return tempStr;
    }
}
複製程式碼

拼音轉換不做為本文點,網上搜下有很多庫和程式碼解決,主要說下面的多執行緒處理。

2.使用多執行緒查詢並更新資料庫

建立初始容量為5的執行緒池,每次每個執行緒查詢500條記錄並處理,加個同步鎖,分配給每個執行緒它查詢的起始記錄,查詢出記錄之後呼叫上面的漢字轉換成拼音方法處理,完畢之後更新到資料庫。

2.1接收請求方法

    //每個執行緒每次查詢的條數
    private static final Integer LIMIT = 500;
    //起的執行緒數
    private static final Integer THREAD_NUM = 5;
    ThreadPoolExecutor pool = new ThreadPoolExecutor(THREAD_NUM, THREAD_NUM*2,0,TimeUnit.SECONDS,new LinkedBlockingQueue<>(100));
    
    @GetMapping("/chineseToSpellName")
    public void execute(){
        //計數器,一次轉換隻能一個請求調,不然會出錯
        int count = 0;
        logger.info("trans start");
        //查詢總記錄數
        int total = userService.getTotalCount2();
        logger.info("total num:{}",total);
        int num = total/(LIMIT*THREAD_NUM) + 1;
        logger.info("要經過的輪數:{}",num);
        for(int j=0;j<num;j++){
            //起 THREAD_NUM 個執行緒並行查詢更新庫,加鎖
            for(int i=0;i<THREAD_NUM;i++){
                synchronized(ChineseToPinYinController.class){
                    int start = count*LIMIT;
                    count++;
                    pool.submit(new TransTask(start,LIMIT));
                }
            }
        }
    }
複製程式碼

2.2多執行緒處理業務方法

    class TransTask implements Runnable{
        int start;
        int limit;
        public TransTask(int start, int limit) {
            this.start = start;
            this.limit = limit;
        }

        @Override
        public void run() {
            //查詢記錄並更新資料庫
            List<User> userList =  userService.getList2(start,limit);
            logger.info("更新記錄起始位置:{}--{}",start,limit);
            if(!CollectionUtils.isEmpty(userList)){
                userList.stream().forEach(u -> {
                    u.setSpellName(ChineseToPinYinUtil.changeToTonePinYin(EmojiDealUtil.getNonEmojiString(u.getName())).trim());
                    userService.updateUser2(u);
                }
             );
            }
        }
    }
複製程式碼

3.不使用傳統的limit分頁查詢資料

userService.getList2(start,num)是根據起始位置和查詢條數查詢記錄,以前我們寫的分頁查詢一般是這樣寫的:select * from table limit start,num(如:select * from user limit 0,20)。這種查詢在資料量小時沒有問題,但是資料量大的時候查詢會非常慢,因為它走的不是索引,而是全表掃描,資料量越大,越到後面速度越慢。對於id是自增長的查詢可以採用另一種查詢方式,select * from table where id>start limit num(如:select * from user where id>1000 limit 20),從指定id查詢num條記錄。這種查詢即使到百萬級資料量,查詢速度也不會明顯變慢,因為走的是主鍵索引,而不是全表掃描。

4.優化後記

程式碼寫完之後在實際使用中,資料初始化到70多萬條的時候,資料庫連線數開的太多,將資料庫裡面的全部佔滿了,考慮再次優化,採用分段的方式,傳入兩個引數,初始化記錄和初始化條數。比如第一次初始化0-10萬條記錄,第二次初始化10到20萬條記錄,依次類推,這樣的好處是可以人工干預,即使出錯,也可以只執行出錯的這部分割槽間資料,程式碼如下:

   //每個執行緒每次查詢的條數
    private static final Integer LIMIT = 500;
    //起的執行緒數
    private static final Integer THREAD_NUM = 5;
    ThreadPoolExecutor pool = new ThreadPoolExecutor(THREAD_NUM,Integer.MAX_VALUE,0,TimeUnit.SECONDS,
            new ArrayBlockingQueue<>(10));

    @GetMapping("/chineseToSpellName")
    public void execute(@RequestParam("startId") Integer startId,@RequestParam("total") Integer total){
        logger.info("trans start");
        int num = total/(LIMIT*THREAD_NUM) + 1;
        logger.info("要經過的輪數:{}",num);
        for(int j=0;j<num;j++){
            //起 THREAD_NUM 個執行緒並行查詢更新庫,加鎖
            for(int i=0;i<THREAD_NUM;i++){
                synchronized(ChineseToPinYinController.class){
                    pool.submit(new TransTask(startId,LIMIT));
                    startId+=LIMIT;
                }
            }
        }
    }

    class TransTask implements Runnable{
        int start;
        int limit;
        public TransTask(int start, int limit) {
            this.start = start;
            this.limit = limit;
        }

        @Override
        public void run() {
            //查詢記錄並更新資料庫
            List<User> userList =  userService.getList2(start,limit);
            logger.info("更新記錄起始位置:{}--{}",start,limit);
            if(!CollectionUtils.isEmpty(userList)){
                userList.stream().forEach(u -> {
                    u.setSpellName(ChineseToPinYinUtil.changeToTonePinYin(EmojiDealUtil.getNonEmojiString(u.getName())).trim());
                    userService.updateUser2(u);
                }
             );
            }
        }
    }
複製程式碼

相關文章