使用多執行緒查詢百萬條使用者資料將漢字轉化成拼音

一顆向上的草莓發表於2018-08-27

原文網址 : https://juejin.im/post/5b839bd851882542f5047412

現在有一個需求：使用者表裡面有將近200萬條資料，查詢時需要按使用者名稱字的漢語拼音按從a-z排序。有兩種解決方案：1.查詢時使用資料庫自帶的CONVERT()函式進行轉化，按拼音首字母排序;2.新加一個拼音欄位（spell_name），使用者註冊時，將使用者名稱字的漢語拼音也一併插入資料庫。權衡之後我採用了第二種，因為使用者量還會持續增長，使用資料庫自帶的函式會拖慢查詢速度，索引也會失效，如果採用第二種加一個拼音欄位，就涉及到對原來老資料拼音欄位的一個初始化，資料量比較多，使用多執行緒，在這裡記錄一下。

1.使用jpinyin和emoji-java將漢字轉化成拼音

引入相關jar

		<!--漢字轉拼音jar-->
		<dependency>
			<groupId>com.github.stuxuhai</groupId>
			<artifactId>jpinyin</artifactId>
			<version>1.0</version>
		</dependency>
		<!--java操作emoji的jar-->
		<dependency>
			<groupId>com.vdurmont</groupId>
			<artifactId>emoji-java</artifactId>
			<version>4.0.0</version>
		</dependency>
複製程式碼

emoji表情處理工具類

public class EmojiDealUtil extends EmojiParser {
    /**
     * 獲取非表情字串
     * @param input
     * @return
     */
    public static String getNonEmojiString(String input) {
        int prev = 0;
        StringBuilder sb = new StringBuilder();
        List<UnicodeCandidate> replacements = getUnicodeCandidates(input);
        for (UnicodeCandidate candidate : replacements) {
            sb.append(input.substring(prev, candidate.getEmojiStartIndex()));
            prev = candidate.getFitzpatrickEndIndex();
        }
        return sb.append(input.substring(prev)).toString();
    }

    /**
     * 獲取表情字串
     * @param input
     * @return
     */
    public static String getEmojiUnicodeString(String input){
        EmojiTransformer  transformer = new EmojiTransformer() {
            public String transform(UnicodeCandidate unicodeCandidate) {
                return unicodeCandidate.getEmoji().getHtmlHexadecimal();
            }
        };
        StringBuilder sb = new StringBuilder();
        List<UnicodeCandidate> replacements = getUnicodeCandidates(input);
        for (UnicodeCandidate candidate : replacements) {
            sb.append(transformer.transform(candidate));
        }
        return  parseToUnicode(sb.toString());
    }

    public static String getUnicode(String source){
        String returnUniCode=null;
        String uniCodeTemp=null;
        for(int i=0;i<source.length();i++){
            uniCodeTemp = "\\u"+Integer.toHexString((int)source.charAt(i));
            returnUniCode=returnUniCode==null?uniCodeTemp:returnUniCode+uniCodeTemp;
        }
        return returnUniCode;
    }
}
複製程式碼

漢字轉換成拼音的工具類

public class ChineseToPinYinUtil {

    /**
     * 轉換為不帶音調的拼音字串
     * @param pinYinStr 需轉換的漢字
     * @return 拼音字串
     */
    public static String changeToTonePinYin(String pinYinStr) {
        String tempStr = null;
        try {
            tempStr = PinyinHelper.convertToPinyinString(pinYinStr, " ", PinyinFormat.WITHOUT_TONE);
        } catch (Exception e) {
            e.printStackTrace();
        }
        return tempStr;
    }
}
複製程式碼

拼音轉換不做為本文點，網上搜下有很多庫和程式碼解決，主要說下面的多執行緒處理。

2.使用多執行緒查詢並更新資料庫

建立初始容量為5的執行緒池，每次每個執行緒查詢500條記錄並處理，加個同步鎖，分配給每個執行緒它查詢的起始記錄，查詢出記錄之後呼叫上面的漢字轉換成拼音方法處理，完畢之後更新到資料庫。

2.1接收請求方法

    //每個執行緒每次查詢的條數
    private static final Integer LIMIT = 500;
    //起的執行緒數
    private static final Integer THREAD_NUM = 5;
    ThreadPoolExecutor pool = new ThreadPoolExecutor(THREAD_NUM, THREAD_NUM*2,0,TimeUnit.SECONDS,new LinkedBlockingQueue<>(100));
    
    @GetMapping("/chineseToSpellName")
    public void execute(){
        //計數器,一次轉換隻能一個請求調，不然會出錯
        int count = 0;
        logger.info("trans start");
        //查詢總記錄數
        int total = userService.getTotalCount2();
        logger.info("total num:{}",total);
        int num = total/(LIMIT*THREAD_NUM) + 1;
        logger.info("要經過的輪數：{}",num);
        for(int j=0;j<num;j++){
            //起 THREAD_NUM 個執行緒並行查詢更新庫，加鎖
            for(int i=0;i<THREAD_NUM;i++){
                synchronized(ChineseToPinYinController.class){
                    int start = count*LIMIT;
                    count++;
                    pool.submit(new TransTask(start,LIMIT));
                }
            }
        }
    }
複製程式碼

2.2多執行緒處理業務方法

    class TransTask implements Runnable{
        int start;
        int limit;
        public TransTask(int start, int limit) {
            this.start = start;
            this.limit = limit;
        }

        @Override
        public void run() {
            //查詢記錄並更新資料庫
            List<User> userList =  userService.getList2(start,limit);
            logger.info("更新記錄起始位置：{}--{}",start,limit);
            if(!CollectionUtils.isEmpty(userList)){
                userList.stream().forEach(u -> {
                    u.setSpellName(ChineseToPinYinUtil.changeToTonePinYin(EmojiDealUtil.getNonEmojiString(u.getName())).trim());
                    userService.updateUser2(u);
                }
             );
            }
        }
    }
複製程式碼

3.不使用傳統的limit分頁查詢資料

userService.getList2(start,num)是根據起始位置和查詢條數查詢記錄，以前我們寫的分頁查詢一般是這樣寫的：select * from table limit start,num（如：select * from user limit 0,20）。這種查詢在資料量小時沒有問題，但是資料量大的時候查詢會非常慢，因為它走的不是索引，而是全表掃描，資料量越大，越到後面速度越慢。對於id是自增長的查詢可以採用另一種查詢方式，select * from table where id>start limit num(如：select * from user where id>1000 limit 20)，從指定id查詢num條記錄。這種查詢即使到百萬級資料量，查詢速度也不會明顯變慢，因為走的是主鍵索引，而不是全表掃描。

4.優化後記

程式碼寫完之後在實際使用中，資料初始化到70多萬條的時候，資料庫連線數開的太多，將資料庫裡面的全部佔滿了，考慮再次優化，採用分段的方式，傳入兩個引數，初始化記錄和初始化條數。比如第一次初始化0-10萬條記錄，第二次初始化10到20萬條記錄，依次類推，這樣的好處是可以人工干預，即使出錯，也可以只執行出錯的這部分割槽間資料，程式碼如下：

   //每個執行緒每次查詢的條數
    private static final Integer LIMIT = 500;
    //起的執行緒數
    private static final Integer THREAD_NUM = 5;
    ThreadPoolExecutor pool = new ThreadPoolExecutor(THREAD_NUM,Integer.MAX_VALUE,0,TimeUnit.SECONDS,
            new ArrayBlockingQueue<>(10));

    @GetMapping("/chineseToSpellName")
    public void execute(@RequestParam("startId") Integer startId,@RequestParam("total") Integer total){
        logger.info("trans start");
        int num = total/(LIMIT*THREAD_NUM) + 1;
        logger.info("要經過的輪數：{}",num);
        for(int j=0;j<num;j++){
            //起 THREAD_NUM 個執行緒並行查詢更新庫，加鎖
            for(int i=0;i<THREAD_NUM;i++){
                synchronized(ChineseToPinYinController.class){
                    pool.submit(new TransTask(startId,LIMIT));
                    startId+=LIMIT;
                }
            }
        }
    }

    class TransTask implements Runnable{
        int start;
        int limit;
        public TransTask(int start, int limit) {
            this.start = start;
            this.limit = limit;
        }

        @Override
        public void run() {
            //查詢記錄並更新資料庫
            List<User> userList =  userService.getList2(start,limit);
            logger.info("更新記錄起始位置：{}--{}",start,limit);
            if(!CollectionUtils.isEmpty(userList)){
                userList.stream().forEach(u -> {
                    u.setSpellName(ChineseToPinYinUtil.changeToTonePinYin(EmojiDealUtil.getNonEmojiString(u.getName())).trim());
                    userService.updateUser2(u);
                }
             );
            }
        }
    }
複製程式碼

【實戰】利用多執行緒優化查詢百萬級資料
2021-11-19
執行緒優化
多執行緒查詢
2018-05-09
執行緒
漢字轉漢語拼音
2020-12-03
C#漢字轉漢語拼音
2021-12-21
C#
JS 漢字轉換拼音
2019-04-29
JS
多執行緒查詢,效率翻倍
2022-07-02
執行緒
Hanlp漢字轉拼音使用python呼叫詳解
2019-03-20
HanLPPython
C#中漢字轉拼音
2018-09-07
C#
springboot配置執行緒池使用多執行緒插入資料
2019-01-19
Spring Boot執行緒
xpinyin：漢字轉換為拼音庫
2024-05-07
Python 漢字轉拼音的庫--- PyPinyin
2019-05-21
Python
Java資料庫分表與多執行緒查詢結果彙總
2021-07-27
Java資料庫執行緒
多執行緒（2）-執行緒同步條件變數
2024-04-04
執行緒變數
python使用多執行緒備份資料庫
2021-05-29
Python執行緒資料庫
Android環境下hanlp漢字轉拼音功能的使用介紹
2019-04-01
AndroidHanLP
Java 使用輪詢獲取執行緒返回資料
2020-07-16
Java執行緒
多執行緒中使用Lock鎖定多個條件Condition的使用
2020-10-24
執行緒
Java多執行緒-執行緒池的使用
2021-01-17
Java執行緒
使用委託開啟多執行緒(多執行緒深入)
2018-09-16
執行緒
java執行緒之守護執行緒和使用者執行緒
2019-01-19
Java執行緒
多執行緒06：條件變數
2022-05-13
執行緒變數
java使用多執行緒
2024-09-12
Java執行緒
ORACLE SQL函式中文漢字轉拼音首字母
2020-11-25
OracleSQL函式
java多執行緒之執行緒的基本使用
2020-11-08
Java執行緒
如何使用python多執行緒有效爬取大量資料？
2021-09-11
Python執行緒
漢字之美，拼音之韻
2024-03-23
C#漢字拼音檢索
2019-05-12
C#
mysql帶AND關鍵字的多條件查詢
2020-12-05
MySql
多執行緒和多執行緒同步
2024-08-22
執行緒
如何使用ReentrantLock的條件變數，讓多個執行緒順序執行？
2022-11-08
ReentrantLock變數執行緒
多執行緒：執行緒池理解和使用總結
2020-08-04
執行緒
玩轉java多執行緒之多執行緒基礎執行緒狀態及執行緒停止實戰
2020-10-03
Java執行緒
一條查詢語句的執行流程
2020-07-16
多執行緒--執行緒管理
2018-07-31
執行緒
執行緒與多執行緒
2024-08-11
執行緒
多執行緒【執行緒池】
2021-02-20
執行緒
資料提取方法-多程式多執行緒爬蟲
2020-11-16
執行緒爬蟲
@Async使用ThreadPoolTaskExecutor 多執行緒
2024-08-19
thread執行緒