多執行緒安全strtok函式MStrTok

djfu發表於2008-10-19

    在做字串分析的時候,常常會用到字串分割技術,一般都會想到使用strtok,但遺憾的是,strtok函式是在多執行緒概念尚未普及的時候寫的,沒有考慮多執行緒會帶來使用該函式會帶來意外危險的問題。

 

    下面簡單分析一下strtok在多執行緒程式裡面使用的可能的危險。

     strtok的內部實現上,使用了一個靜態地址指標,指向上一次分析完成以後的字串的結束的地址。

  1. UINT  Thread1(LPVOID pParam)
  2. {
  3.          char szSrc[128] = "THIS,IS,A,TEST";
  4.          char szSeps[32] = ",";
  5.          char *pToken = strtok(szSrc, szSeps);
  6.         while(pToken != NULL)
  7.         {
  8.             cout << pToken << endl;
  9.             pToken = strtok(NULL, szSeps);
  10.         }         
  11. }
  12.     
  13. UINT  Thread2(LPVOID pParam)
  14. {
  15.          char szSrc[128] = "HELLO WORLD THIS IS STRTOK TEST";
  16.          char szSeps[32] = " ";
  17.          char *pToken = strtok(szSrc, szSeps);
  18.         while(pToken != NULL)
  19.         {
  20.             cout << pToken << endl;
  21.             pToken = strtok(NULL, szSeps);
  22.         }         
  23. }

     當程式執行的時候,可能Thread1先執行  char *pToken = strtok(szSrc, szSeps);

     這時預設的strtok內部下一個指標地址指向了char szSrc[128] = "THIS,IS,A,TEST";的字串"IS,A,TEST"

    接下來執行緒2開始執行, char *pToken = strtok(szSrc, szSeps);

     這時預設的strtok內部下一個指標地址指向了char szSrc[128] = "HELLO WORLD THIS IS STRTOK TEST";的字元

串" WORLD THIS IS STRTOK TEST"

       那麼接下來會發生什麼奇怪的現象呢?

      Thread1 執行strtok(NULL, ",")由於分析的源串已經指向到了" WORLD THIS IS STRTOK TEST",所以將不能再分析得到任何以逗號(,)分隔的字串了!執行緒Thread2由於指向不變,仍然可以分析得到以空格( )分隔的字串。

 

      這個問題說明了在strtok是一個全域性函式,裡面使用了一個靜態地址指標,這樣的話,多執行緒呼叫就隨時會改變靜態指標的指向,程式執行的結果也就未為可知,不是程式本身希望實現的功能。

 

      所以,在多執行緒程式裡面,最好不要使用strtok函式!使用就得冒很大的程式執行結果不正確的風險

 

      這裡我寫了一個多執行緒安全的TStrTok函式,可以實現字串的分隔,基本原理是:將分隔字元填0,然後提取各個字串。

      下面是原始碼:

  1. #include <afxtempl.h>
  2. #include <iostream>
  3. using namespace std;
  4. /*--------------------------------------------------------------------------
  5.   - src (in) :  源串
  6.   - sep (in) :  分隔串
  7.   - srcLen (in):    源串長度
  8.   - sepLen (in):  分隔串長度
  9.   - sl     (out):  分析結果集字串
  10. *--------------------------------------------------------------------------*/
  11. BOOL MStrTok(const char* src, const char *sep, int srcLen, int sepLen, CStringArray &sa)
  12. {
  13.     if( (src == NULL) || (sep == NULL) )
  14.     {
  15.         return FALSE;
  16.     }
  17.     
  18.     int nMinLenSrc = min(strlen(src), srcLen);
  19.     int nMinLensep = min(strlen(sep), sepLen);
  20.     
  21.     char *pNew = new char[nMinLenSrc + 1];
  22.     memset(pNew, 0, nMinLenSrc + 1);
  23.     memcpy(pNew, src, nMinLenSrc);
  24.     
  25.     char *p = (char *)sep;
  26.     char *q = (char *)pNew;
  27.     int i = 0;
  28.     int j = 0;
  29.     while(*p != 0 && i < nMinLensep)
  30.     {
  31.         q = pNew;
  32.         for(j = 0; j < nMinLenSrc; j++)
  33.         {
  34.             if(*q == *p)
  35.                 *q = 0;
  36.             q++;
  37.         }
  38.         
  39.         p++;
  40.         i++;
  41.     }
  42.     
  43.     q = pNew;
  44.     i = 0;
  45.     while(i < nMinLenSrc)
  46.     {
  47.         if(*q != 0)
  48.         {
  49.             sa.Add(q);
  50.             
  51.             i += strlen(q);
  52.             q = pNew + i;
  53.         }
  54.         else
  55.         {
  56.             i++;
  57.             q++;
  58.         }
  59.     }
  60.     
  61.     delete []pNew;
  62.     
  63.     return TRUE;
  64. }
  65. int main()
  66. {
  67.     char szTest[] = "THIS IS A   ;    ,,,,, TStrTok,,,   TEST,        OK    ;NOW;;;;;;???";
  68.     char szSeps[] = ",; ";
  69.     CStringArray sa;
  70.     MStrTok(szTest, szSeps, sizeof(szTest), sizeof(szSeps), sa);
  71.     cout << endl;
  72.     for(int i = 0; i < sa.GetSize(); i++)
  73.     {
  74.         cout << (LPCTSTR)sa[i] << " ";
  75.     }
  76.     cout << endl;
  77.     getchar();
  78.     return 0;
  79. }
  80. /*
  81.   執行結果如下:
  82.   
  83.   THIS IS A TStrTok TEST OK NOW ???
  84.  */

----------------------------------------------------------------------------------------------------------------------------------------

【後記】:

      本文發表以後,很多網友提出了很多很好的意見和建議。我查了一下strtok_r這個多執行緒的字串分割

函式,發現在VC下無定義;在Unix下倒是可以用,但是Unix文件有說明,該函式會改寫源串,不建議使用。

      另外,我希望一次將所有的字串都分割出來,而不是一次次的呼叫,所以,我還是保留我的MStrTok

的定義方式,和原始的strtok是有差別的,使用時請注意。

      MStrTok的輸出是VC的CStringArray,如果要用標準C++,可以用vector代替CStringArray,在此不再贅述。

     原來的MStrTok效率可以改進,一次掃描足以得到結果,下面是改進後的MStrTok:

 

  1. BOOL MStrTok(const char* src, const char *sep, int srcLen, int sepLen, CStringArray &sa)
  2. {
  3.     if( (src == NULL) || (sep == NULL) )
  4.     {
  5.         return FALSE;
  6.     }
  7.     
  8.     int nMinLenSrc = min(strlen(src), srcLen);
  9.     int nMinLensep = min(strlen(sep), sepLen);
  10.     
  11.     char *pNew = new char[nMinLenSrc + 1];
  12.     memset(pNew, 0, nMinLenSrc + 1);
  13.     memcpy(pNew, src, nMinLenSrc);
  14.         
  15.     char *p = (char *)pNew;
  16.     char c;
  17.     int i = 0, n = 0;
  18.     char *pStr = NULL;
  19.     while(*p != 0 && n < nMinLenSrc)
  20.     {           
  21.         c = *sep;
  22.         for(i = 0; (i < nMinLensep) && (c != 0); i++)
  23.         {
  24.             c = *(sep + i);
  25.             if(c == *p)
  26.             {
  27.                 *p = 0;
  28.             }
  29.         }   
  30.         
  31.         if(*p == 0)
  32.         {
  33.             if(pStr != NULL)
  34.             {
  35.                 sa.Add(pStr);
  36.                 pStr = NULL;
  37.             }
  38.         }
  39.         else 
  40.         {
  41.             if (pStr == NULL) 
  42.             {
  43.                 pStr = p;               
  44.             }           
  45.         }
  46.         
  47.         p++;
  48.         n++;
  49.     }
  50.     if(pStr != NULL)
  51.     {
  52.         sa.Add(pStr);
  53.     }
  54.     
  55.     delete []pNew;  
  56.     return TRUE;
  57. }

相關文章