談談字串翻轉

Cyandev發表於2018-07-21

題圖來自 Unsplash

字串翻轉作為演算法題已經是一個不能再基礎的問題了,無非就是逆序遍歷、雙指標遍歷、遞迴,程式碼也能分分鐘寫出來:

void strrev(char *str) {
    size_t start = 0;
    size_t end = start + strlen(str) - 1;
    
    while (start < end) {
        char ch = str[start];
        str[start++] = str[end];
        str[end--] = ch;
    }
}
複製程式碼

OK,上面的程式碼放到 LeetCode 上絕對是能 AC 的,但是實際情況中能 AC 嗎?答案肯定是不能的!一個靠譜的字串翻轉演算法題放到 LeetCode 上至少是 Medium 的難度。

首先我們知道字串有編碼規則,比如我們常用的 UTF-8,Windows 早期採用的 UTF-16(函式名有 W 字尾的 API 採用這種編碼)等等...對於英文字母等 ASCII 字元的情況,UTF-8 和 ASCII 編碼都是一個位元組,所以上述的方法沒有太大問題。然而對於有中文的情況,一箇中文字元在 UTF-8 中會佔 3 個位元組,如果單純的按位元組翻轉就會出現亂碼。

那怎麼解決呢?

最簡單的方法就是使用 mbstowcs 函式將 char * 型別的字串轉換為 wchar_t 型別的寬字串,wchar_t 這個型別在 Linux、UNIX 系統上佔 4 個位元組,在 Windows 上佔 2 個位元組。4 個位元組意味著字元將用 UTF-32 來編碼,不管是漢字還是 Emoji 都能存放下來。但對於 2 個位元組,也就是 UTF-16,漢字是能表示,但是 Emoji 這類位於輔助平面碼位的字元需要兩個碼元來表示,本文的方法就暫不適用了。

首先我們來看一下改進版的字串翻轉:

static void strrev2(char *str) {
    setlocale(LC_CTYPE, "UTF-8");
    size_t len = mbstowcs(NULL, str, 0);
    wchar_t *wcs = (wchar_t *) calloc(len + 1, sizeof(wchar_t));
    mbstowcs(wcs, str, len + 1);
    
    size_t start = 0;
    size_t end = start + len - 1;
    
    while (start < end) {
        wchar_t wc = wcs[start];
        wcs[start++] = wcs[end];
        wcs[end--] = wc;
    }
    
    wcstombs(str, wcs, wcstombs(NULL, wcs, 0));
    free(wcs);
}
複製程式碼

使用 mbstowcs 這類轉換函式首先需要設定字串的系統編碼,不然函式無法確定你傳入的 char * 是個什麼東西,本文中不管是原始碼還是系統環境的 std I/O 都採用 UTF-8 編碼。

接下來我們呼叫一次 mbstowcs 不傳入目標地址和字元長度,這可以讓函式直接計算所需的 wchar_t 個數並返回回來以便我們申請記憶體。

然後就是基於 wchar_t 的一個常規字串翻轉了,最後別忘了轉換回去,釋放記憶體即可。

Bonus: Cocoa 開發中的字串翻轉

作為 iOS 開發者,當然還要考慮 OC 中的解決方法了。

方案 1:

通過 API 遍歷子串,然後前向插入到新的 NSMutableString 中。

- (NSString *)my_stringByReversing {
    NSMutableString *reversed = [NSMutableString stringWithCapacity:self.length];
    NSRange range = NSMakeRange(0, self.length);
    [self enumerateSubstringsInRange:range
                             options:NSStringEnumerationByComposedCharacterSequences
                          usingBlock:^(NSString * _Nullable substring, NSRange substringRange,
                                       NSRange enclosingRange, BOOL * _Nonnull stop) {
                              [reversed insertString:substring atIndex:0];
                          }];
    return [reversed copy];
}
複製程式碼

這種方法是效果最好的,它會將 Composed Emoji(如 ?‍?‍?‍?)也提取出來,因為這類 Emoji 是由多個 Unicode 字元組合而成的,所以即便是 4 個位元組的 wchar_t 也容納不下。但這種方法的弊端就是開銷太大,稍後我們做一個比較。

方案 2:

通過 API 獲取到 C String,然後用文章開頭所述的方法處理,再重新用處理後的 C String 構造 NSString

- (NSString *)my_stringByReversing2 {
    NSUInteger length = [self lengthOfBytesUsingEncoding:NSUTF8StringEncoding];
    char *buf = calloc(length + 1, 1);
    [self getCString:buf maxLength:length + 1 encoding:NSUTF8StringEncoding];
    strrev2(buf);
    NSString *reversed = [NSString stringWithCString:buf encoding:NSUTF8StringEncoding];
    free(buf);
    return reversed;
}
複製程式碼

這種方法的好處就是高效,經測試,它與遍歷的方法相比有 100 多倍的效能提升,但是問題就是無法處理複雜的 Emoji。

兩種方法,在使用中需要好好衡量一下。

方案 3:

Swift。Swift 的 String 的基本單位是 Character,它是 Unicode Scalar 的集合,表示了一個可渲染的字元,包括 Composed Emoji。並且,String 是實現了 BidirectionalCollection,擁有 reversed 方法,可以輕鬆實現字串翻轉。另外要提醒大家一下,正由於 Swift 的 String 是基於 Character 的,對於取某個字元這樣的操作,能複用之前的 Index 就複用,我見過很多人喜歡寫

str.index(str.startIndex, offsetBy: i)
複製程式碼

這樣是很費效能的,因為 Index 的移動操作需要從起點遍歷計算,用這種方法遍歷一遍字串的複雜度近似是 O(n!)

大家有興趣可以試試 Swift 的效能~

相關文章