Python演算法:如何解決迴文索引問題

2018-03-22    分類:演算法設計、程式設計開發、首頁精華0人評論發表於2018-03-22

本文由碼農網 – 小峰原創翻譯,轉載請看清文末的轉載要求,歡迎參與我們的付費投稿計劃

給定一個單詞word和一個字串S,找到S中的所有起始索引——word的迴文。

例如,假設word是“ab”,並且S是“abxaba”,則返回0,3和4。

蠻力破解

對於這個問題野蠻的解決方案是遍歷S中每個單詞大小的視窗並檢查它們是否是迴文,如下所示:

from collections import Counter

def is_anagram(s1, s2):
    return Counter(s1) == Counter(s2)

def anagram_indices(word, s):
    result = []
    for i in range(len(s) - len(word) + 1):
        window = s[i:i + len(word)]
        if is_anagram(window, word):
            result.append(i)
    return result

這將花費O(|W| * |S|)時間。有沒有更快的方法呢?

試試雜湊

解決這個問題可以使用的一種方法是Rabin-Karp演算法。基本思想是我們可以對目標word做一個基於頻率的雜湊,並檢查s下的任何視窗是否雜湊為相同的值。也就是說,雜湊將是每個字元和其頻率的char * prime_num ** char_freq之和。如果word和視窗的雜湊匹配,則我們可以對兩個字串手動加上== 。因為預計衝突很少,所以時間將是O(S)。但是,解決這個問題有一個更簡單的方法:

計數差異

請注意,沿著視窗移動意味著當實際只有一小部分更新的時候,重新計算整個視窗的頻率計數。這種見解引導我們採取以下策略:

  • 製作目標單詞的頻率字典
  • 當我們沿著字串前進時,持續比較差異
  • 當字典為空時,視窗和單詞匹配

我們通過增加視窗中的新字元並刪除舊的字元來區分我們的頻率字典。

class FrequencyDict:
    def __init__(self, s):
        self.d = {}
        for char in s:
            self.increment(char)

    def _create_if_not_exists(self, char):
        if char not in self.d:
            self.d[char] = 0

    def _del_if_zero(self, char):
        if self.d[char] == 0:
            del self.d[char]

    def is_empty(self):
        return not self.d

    def decrement(self, char):
        self._create_if_not_exists(char)
        self.d[char] -= 1
        self._del_if_zero(char)

    def increment(self, char):
        self._create_if_not_exists(char)
        self.d[char] += 1
        self._del_if_zero(char)

def anagram_indices(word, s):
    result = []

    freq = FrequencyDict(word)

    for char in s[:len(word)]:
        freq.decrement(char)

    if freq.is_empty():
        result.append(0)

    for i in range(len(word), len(s)):
        start_char, end_char = s[i - len(word)], s[i]
        freq.increment(start_char)
        freq.decrement(end_char)
        if freq.is_empty():
            beginning_index = i - len(word) + 1
            result.append(beginning_index)

    return result

這應該在O(S)時間執行。

歡迎繼續探索其他有趣的程式設計問題。

譯文連結:http://www.codeceo.com/article/python-anagram-indices.html
英文原文:How to Solve the Anagram Indices Problem
翻譯作者:碼農網 – 小峰
轉載必須在正文中標註並保留原文連結、譯文連結和譯者等資訊。]

相關文章