編碼理論研究的是各種編碼的性質及其應用。傳統意義上的編碼,是指把某個資訊空間對映到某個具有特殊性質的度量空間。原空間的每個元素被稱之為資訊,對映後得到的物件被稱之為 codeword。一類最常見的特殊性質是糾錯性質,也就是 codewords 之間的距離相對較遠,這樣的話,當發生在 codeword 上的錯誤量不超過距離的一半時,就還是可以恢復出正確的 codeword。
Locally Decodable Code (LDC) 是一種特殊的糾錯碼,它的糾錯演算法就有區域性訪問特性,就是在指定任意一個資訊位元之後,該演算法可以透過僅僅訪問“codeword”中的少量位元就能恢復事先指定的任意一個資訊位元。
計算下界是理論電腦科學常見的研究目標之一。通俗來講就是研究給定的計算模型或計算方式解決不了什麼樣的問題。與之相對的是計算上界,一般的含義就是什麼樣的問題可以被(有效)解決。具體來說,這篇新工作研究的是什麼樣引數的 LDC 是不可能存在的。關於這裡的引數,之前的研究最關注的一般是冗餘度,就是資訊長度和編碼長度的比例。
該問題針對漢明距離 LDC 的版本已經在過去幾十年中被充分研究了,這些研究的主要目標瞭解想要在大量錯誤和較少查詢的情況下解碼,多少冗餘度是必要的或足夠的。前面給出的冗餘度一般是指數級的。這意味著,即使最好的漢明距離 LDC,它的編碼長度也必須是資訊長度的指數,即冗餘度很大。
這篇新的工作研究的是針對 insertion deletion (insdel) 的 LDC。Insdel 的含義是指錯誤型別包括插入字元和刪除字元。該研究最初由 Ostrovsky 和 Paskin-Cherniavsky 開始,它們的方法是構建從漢明 LDC 到 Insdel LDC 的歸約。而新工作則給出了一個新的證明方法,並且給出了 Insdel LDC 的更強的計算下界。一是 2-query insdel LDC 只能支援常數個資訊位元,二是所有 q-query insdel LDC 都有指數級的下界,q 是任意常數。這些下界比針對漢明距離的 LDC 的下界要明顯更強。比如 2-query 的情況,新工作的結論意味著,無論如何構造 LDC,不管編碼長度設定成多長,哪怕是任何的超越指數這種級別,其資訊量也只能是常數個位元。另外簡單思考一下不難看出,只含有常數個資訊位元的 Insdel LDC 是很容易構造的,大量重複資訊位元即可。這也就意味之我們給出的計算下界已經基本匹配了該問題的計算上界,形成了對該問題研究的比較完整的刻畫。
新工作在方法上的主要創新是構造了一些精巧的特殊 insdel 分佈(如圖中所示),並分析了這種分佈對 insdel LDC 的影響。
該論文與普渡大學的 Jeremiah Blocki, Elena Grigorescu, Minshen Zhu 以及約翰斯霍普金斯大學的 Xin Li, Yu Zheng 合作完成。該工作得到了北京大學引進人才啟動經費和北京大學資訊科技高等研究院的經費支援。
圖文 | 程寬