1 字首樹結構(trie)、桶排序、排序總結
1.1 字首樹結構
單個字串中,字元從前到後的加到一顆多叉樹上
字元放在路上,節點上有專屬的資料項(常見的是pass和end值)
所有樣本都這樣新增。如果沒有路就新建,如果有路就複用
沿途節點的pass值增加1.每個字串結束時來到的節點end值增加1
一個字串陣列中,所有字串的字元數為N,整個陣列加入字首樹種的代價是O(N)
功能一:構建好字首樹之後,我們查詢某個字串在不在字首樹中,某字串在這顆字首樹中出現了幾次都是特別方便的。例如找"ab"在字首樹中存在幾次,可以先看有無走向a字元的路徑(如果沒有,直接不存在),再看走向b字元的路徑,此時檢查該節點的end標記的值,如果為0,則字首樹中不存在"ab"字串,如果e>0則,e等於幾則"ab"在字首樹種出現了幾次
功能二:如果單單是功能一,那麼雜湊表也可以實現。現查詢所有加入到字首樹的字串,有多少個以"a"字元作為字首,來到"a"的路徑,檢視p值大小,就是以"a"作為字首的字串數量
package class05;
import java.util.HashMap;
public class Code02_TrieTree {
public static class Node1 {
// pass表示字元從該節點的路徑通過
public int pass;
// end表示該字元到此節點結束
public int end;
public Node1[] nexts;
public Node1() {
pass = 0;
end = 0;
// 每個節點下預設26條路,分別是a~z
// 0 a
// 1 b
// 2 c
// .. ..
// 25 z
// nexts[i] == null i方向的路不存在
// nexts[i] != null i方向的路存在
nexts = new Node1[26];
}
}
public static class Trie1 {
// 預設只留出頭節點
private Node1 root;
public Trie1() {
root = new Node1();
}
// 往該字首樹中新增字串
public void insert(String word) {
if (word == null) {
return;
}
char[] str = word.toCharArray();
// 初始引用指向頭節點
Node1 node = root;
// 頭結點的pass首先++
node.pass++;
// 路徑的下標
int path = 0;
for (int i = 0; i < str.length; i++) { // 從左往右遍歷字元
// 當前字元減去'a'的ascii碼得到需要新增的下個節點下標
path = str[i] - 'a'; // 由字元,對應成走向哪條路
// 當前方向上沒有建立節點,即一開始不存在這條路,新開闢
if (node.nexts[path] == null) {
node.nexts[path] = new Node1();
}
// 引用指向當前來到的節點
node = node.nexts[path];
// 當前節點的pass++
node.pass++;
}
// 當新加的字串所有字元處理結束,最後引用指向的當前節點就是該字串的結尾節點,end++
node.end++;
}
// 刪除該字首樹的某個字串
public void delete(String word) {
// 首先要查一下該字串是否加入過
if (search(word) != 0) {
// 沿途pass--
char[] chs = word.toCharArray();
Node1 node = root;
node.pass--;
int path = 0;
for (int i = 0; i < chs.length; i++) {
path = chs[i] - 'a';
// 在尋找的過程中,pass為0,提前可以得知在本次刪除之後,該節點以下的路徑不再需要,可以直接刪除。
// 那麼該節點之下下個方向的節點引用置為空(JVM垃圾回收,相當於該節點下的路徑被刪了)
if (--node.nexts[path].pass == 0) {
node.nexts[path] = null;
return;
}
node = node.nexts[path];
}
// 最後end--
node.end--;
}
}
// 在該字首樹中查詢
// word這個單詞之前加入過幾次
public int search(String word) {
if (word == null) {
return 0;
}
char[] chs = word.toCharArray();
Node1 node = root;
int index = 0;
for (int i = 0; i < chs.length; i++) {
index = chs[i] - 'a';
// 尋找該字串的路徑中如果提前找不到path,就是未加入過,0次
if (node.nexts[index] == null) {
return 0;
}
node = node.nexts[index];
}
// 如果順利把word字串在字首樹中走完路徑,那麼此時的node對應的end值就是當前word在該字首樹中新增了幾次
return node.end;
}
// 所有加入的字串中,有幾個是以pre這個字串作為字首的
public int prefixNumber(String pre) {
if (pre == null) {
return 0;
}
char[] chs = pre.toCharArray();
Node1 node = root;
int index = 0;
for (int i = 0; i < chs.length; i++) {
index = chs[i] - 'a';
// 走不到最後,就沒有
if (node.nexts[index] == null) {
return 0;
}
node = node.nexts[index];
}
// 順利走到最後,返回的pass就是有多少個字串以當前pre為字首的
return node.pass;
}
}
/**
* 實現方式二,針對各種字串,路徑不僅僅是a~z對應的26個,用HashMap<Integer, Node2>表示ascii碼值對應的node。
**/
public static class Node2 {
public int pass;
public int end;
public HashMap<Integer, Node2> nexts;
public Node2() {
pass = 0;
end = 0;
nexts = new HashMap<>();
}
}
public static class Trie2 {
private Node2 root;
public Trie2() {
root = new Node2();
}
public void insert(String word) {
if (word == null) {
return;
}
char[] chs = word.toCharArray();
Node2 node = root;
node.pass++;
int index = 0;
for (int i = 0; i < chs.length; i++) {
index = (int) chs[i];
if (!node.nexts.containsKey(index)) {
node.nexts.put(index, new Node2());
}
node = node.nexts.get(index);
node.pass++;
}
node.end++;
}
public void delete(String word) {
if (search(word) != 0) {
char[] chs = word.toCharArray();
Node2 node = root;
node.pass--;
int index = 0;
for (int i = 0; i < chs.length; i++) {
index = (int) chs[i];
if (--node.nexts.get(index).pass == 0) {
node.nexts.remove(index);
return;
}
node = node.nexts.get(index);
}
node.end--;
}
}
// word這個單詞之前加入過幾次
public int search(String word) {
if (word == null) {
return 0;
}
char[] chs = word.toCharArray();
Node2 node = root;
int index = 0;
for (int i = 0; i < chs.length; i++) {
index = (int) chs[i];
if (!node.nexts.containsKey(index)) {
return 0;
}
node = node.nexts.get(index);
}
return node.end;
}
// 所有加入的字串中,有幾個是以pre這個字串作為字首的
public int prefixNumber(String pre) {
if (pre == null) {
return 0;
}
char[] chs = pre.toCharArray();
Node2 node = root;
int index = 0;
for (int i = 0; i < chs.length; i++) {
index = (int) chs[i];
if (!node.nexts.containsKey(index)) {
return 0;
}
node = node.nexts.get(index);
}
return node.pass;
}
}
public static class Right {
private HashMap<String, Integer> box;
public Right() {
box = new HashMap<>();
}
public void insert(String word) {
if (!box.containsKey(word)) {
box.put(word, 1);
} else {
box.put(word, box.get(word) + 1);
}
}
public void delete(String word) {
if (box.containsKey(word)) {
if (box.get(word) == 1) {
box.remove(word);
} else {
box.put(word, box.get(word) - 1);
}
}
}
public int search(String word) {
if (!box.containsKey(word)) {
return 0;
} else {
return box.get(word);
}
}
public int prefixNumber(String pre) {
int count = 0;
for (String cur : box.keySet()) {
if (cur.startsWith(pre)) {
count += box.get(cur);
}
}
return count;
}
}
// for test
public static String generateRandomString(int strLen) {
char[] ans = new char[(int) (Math.random() * strLen) + 1];
for (int i = 0; i < ans.length; i++) {
int value = (int) (Math.random() * 6);
ans[i] = (char) (97 + value);
}
return String.valueOf(ans);
}
// for test
public static String[] generateRandomStringArray(int arrLen, int strLen) {
String[] ans = new String[(int) (Math.random() * arrLen) + 1];
for (int i = 0; i < ans.length; i++) {
ans[i] = generateRandomString(strLen);
}
return ans;
}
public static void main(String[] args) {
int arrLen = 100;
int strLen = 20;
int testTimes = 100000;
for (int i = 0; i < testTimes; i++) {
String[] arr = generateRandomStringArray(arrLen, strLen);
Trie1 trie1 = new Trie1();
Trie2 trie2 = new Trie2();
Right right = new Right();
for (int j = 0; j < arr.length; j++) {
double decide = Math.random();
if (decide < 0.25) {
trie1.insert(arr[j]);
trie2.insert(arr[j]);
right.insert(arr[j]);
} else if (decide < 0.5) {
trie1.delete(arr[j]);
trie2.delete(arr[j]);
right.delete(arr[j]);
} else if (decide < 0.75) {
int ans1 = trie1.search(arr[j]);
int ans2 = trie2.search(arr[j]);
int ans3 = right.search(arr[j]);
if (ans1 != ans2 || ans2 != ans3) {
System.out.println("Oops!");
}
} else {
int ans1 = trie1.prefixNumber(arr[j]);
int ans2 = trie2.prefixNumber(arr[j]);
int ans3 = right.prefixNumber(arr[j]);
if (ans1 != ans2 || ans2 != ans3) {
System.out.println("Oops!");
}
}
}
}
System.out.println("finish!");
}
}
1.2 不基於比較的排序-桶排序
例如:一個代表員工年齡的陣列,排序。資料範圍有限,對每個年齡做詞頻統計。arr[0~200] = 0,M=200
空間換時間
1.2.1 計數排序
桶排序思想下的排序:計數排序 & 基數排序
1、 桶排序思想下的排序都是不基於比較的排序
2、 時間複雜度為O(N),二維空間複雜複雜度為O(M)
3、 應用範圍有限,需要樣本的資料狀況滿足桶的劃分
缺點:與樣本資料狀況強相關。
1.2.2 基數排序
應用條件:十進位制資料,非負
[100,17,29,13,5,27] 進行排序 =>
1、找最高位的那個數的長度,這裡100的長度為3,其他數前補0,得出
[100,017,029,013,005,027]
2、 準備10個桶,對應的數字0~9號桶,每個桶是一個佇列。根據樣本按個位數字對應進桶,相同個位數字進入佇列,再從0號桶以此倒出,佇列先進先出。個位進桶再依次倒出,得出:
[100,013,005,017,027,029]
3、 再把按照個位進桶倒出的樣本,再按十位進桶,再按相同規則倒出得:
[100,005,013,017,027,029]
4、再把得到的樣本按百位進桶,倒出得:
[005,013,017,027,029,100]
此時達到有序!
思想:先按各位數字排序,各位數字排好序,再用十位數字的順序去調整,再按百位次序調整。優先順序依次遞增,百位優先順序最高,百位優先順序一樣預設按照上一層十位的順序...
結論:基於比較的排序,時間複雜度的極限就是O(NlogN),而不基於比較的排序,時間複雜度可以達到O(N)。在面試或刷題,估算排序的時間複雜度的時候,必須用基於比較的排序來估算
/**
* 計數排序
**/
package class05;
import java.util.Arrays;
public class Code03_CountSort {
// 計數排序
// only for 0~200 value
public static void countSort(int[] arr) {
if (arr == null || arr.length < 2) {
return;
}
int max = Integer.MIN_VALUE;
for (int i = 0; i < arr.length; i++) {
max = Math.max(max, arr[i]);
}
int[] bucket = new int[max + 1];
for (int i = 0; i < arr.length; i++) {
bucket[arr[i]]++;
}
int i = 0;
for (int j = 0; j < bucket.length; j++) {
while (bucket[j]-- > 0) {
arr[i++] = j;
}
}
}
// for test
public static void comparator(int[] arr) {
Arrays.sort(arr);
}
// for test
public static int[] generateRandomArray(int maxSize, int maxValue) {
int[] arr = new int[(int) ((maxSize + 1) * Math.random())];
for (int i = 0; i < arr.length; i++) {
arr[i] = (int) ((maxValue + 1) * Math.random());
}
return arr;
}
// for test
public static int[] copyArray(int[] arr) {
if (arr == null) {
return null;
}
int[] res = new int[arr.length];
for (int i = 0; i < arr.length; i++) {
res[i] = arr[i];
}
return res;
}
// for test
public static boolean isEqual(int[] arr1, int[] arr2) {
if ((arr1 == null && arr2 != null) || (arr1 != null && arr2 == null)) {
return false;
}
if (arr1 == null && arr2 == null) {
return true;
}
if (arr1.length != arr2.length) {
return false;
}
for (int i = 0; i < arr1.length; i++) {
if (arr1[i] != arr2[i]) {
return false;
}
}
return true;
}
// for test
public static void printArray(int[] arr) {
if (arr == null) {
return;
}
for (int i = 0; i < arr.length; i++) {
System.out.print(arr[i] + " ");
}
System.out.println();
}
// for test
public static void main(String[] args) {
int testTime = 500000;
int maxSize = 100;
int maxValue = 150;
boolean succeed = true;
for (int i = 0; i < testTime; i++) {
int[] arr1 = generateRandomArray(maxSize, maxValue);
int[] arr2 = copyArray(arr1);
countSort(arr1);
comparator(arr2);
if (!isEqual(arr1, arr2)) {
succeed = false;
printArray(arr1);
printArray(arr2);
break;
}
}
System.out.println(succeed ? "Nice!" : "Fucking fucked!");
int[] arr = generateRandomArray(maxSize, maxValue);
printArray(arr);
countSort(arr);
printArray(arr);
}
}
下面程式碼的思想:
例如原陣列[101,003,202,41,302]。得到按個位的詞頻conut陣列為[0,2,2,1,0,0,0,0,0,0]。通過conut詞頻累加得到conut'為[0,2,4,5,5,5,5,5,5,5],此時conut'的含義表示個位數字小於等於0的數字有0個,個位數字小於等於1的有兩個,個位數字小於等於2的有4個......
得到conut'之後,對原陣列[101,003,202,41,302]從右往左遍歷。根據基數排序的思想,302應該是2號桶最後被倒出的,我們已經知道個位數字小於等於2的有4個,那麼302就是4箇中的最後一個,放在help陣列的3號位置,相應的conut'小於等於2位置的詞頻減減變為3。同理,41是1號桶的最後一個,個位數字小於等於1的數字有兩個,那麼41需要放在1號位置,小於等於1位置的詞頻減減變為1,同理......
實質增加conut和count'結構,避免申請十個佇列結構,不想炫技直接申請10個佇列結構,按基數排序思想直接做沒問題
實質上,基數排序的時間複雜度是O(Nlog10max(N)),log10N表示十進位制的數的位數,但是我們認為基數排序的應用樣本範圍不大。如果要排任意位數的值,嚴格上就是O(Nlog10max(N))
/**
* 基數排序
**/
package class05;
import java.util.Arrays;
public class Code04_RadixSort {
// 非負數,十進位制,如果負數需要深度改寫這個方法
// only for no-negative value
public static void radixSort(int[] arr) {
if (arr == null || arr.length < 2) {
return;
}
radixSort(arr, 0, arr.length - 1, maxbits(arr));
}
// 計算陣列樣本中最大值的位數
public static int maxbits(int[] arr) {
int max = Integer.MIN_VALUE;
for (int i = 0; i < arr.length; i++) {
max = Math.max(max, arr[i]);
}
int res = 0;
while (max != 0) {
res++;
max /= 10;
}
return res;
}
// arr[l..r]排序 , digit:最大值的位數
// l..r [3, 56, 17, 100] 3
public static void radixSort(int[] arr, int L, int R, int digit) {
// 由於十進位制的數,我們依10位基底
final int radix = 10;
int i = 0, j = 0;
// 有多少個數準備多少個輔助空間
int[] help = new int[R - L + 1];
for (int d = 1; d <= digit; d++) { // 有多少位就進出幾次
// 10個空間
// count[0] 當前位(d位)是0的數字有多少個
// count[1] 當前位(d位)是(0和1)的數字有多少個
// count[2] 當前位(d位)是(0、1和2)的數字有多少個
// count[i] 當前位(d位)是(0~i)的數字有多少個
int[] count = new int[radix]; // count[0..9]
for (i = L; i <= R; i++) {
// 103的話 d是1表示個位 取出j=3
// 209 1 9
j = getDigit(arr[i], d);
count[j]++;
}
// conut往conut'的轉化
for (i = 1; i < radix; i++) {
count[i] = count[i] + count[i - 1];
}
// i從最後位置往前看
for (i = R; i >= L; i--) {
j = getDigit(arr[i], d);
help[count[j] - 1] = arr[i];
// 詞頻--
count[j]--;
}
// 處理完個位十位...之後都要往原陣列copy
for (i = L, j = 0; i <= R; i++, j++) {
arr[i] = help[j];
}
}
}
public static int getDigit(int x, int d) {
return ((x / ((int) Math.pow(10, d - 1))) % 10);
}
// for test
public static void comparator(int[] arr) {
Arrays.sort(arr);
}
// for test
public static int[] generateRandomArray(int maxSize, int maxValue) {
int[] arr = new int[(int) ((maxSize + 1) * Math.random())];
for (int i = 0; i < arr.length; i++) {
arr[i] = (int) ((maxValue + 1) * Math.random());
}
return arr;
}
// for test
public static int[] copyArray(int[] arr) {
if (arr == null) {
return null;
}
int[] res = new int[arr.length];
for (int i = 0; i < arr.length; i++) {
res[i] = arr[i];
}
return res;
}
// for test
public static boolean isEqual(int[] arr1, int[] arr2) {
if ((arr1 == null && arr2 != null) || (arr1 != null && arr2 == null)) {
return false;
}
if (arr1 == null && arr2 == null) {
return true;
}
if (arr1.length != arr2.length) {
return false;
}
for (int i = 0; i < arr1.length; i++) {
if (arr1[i] != arr2[i]) {
return false;
}
}
return true;
}
// for test
public static void printArray(int[] arr) {
if (arr == null) {
return;
}
for (int i = 0; i < arr.length; i++) {
System.out.print(arr[i] + " ");
}
System.out.println();
}
// for test
public static void main(String[] args) {
int testTime = 500000;
int maxSize = 100;
int maxValue = 100000;
boolean succeed = true;
for (int i = 0; i < testTime; i++) {
int[] arr1 = generateRandomArray(maxSize, maxValue);
int[] arr2 = copyArray(arr1);
radixSort(arr1);
comparator(arr2);
if (!isEqual(arr1, arr2)) {
succeed = false;
printArray(arr1);
printArray(arr2);
break;
}
}
System.out.println(succeed ? "Nice!" : "Fucking fucked!");
int[] arr = generateRandomArray(maxSize, maxValue);
printArray(arr);
radixSort(arr);
printArray(arr);
}
}
1.3 排序演算法的穩定性
穩定性是指同樣大小的樣本在排序之後不會改變相對次序。基礎型別穩定性沒意義,用處是按引用傳遞後是否穩定。比如學生有班級和年齡兩個屬性,先按班級排序,再按年齡排序,那麼如果是穩定性的排序,不會破壞之前已經按班級拍好的順序
穩定性排序的應用場景:購物時候,先按價格排序商品,再按好評度排序,那麼好評度實在價格排好序的基礎上。反之不穩定排序會破壞一開始按照價格排好的次序
1.3.1 穩定的排序
1、 氣泡排序(處理相等時不交換)
2、 插入排序(相等不交換)
3、 歸併排序(merge時候,相等先copy左邊的)
1.3.2 不穩定的排序
1、 選擇排序
2、 快速排序 (partion過程無法保證穩定)
3、 堆排序 (維持堆結構)
1.3.3 排序穩定性對比
排序 | 時間複雜度 | 空間複雜度 | 穩定性 |
---|---|---|---|
選擇排序 | O(N^2) | O(1) | 無 |
氣泡排序 | O(N^2) | O(1) | 有 |
插入排序 | O(N^2) | O(1) | 有 |
歸併排序 | O(NlogN) | O(N) | 有 |
隨機快拍 | O(NlogN) | O(logN) | 無 |
堆排序 | O(NlogN) | O(1) | 無 |
計數排序 | O(N) | O(M) | 有 |
堆排序 | O(N) | O(N) | 有 |
1.4 排序演算法總結
- 不基於比較的排序,對樣本資料有嚴格要求,不易改寫
- 基於比較的排序,只要規定好兩個樣本怎麼比較大小就可以直接複用
- 基於比較的排序,時間複雜度的極限是O(NlogN)
- 時間複雜度O(NlogN)、額外空間複雜度低於O(N),且穩定的基於比較的排序是不存在的
- 為了絕對的速度選擇快排(快排的常數時間低),為了節省空間選擇堆排序,為了穩定性選歸併
1.5 排序常見的坑點
歸併排序的額為空間複雜度可以變為O(1)。“歸併排序內部快取法”,但是將會變的不穩定。不考慮穩定不如直接選擇堆排序
“原地歸併排序”是垃圾帖子,會讓時間複雜度變成O(N ^2)。時間複雜度退到O(N ^2)不如直接選擇插入排序
快速排序穩定性改進,“01 stable sort”,但是會對樣本資料要求更多。對資料進行限制,不如選擇桶排序
在整形陣列中,請把奇數放在陣列左邊,偶數放在陣列右邊,要求所有奇數之間原始次序不變,所有偶數之間原始次序不變。要求時間複雜度O(N),額為空間複雜度O(1)。這是個01標準的partion,奇偶規則,但是快速排序的partion過程做不到穩定性。所以正常實現不了,學術論文(01 stable sort,不建議碰,比較難)中需要把資料閹割限制之後才能做到
1.6 工程上對排序的改進
穩定性考慮:值傳遞,直接快排,引用傳遞,歸併排序
充分利用O(NlogN)和O(N^2)排序各自的優勢:根據樣本量底層基於多種排序實現,比如樣本量比較小直接選擇插入排序。
比如Java中系統實現的快速排序