【字串】優雅的暴力——字串下的雜湊判重問題

gzr發表於2019-05-26

原文網址 : https://www.cnblogs.com/TFLS-gzr/p/10927097.html

　　在刷題/比賽時經常會遇到判重的問題，那麼這次就來講一講字串上的判重問題。

▎雜湊是什麼

　　判重我們通常會想到什麼？小編首先想到的是桶排序，這種排序正是用了雜湊的方法，其實把雜湊理解為一堆桶更合適。

　　比如說現在給你一堆數字，讓你判斷一共有幾種數字（也就是重複出現的不算）： 1 5 4 1 1 3 5 6 。以雜湊的思想來解決就是這樣的：

　　放若干個桶，每個桶代表一種數，遇到相應的數字就放進去，判斷幾種數字就轉換成了判斷有幾個有東西的桶就可以了。

　　那麼，接下來思考一個問題：怎麼存這些桶？要存這些桶只要用絕對不可能重複出現的量來代表桶的序號，例如……陣列下標！我們可以利用陣列下標來當做桶，每個桶裡面東西的個數就是對應陣列元素的值。比如說用一個叫做a的陣列來存這些桶，當遇到數字3時，只要將a[ 3 ] ++；就可以了。

　　其實這就是雜湊，所以說理解成一堆桶更形象。

▎字串下的雜湊

　　看到這裡，你一定會想，字串雜湊有什麼好講的？不也是一個道理嗎？當然不行！仔細想想，陣列下標怎麼儲存成字串呢？陣列下標都是整數的啊！

　　此時出路就很敞亮了，我們可以把字串轉換成整數處理！

　　還記得嗎？在最開始學習時還學過ASCII碼，我們可以通過強制轉換替換成整數。

　　可是問題又來了，如何用ASCII表示字串？例如AB，其中A的ASCII碼是65，B的ASCII碼是66。

　　1）用加的：AB表示為65+66=131。反例：BA表示為66+65=131，可AB和BA不一樣；

　　2）用減的、乘的、除的，似乎都同上，表示出的值都不唯一；

　　3）放在一起：AB表示為6566，這樣的確舉不出什麼反例了，但是數字的值變大了，同時也區分不回去了，6566究竟是6和566呢？還是6,56和6呢？似乎不知道原來的字串長什麼樣了。

　　自然而然，我們便想到了轉進位制，這樣不易發生問題。那麼取什麼樣的進位制會不發生或少發生問題呢？我們往往會取27,233,19260817等等，具體會視情況而定。（稍後會有例題講解）。

　　有時會超出unsigned long long的範圍，那該怎麼辦呢？那麼我們就要用取模的方法了，通常會模一個很大的質數，模多少可以看看題後的資料規模是多大。

　　有些時候會發生一些情況，比如3%2=1,5%2=1（打個比方，一般模數不會這麼小），所以兩個數取模後當成了一個數來處理，這便叫做雜湊衝突，在做題時要減少這種衝突的產生。

▎例題——【模板】字串雜湊

題目描述

如題，給定N個字串（第i個字串長度為Mi，字串內包含數字、大小寫字母，大小寫敏感），請求出N個字串中共有多少個不同的字串。

輸入輸出格式

輸入格式：

第一行包含一個整數N，為字串的個數。

接下來N行每行包含一個字串，為所提供的字串。

輸出格式：

輸出包含一行，包含一個整數，為不同的字串個數。

輸入輸出樣例

輸入樣例#1：

5
abc
aaaa
abc
abcc
12345

輸出樣例#1：

說明

時空限制：1000ms,128M

資料規模：

對於30%的資料：N<=10，Mi≈6，Mmax<=15;

對於70%的資料：N<=1000，Mi≈100，Mmax<=150

對於100%的資料：N<=10000，Mi≈1000，Mmax<=1500

樣例說明：

樣例中第一個字串(abc)和第三個字串(abc)是一樣的，所以所提供字串的集合為{aaaa,abc,abcc,12345}，故共計4個不同的字串。

　　這道題完全是模板題，直接套思路就好了。

▎Code speaks louder than words!

　　話不多說，直接上程式碼（詳見註釋）

 1 #include<iostream>
 2 #include<algorithm>
 3 using namespace std;
 4 string s;int n;int hash[10000],mod=19270817,k=30,ans=1;
 5 int Hash(string str)
 6 {
 7         int len=str.length();
 8         int value=0;
 9         for(int i=0;i<len;i++)
10         value=value*k+((int)str[i]-96);//轉進位制
11         return value;//這裡其實也可以模一下，不過資料規模沒有那麼大
12 }
13 int main()
14 {
15         cin>>n;
16         for(int i=1;i<=n;i++)
17         {
18                 cin>>s;
19                 hash[i]=Hash(s);//儲存每個字串轉換後的雜湊值
20         }
21         sort(hash+1,hash+n+1);//排序，目的是為了排除相同雜湊值的字串
22         for(int i=2;i<=n;i++)
23         if(hash[i]!=hash[i-1]) ans++;//如果雜湊值不同，那麼兩個字串就不一樣
24         cout<<ans;
25         return 0;
26 }

▎map是啥？

　　說來對於這種題來說還有一大利器——map。簡單介紹一下：

　　1）標頭檔案：#include<map>

　　2）定義：map< 型別，型別 > 變數名；

　　第一個型別是陣列下標的型別，第二個變數是陣列值的型別

　　3）用處：map定義出來的東西可以理解為陣列下標為任意的陣列，這恰恰起到了剛才那道題最開始思路的效果

　　4）舉個例子：比如說要定義一個陣列下標是字串的整型陣列s，可以這麼寫map< string , int > s；

　　怎麼解剛才那道題？直接普通雜湊就可以了，就不寫註釋了。

 1 #include<iostream>
 2 #include<map>
 3 using namespace std;
 4 map<string,int>s;string str[100000];int n,ans;
 5 int main()
 6 {
 7     cin>>n;
 8     for(int i=1;i<=n;i++)
 9     {
10         cin>>str[i];
11         s[str[i]]=1;
12     }
13     for(int i=1;i<=n;i++)
14     {
15         if(s[str[i]]==1)
16         {
17             ans++;
18             s[str[i]]=0;
19         }
20     }
21     cout<<ans;
22     return 0;
23 }

▎為什麼放著map不用而用前一種方法

　　map看起來好用，就像陣列一樣，其實map只是單單的對映，簡單來說就是暴力查詢，時間複雜度可想而知，這速度很慢，有時是可以AC題目的，但有時是滿足不了題目的要求的時間的，所以還是老老實實用字串下的雜湊吧。

字串雜湊
2024-07-25
字串
字串查詢（字串雜湊）
2020-11-10
字串
字串雜湊表
2020-10-08
字串
leetcode 1525 字串的好分割數目（雜湊表，字串分割）
2020-10-20
LeetCode字串
洛谷題單指南-集合-P3370 【模板】字串雜湊
2024-03-20
字串
分塊——優雅的暴力
2024-06-04
第五章字串專題 ---------------- 5.1 題解：判斷字串有無重複字元
2019-03-17
字串字元
JavaScript複雜判斷的更優雅寫法
2018-11-13
JavaScript
JavaScript 複雜判斷的更優雅寫法
2018-11-14
JavaScript
Luogu P9606 CERC2019 ABB 題解 [ 綠 ] [ KMP ] [ 字串雜湊 ]
2024-12-10
KMP字串
字串轉數字的問題
2024-11-13
字串
淺談最長迴文子串求法——字串雜湊
2024-11-22
字串
分割字串問題
2019-03-26
字串
字串判空、判等
2024-08-09
字串
重複的子字串
2020-08-24
字串
第五章字串專題 ---------------- 5.6 解題：判斷兩字串的字符集是否相同
2019-03-18
字串
fastjson字串轉JSON的$ref問題
2022-01-15
ASTJSON字串
一個有趣的問題: 如何用HashSet來儲存重複的字串？
2019-02-23
字串
sqlserver根據雜湊演算法生成類似uuid字串
2024-04-09
SQLServer演算法UI字串
JAVA 解析複雜的json字串
2018-07-20
JavaJSON字串
字串匹配模式問題
2018-07-03
字串匹配模式
分塊=-=優雅的暴力=-=中位數模版
2024-05-03
[20181229]關於字串的分配問題.txt
2018-12-31
字串
C#根據雜湊演算法生成類似uuid字串
2024-04-09
C#演算法UI字串
CF 2010 C2. Message Transmission Error (hard version) (*1700) 字串+雜湊
2024-09-04
Error字串
教你幾種PostgreSQL判斷字串是否包含目標字串的方法
2021-03-12
SQL字串
Redis中的一致性雜湊問題
2020-11-06
Redis
幾道和雜湊（雜湊）表有關的面試題
2019-03-15
面試題
字串排列組合問題
2018-09-12
字串
字串混淆常見問題
2024-03-24
字串
如何判斷一個雜湊函式的好壞
2021-11-08
函式
js 雜湊雜湊值的模組
2020-12-21
JS
Java 字串比較、拼接問題
2020-07-11
Java字串
String字串效能優化的探究
2020-10-28
字串優化
判斷字串是否為空
2018-10-17
字串
判斷字串是否唯一
2024-04-02
字串
判斷URL字串是否合法
2020-10-21
字串
【JAVA】判斷字串非空
2019-03-25
Java字串

【字串】 優雅的暴力——字串下的雜湊判重問題

題目描述

輸入輸出格式

輸入輸出樣例

說明

相關文章

【字串】優雅的暴力——字串下的雜湊判重問題