數理統計筆記[牛客專項練習]

目前移動裝置主流的螢幕幀率是每秒(60)幀

下面資料結構能夠支援隨機的插入和刪除操作、並具有較好的效能的是

正確答案: A

連結串列和雜湊表
陣列和連結串列
雜湊表和佇列
堆疊和雙向佇列

陣列插入刪除要移動大量元素，不滿足具有較好效能

如果某系統12*5=61成立，則系統採用的是()進位制

(1 * n + 2) * 5 = 6 * n + 1
n = 9

在黑盒測試方法中，設計測試用例的主要根據是

正確答案: B

程式內部邏輯
程式外部功能
程式資料結構
程式流程圖

黑盒測試是對軟體已經實現的功能是否滿足需求進行測試和驗證，黑盒測試完全不考慮程式內部的邏輯結構和內部特性，只根據程式的需求和功能規格說明，檢查程式的功能是否符合它的功能說明。

白盒測試又稱結構測試、透明盒測試、邏輯驅動測試或基於程式碼的測試。白盒測試是一種測試用例設計方法，盒子指的是被測試的軟體，白盒指的是盒子是可視的，你清楚盒子內部的東西以及裡面是如何運作的。"白盒"法全面瞭解程式內部邏輯結構、對所有邏輯路徑進行測試。"白盒"法是窮舉路徑測試。在使用這一方案時，測試者必須檢查程式的內部結構，從檢查程式的邏輯著手，得出測試資料。貫穿程式的獨立路徑數是天文數字。

對於以下程式碼，

char* p=new char[100];

正確的是 D

p和new出來的記憶體都在棧上
p和new出來的記憶體都在堆上
p在堆上，new出來的在棧上
p在棧上，new出來的在堆上

new 出來的物件放在堆中，區域性變數放在棧中。

設 q （ n ， m ）是將正整數 n 劃分成最大加數不大於 m 的若干不同正整數之和的劃分數，則 q （ n ， m ）為（）。

正確答案: B
遞迴思想，1）n=1或m=1時，n分成不大於m的正整數的和的劃分數只有1一種。2）n<m時，n分成不大於m的整數==n分成不大於n的整數（n總不能大於n吧）==q(n,n)。3）n=m時將n分成n(m)這一種情況去掉，就變成1+q(n,n-1)。4）n>m>1時，首先q(n,m-1)中m-1>0為正整數所以1要排除，這一項意味著把所有將n拆解出的可能中包含m的部分去掉，然後去掉的部分等價於q(n-m,m),這個式子意味著n被預設已經拆出來一個m，然後再讓他分解出的整數不大於m。

現在有一個tcp服務端監聽了80埠，問最多同時能建立多少連線

正確答案: D

1023
65534
64511
非常多基本和記憶體大小相關

在大規模的語料中，挖掘詞的相關性是一個重要的問題。以下哪一個資訊不能用於確定兩個詞的相關性。

正確答案: B

互資訊
最大熵
卡方檢驗
最大似然比

最大熵代表了整體分佈的資訊，通常具有最大熵的分佈作為該隨機變數的分佈，不能體現兩個詞的相關性，但是卡方是檢驗兩類事務發生的相關性。

下面關於ID3演算法中說法錯誤的是（）

正確答案: D

ID3演算法要求特徵必須離散化
資訊增益可以用熵，而不是GINI係數來計算
選取資訊增益最大的特徵，作為樹的根節點
ID3演算法是一個二叉樹模型

ID3演算法（Iterative Dichotomiser 3 迭代二叉樹3代）是一個由Ross Quinlan發明的用於決策樹的演算法。可以歸納為以下幾點：

使用所有沒有使用的屬性並計算與之相關的樣本熵值
選取其中熵值最小的屬性
生成包含該屬性的節點
D3演算法對資料的要求：
所有屬性必須為離散量；
所有的訓練例的所有屬性必須有一個明確的值；
相同的因素必須得到相同的結論且訓練例必須唯一。

ID3 演算法生成的決策樹是一棵多叉樹，分支的數量取決於分裂屬性有多少個不同的取值

執行以下程式碼

#define SUM(x,y) x+y
int a=3;
int b=2;
a+=a*SUM(a,b)*b;

a的值為: 正確答案: A

16
30
33
39

巨集函式SUM只在預編譯階段做預處理工作，即只是簡單地進行字元替換而已。

a += a*SUM(a,b)*b
a+= a*a+b*b

如果要得到C選項，巨集函式就得這樣寫：

#define SUM(x, y) ((x)+(y))

N-gram是一種簡單有效的統計語言模型，通常n採用1-3之間的值，它們分別稱為unigram、bigram和trigram。現有給定訓練語料合計三個文件如下：

D1： John read Moby Dick
D2： Mary read a different book,
D3： She read a book by Cher
利用bigram求出句子“John read a book”的概率大約是（）
正確答案: B

1
0.06
0.09
0.0008

unigram,bigram,trigram,是自然語言處理（NLP）中的問題。父詞條：n-gram.
unigram: 單個word P(s1,s2,s3…) = P(s1)*P(s2)*P(s3)…
bigram: 雙word
trigram:3 word P(s1,s2,s3…) = P(s1)*P(s2|s1)*P(s3|s1s2)…
比如：
西安交通大學：
unigram 形式為：西/安/交/通/大/學
bigram形式為：西安/安交/交通/通大/大學
trigram形式為：西安交/安交通/交通大/通大學

下列有關k-mean演算法說法正確的是()

正確答案: A D

不能自動識別類的個數,隨機挑選初始點為中心點計算
資料數量不多時,輸入的資料的順序不同會導致結果不同
不能自動識別類的個數,不是隨機挑選初始點為中心點計算
初始聚類中心的選擇對聚類結果的影響很大

B: Kmeans優化目標函式的過程中，兩步均是遍歷所有的點，累加損失。因此與資料的輸入順序無關。
D：傳統的K-means聚類演算法太依賴於聚類數目和初始聚類中心位置的選擇了，聚類數目一般要人為設定，這個根據經驗來定，至於位置，一般可以選擇生成隨機數的方法，隨機數就比較隨意了，如果隨機數剛好落在了密度很大的資料區域，本來這個區域是最終可以聚為一類的，可是現在有好幾個初始聚類中心落在這裡了，那麼這個區域就會被強行劃分成幾類，顯然就會造成誤檢，誤檢就是，本來不應該形成一類，卻形成了。Ref

正常建立一條TCP連線需要（）個步驟，正常關閉一個TCP連線需要（）個步驟

正確答案: B

3,3
3,4
4,4
4,3

三次握手四次揮手

在給定檔案中查詢與設定條件相符字串的命令

正確答案: B

gzip
grep
ls
find

一個有偏的硬幣，拋了100次，出現1次人頭，99次字。問用最大似然估計（ML）和最小均方誤差（LSE）估計出現人頭的概率哪個大？

正確答案: B

ML=MSE
ML>MSE
ML<MSE

解答：相等
在這裡插入圖片描述

在移動裝置息屏時，以下哪種情況不一定導致大量耗電

正確答案: D

使用gps導航
訊號特別弱
電話通話中
開啟過大量應用

編譯程式是一種

正確答案: A

翻譯程式
目標程式
彙編程式
解釋程式

根據TCP/IP協議棧的分層來看HTTP協議工作在哪一層

正確答案: D

資料鏈路層
網路層
傳輸層
應用層

在這裡插入圖片描述

每臺物理計算機可以虛擬出 20 臺虛擬機器，假設一臺虛擬機器發生故障當且僅當它所宿主的物理機發生故障。通過 5 臺物理機虛擬出100 臺虛擬機器，那麼關於這 100 臺虛擬機器的故障的說法正確的是：____?

正確答案: C

單臺虛擬機器的故障率高於單臺物理機的故障率
這 100 臺虛擬機器發生故障是彼此獨立的
這100臺虛擬機器單位時間內出現故障的個數高於100臺物理機單位時間內出現故障的個數
無法判斷這 100 臺虛擬機器和 100 臺物理機哪個更可靠
如果隨機選出 5 臺虛擬機器組成叢集，那麼這個叢集的可靠性和 5 臺物理機的可靠性相同
可能有一段時間只有 1 臺虛擬機器發生故障

A：相等
B：一臺物理機上的虛擬機器不獨立
C：由於一臺物理機的故障會導致這臺物理機虛擬出來的20臺虛擬機器的故障，所以，基於5臺物理機搭建的100臺虛擬機器故障率肯定高於100臺物理機。因此，選項C正確。
F：故障至少20臺

若用 $\phi(n)$ 表示尤拉函式，請問： $\phi(56)$ 的尤拉函式之積為？

正確答案: A

24
10
15
11

對正整數n，尤拉函式是小於或等於n的正整數中與n互質的數的數目（因此φ(1)=1）。 $\phi$ (8)=4，因為1,3,5,7均和8互質。
若m,n互質， $\phi(mn)$ = $\phi(m)$ * $\phi(n)$

$\phi(56)$ = $\phi(7)$ * $\phi(8)$ = 6 * 4 = 24

移動端開發中常用的資料庫是

正確答案: C

MySQL
Oracle
SQLite
MongoDB

一個合法的表示式由()包圍，()可以巢狀和連線，如(())()也是合法表示式；現在有 6 對()，它們可以組成的合法表示式的個數為____

正確答案: D

15
30
64
132
256
360

Ref
C(12,6)-C(12,5)=132
解釋：
卡特蘭數列。
我們可以把左括號看做1，右括號看做0，這些括號的組合就是01的排列
這裡需要滿足從第一個數開始的任意連續子序列中，0的個數不多於1的個數，也就是右括號的個數不多於左括號的個數。
假設我們不考慮這個限制條件，那麼全部的01排列共有C（2n,n）種，也就是一半0一半1的情況。現在我們想辦法把其中不符合要求的數量去掉。在任何不符合條件的序列中，找出使得0的個數超過1的個數的第一個0的位置，然後在導致幷包括這個0的部分序列中，以1代替所有的0並以0代表所有的1。結果總的序列變成一個有(n+1)個1和(n-1)個0的序列。而且這個過程是可逆的，也就是說任何一個有(n+1)個1和(n-1)個0構成的序列都能反推出一個不符合條件的序列，所以不符合條件的序列個數為C（2n,n-1）
所以合法的排列數有C（2n,n）-C（2n,n-1）= C(12,6)-C(12,5)=132

excel工作簿a中有兩列id、age,工作簿b中有一列id,需要找到工作薄b中id對應的age,可用的函式包括

正確答案: A B

index+match
vlookup
hlookup
find
if
like

現在有M個桶,每桶都有N個乒乓球,乒乓球的顏色有K種,並且假設第i個桶第j種顏色的球個數為Cij, 比例為Rij=Cij/N,現在要評估哪個桶的乒乓球顏色純度最高,下列哪種演算法和描述是合理的?

正確答案: B C F

∑(N/K-Cij)(N/K-Cij)越小越純
-∑CijLOG(Rij)越小越純
∑(1-RijRij)越小越純
∑(1-Rij)(1-Rij)越小越純
∑(1-Rij)^2 越小越純
-∑RijLOG(Rij)越小越純

資訊熵 Ent=- ∑ R_{ij}log R_{ij}, Ent 的值越小 , 則純度越高 .

基尼係數 Gini=1- ∑ R_ij^2, Gini 越小 , 則純度越高 .\則DE選項 ∑ (1-R_{ij})^2 = ∑ (1-2R_{ij}+R_{ij}^2) = ∑ 1-2 ∑ R_{ij}+ ∑ R_{ij}^2 = K-2+ ∑ R_{ij}^2 越大越純.

資訊熵 $=-\sum_{i = 1}^{n} p_{i} \log p_{i}$

基尼係數：
$G(p)=\sum_{k=1}^{K} p_{k}\left(1-p_{k}\right)=1-\sum_{k=1}^{K} p_{k}^{2}$
Gini指數越小表示集合中被選中的樣本被參錯的概率越小，也就是說集合的純度越高，

在這裡插入圖片描述

正確答案: D

f ’ (x0)
-f ’ (x0)
2 f ’ (x0)
-2 f ’ (x0)

對立的兩方爭奪一個價值為1的物品，雙方可以採取的策略可以分為鴿子策略和鷹策略。如果雙方都是鴿子策略，那麼雙方各有1/2的機率獲得該物品；如果雙方均為鷹策略，那麼雙方各有1/2的概率取勝，勝方獲得價值為1的物品，付出價值為1的代價，負方付出價值為1的代價；如果一方為鴿子策略，一方為鷹策略，那麼鷹策略獲得價值為1的物品。在爭奪的結果出來之前，沒人知道對方是鴿子策略還是鷹策略。當選擇鴿子策略的人的比例是某一個值時，選擇鴿子策略和選擇鷹策略的預期收益是相同的。那麼該值是( )。

正確答案: C

0.2
0.4
0.5
0.7
0.8

Ref
選鴿概率設為P 鷹為1-P。
當選擇鴿時，對手是鴿的概率為P，此時贏的概率為1/2，獲得價值為1，輸的概率為1/2，失去價值為0，則預期收益為PP(1/21+1/20);對手為鷹的概率為1-P，此時只有一個結果，預期收益為0。
當選擇鷹時，對手為鴿的概率為P，此時只有一個結果，鷹獲得價值為1，則預期收益為（1-P）P1；對手為鷹的概率為1-P，此時贏的概率為1/2，獲得價值為0，輸的概率為1/2，失去價值為1，則預期收益為（1-P）(1-P)(1/20+1/2*(-1))。
所以得到等式PP(1/21+1/20)=（1-P）P1+（1-P）(1-P)(1/20+1/2*(-1))解得 P=1/2

從sd卡載入一張圖片為bitmap並顯示到螢幕上的一個view，該view佔用的記憶體主要和什麼因素有關

正確答案: D

圖片檔案大小及壓縮格式
圖片原始解析度
view的尺寸
bitmap解析度和顏色位數

bitmap必須包含的欄位中（圖中第二列semioptional+No部分），大小（第三列）可變的是color table（決定顏色位數）和pixel array（決定解析度）
在這裡插入圖片描述

以下表的設計，最合理的是

正確答案: A

學生{id,name,age} ,學科{id,name} 分數{學生 id,學科 id,分數}
學生{id,name,age} ,分數{學生 id, 學科id, 學科 name , 分數}
分數{學生id, 學生 name，學生age, 學科id，學科名稱, 分數, }
學科{id,name},分數{學生id，學生姓名，學生age，學科 id,分數}

資料庫的第一正規化、第二正規化、第三正規化：
第一正規化(確保每列保持原子性)即每列不再需要拆分
第二正規化(確保表中的每列都和主鍵相關)
第三正規化(確保每列都和主鍵列直接相關,而不是間接相關)

數理統計筆記[牛客專項練習]

目前移動裝置主流的螢幕幀率是每秒(60)幀

下面資料結構能夠支援隨機的插入和刪除操作、並具有較好的效能的是

如果某系統12*5=61成立，則系統採用的是()進位制

在黑盒測試方法中，設計測試用例的主要根據是

對於以下程式碼，

設 q （ n ， m ）是將正整數 n 劃分成最大加數不大於 m 的若干不同正整數之和的劃分數，則 q （ n ， m ）為（ ）。

現在有一個tcp服務端監聽了80埠，問最多同時能建立多少連線

在大規模的語料中，挖掘詞的相關性是一個重要的問題。以下哪一個資訊不能用於確定兩個詞的相關性。

下面關於ID3演算法中說法錯誤的是（）

執行以下程式碼

N-gram是一種簡單有效的統計語言模型，通常n採用1-3之間的值，它們分別稱為unigram、bigram和trigram。現有給定訓練語料合計三個文件如下：

下列有關k-mean演算法說法正確的是()

相關性

正常建立一條TCP連線需要（）個步驟，正常關閉一個TCP連線需要（）個步驟

在給定檔案中查詢與設定條件相符字串的命令

一個有偏的硬幣，拋了100次，出現1次人頭，99次字。問用最大似然估計（ML）和最小均方誤差（LSE）估計出現人頭的概率哪個大？

在移動裝置息屏時，以下哪種情況不一定導致大量耗電

編譯程式是一種

根據TCP/IP協議棧的分層來看HTTP協議工作在哪一層

每臺物理計算機可以虛擬出 20 臺虛擬機器，假設一臺虛擬機器發生故障當且僅當它所宿主的物理機發生故障。通過 5 臺物理機虛擬出100 臺虛擬機器，那麼關於這 100 臺虛擬機器的故障的說法正確的是：____?

若用 ϕ ( n ) \phi(n) ϕ(n)表示尤拉函式，請問： ϕ ( 56 ) \phi(56) ϕ(56)的尤拉函式之積為？

移動端開發中常用的資料庫是

一個合法的表示式由()包圍，()可以巢狀和連線，如(())()也是合法 表示式；現在有 6 對()，它們可以組成的合法表示式的個數為____

excel工作簿a中有兩列id、age,工作簿b中有一列id,需要找到工作薄b中id對應的age,可用的函式包括

現在有M個桶,每桶都有N個乒乓球,乒乓球的顏色有K種,並且假設第i個桶第j種顏色的球個數為Cij, 比例為Rij=Cij/N,現在要評估哪個桶的乒乓球顏色純度最高,下列哪種演算法和描述是合理的?

從sd卡載入一張圖片為bitmap並顯示到螢幕上的一個view，該view佔用的記憶體主要和什麼因素有關

以下表的設計，最合理的是

相關文章

設 q （ n ， m ）是將正整數 n 劃分成最大加數不大於 m 的若干不同正整數之和的劃分數，則 q （ n ， m ）為（）。

若用 $\phi(n)$ 表示尤拉函式，請問： $\phi(56)$ 的尤拉函式之積為？

一個合法的表示式由()包圍，()可以巢狀和連線，如(())()也是合法表示式；現在有 6 對()，它們可以組成的合法表示式的個數為____