小紅書2020校招資料分析筆試題卷一[題目整理]

摸魚小籠包發表於2020-12-15

1.對於任意事件A、B,有如下( )成立

A.P(AB)<=(P(A)+P(B))/2
B.P(AB)<=P(A)P(B)
C.P(AB)>=(P(A)+P(B))/2
D.P(AB)>=P(A)P(B)
標題,有助於目錄的生成

Sol: A
P(AB) = P(A)*P(A|B) = P(B)*P(B|A)
2 * P(AB) = P(A)*P(A|B) + P(B)*P(B|A)
P(AB)<=(P(A)+P(B))/2

3.失語症是指由於神經中樞病損導致抽象訊號思維障礙,而喪失口語、文字的表達和領悟能力的臨床症候群。根據上述定義,下列可能患失語症的是()

正確答案: D

A.“狼孩”迴歸社會後無法與人進行言語交流
B.幼時高燒聽力受損致使發音有極大缺陷,影響交流
C.因受刺激精神失常,造成言語理解和表達上的困難
D.因車禍頭部受創,雖能模仿他人言語但經常答非所問

受精神刺激 ≠ \neq = 神經中樞病損

5. 評估模型之後得出模型存在偏差,下列哪種方法可能解決這一問題?()

正確答案: B 你的答案: D (錯誤)

減少模型特徵中的數量
向模型中增加更多的特徵
增加更多的資料
其他選項均正確

過擬合, 高偏差,低偏差
欠擬合,低方差,高偏差
高偏差意味模型不夠複雜(欠擬合),為了模型更加的強大,我們需要向特徵空間中增加特徵。增加樣本能夠降低方差

7.請輸入正確的vlookup公式查詢當前使用者id的性別()

正確答案: B

a == VLOOKUP(使用者id,A2:C6,使用者id,1)
a == VLOOKUP(使用者id,A2:C6,性別,1)
a == VLOOKUP(性別,A2:C6,使用者id,1)
a == VLOOKUP(性別,A2:C6,性別,1)

VLOOKUP(要查詢的值,查詢區域,查詢區域返回的列,查詢模式)
0:精確匹配
1:模糊匹配

8. where 與have的區別:

where 子句的作用是在對查詢結果進行分組,將不符合where條件的行去掉,即在分組之前過濾資料,條件中不能包含聚組函式,使用where條件顯示特定的行。
having 子句的作用是篩選滿足條件的組,即在分組之過濾資料,條件中經常包含聚組函式,使用having 條件顯示特定的組,也可以使用多個分組標準進行分組。having與group by同時使用。

11.在EXCEL輸入以零開頭的文字型數字時需在輸入的資料前面加(‘ )

16. 四位老師在高考前對某畢業班學生的前景進行預測,他們特別關注班裡的兩個尖子生。

張老師說:“如果小明能考上北大,那麼小強也能考上北大。”
李老師說:“依我看這個班沒有人能考上北大。”
王老師說:“不管小強能否考上北大,但小明考不上北大。”
趙老師說:“我看小強考不上北大,但小明能考上北大。”
高考結果證明,四位老師中只有一人的推測成立。

如果上述斷定是真的,則以下哪項也一定是真的?()
A.李老師的推測成立。
B.王老師的推測成立。
C.如果小強考不上北大,則張老師的推測成立。
D.如果小強考上了北大,則張老師的推測成立

解:
張老師:小明 =>小強,即-小強=>-小明
趙老師:-小強且小明
張老師和趙老師的推測矛盾,必有一真,故李老師王老師的推測都為假
王老師:-小明 假,即小明考上了
所以,如果小強也考上了,則說明張老師推測成立

18.常用的最優模型選擇方法是哪些?()

正確答案: A B C

增加正則化項
交叉驗證
增加罰項
增加更多特徵

23. 若單元格B2=30,B3=40,B4=52,則函式SUM(B2,B4)的值為()

SUM(B2, B4) = 82
SUM(B2: B4) = 122

24.假設一個元組在子查詢1中出現3次,在子查詢2中出現2次,則該元組在“子查詢1 union all 子查詢2” 中出現幾次()

union all:5次
union:1次

Union:對兩個結果集進行並集操作,不包括重複行,同時進行預設規則的排序;
Union All:對兩個結果集進行並集操作,包括重複行,不進行排序;

26.

抽樣估計的優良標準有三個:
(1) 無偏性
(2) 一致性
(3) 有效性

影響時間序列的因素有四個:
(1)長期趨勢
(2) 季節變動
(3) 迴圈波動
(4) 不規則波動

27. 請給出三種常見的聚類演算法:

  1. K-means聚類、K-中心點聚類、CLARANS演算法,DIANA演算法、BIRCH演算法、Chameleon演算法
    (2) EM演算法
    (3) OPTICS演算法、DBSCAN演算法

Ref: 深入淺出聚類演算法

28. Sql函式: substring(‘109.120.59.63’,5,3) = ()

答案:120

substring(arg1, arg2, arg3), arg1:待處理字串;arg2:擷取開始下標(本題為1);arg3:擷取字串長度(從1開始到2再到0,共三個字元),所以為109.【120】.59.63,【】中是被擷取的內容。
與Java等語言中的substring函式以0為索引開頭不同,sql中以1為索引開頭。

29. 某電商有100家店鋪,每家店鋪每天銷售商品和銷售額gmv的資料存放在purchase表中,現需統計5月和6月,總gmv中,兩個月分別的貢獻前50% gmv的店鋪名,請使用一句SQL

店鋪銷量表purchase:

iddtseller_idseller_nameitem_idgmv
12019-05-01a001雅詩蘭黛旗艦店abc000011635
SELECT # level 4
    CONCAT('2019M', month), seller_name
FROM
    (SELECT # level 3
        MONTH(dt) AS month, seller_name, SUM(gmv) AS totalgmv
    FROM
        purchase
    WHERE
        MONTH(dt) IN ('5' , '6')
    GROUP BY MONTH(dt) , seller_name) a
        JOIN
    (SELECT # level2
        month, seller_name, PERCENTILE(totalgmv, 0.5) AS mid
    FROM
        (SELECT # level 1
        MONTH(dt) AS month, seller_name, SUM(gmv) AS totalgmv
    FROM
        purchase
    WHERE
        MONTH(dt) IN ('5' , '6')
    GROUP BY MONTH(dt) , seller_name) c
    GROUP BY month , seller_name) b ON a.month = b.month
        AND a.seller_name = b.seller_name
WHERE
    totalgmv > mid;

30.如果做一個活動,目標是50w流水,假設活動頁面的使用者付費轉化率是0.4%,假定單個使用者可帶來的平均收入是20元; 需要給頁面帶來___流量(UV)才有可能達成目標?

答案:
20*0.4% *UV = 50w
UV = 625

相關文章