資料科學與Python(習題彙總)

你这过氧化氢掺水了發表於2024-11-27

目錄
  • 單項選擇題
  • 不定項選擇題
  • 判斷題


單項選擇題


以下描述中正確的是( )。
(傳統)商務智慧主要關注的是對“過去時間”的“解釋性研究” (答案)
資料科學的主要處理物件以結構化資料為主
資料科學主要關注的是對“未來時間”的“診斷性研究”
(傳統)商務智慧的主要處理物件以非結構化資料為主


與傳統科學不同的是,資料科學是由( )驅動。
目標
資料 (答案)
任務
演算法


Google公司研究總監PeterNorvig曾說“我們(谷歌)沒有更好的演算法,只是多了點資料而已”,他的這句話強調的是( )。
演算法的重要性
資料的重要性(答案)
CGoogle檔案系統的重要性
DGoogle MapR資料工程主要關注的是如何基於資料進行輔助決策(或決策支援)、商業洞察、預測未來、發現潛在模式以及如何將資料轉換為智慧或產品 educe的重要性


資料科學具有三個基本要素,即理論、實踐和精神。其中,將”精神“可以理解為( )。
駭客精神 (答案)
駭客精神
奮鬥精神
3C精神


下列選項中,不屬於Seaborn庫特點的是()。
Seaborn是基於Matplotlib的視覺化庫
基於網格繪製出更加複雜的影像集合
多個內建主題及顏色主題
可以處理大量的資料流 (答案)


下列關於字串的表述中,不合法的是()
“‘Python’”
[python] (答案)
"p'yth'on"
'py"th"on'


下列語法正確的是( )。
print"hello,world"
print(‘hello,world’)
print('hello,world') (答案)
print(hello,world)


tuple(range(2,10,2))的返回結果為( )。
(2,4,6,8,10)
[2,4,6,8]
[2,4,6,8,10]
(2, 4, 6, 8) (答案)


已知x = np.array((1, 2, 3, 4, 5)),那麼表示式sum(x*x)的值
50
55 (答案)
60
65
1 * 1 + 2 * 2 + 3 * 3 + 4 * 4 + 5 * 5 = 55


下列選項中,不是Python關鍵字的是()
pass
from
yield
static (答案)


下面程式碼的輸出結果是( )
for s in "abc":
for i in range(3):
print (s,end="")
if s=="c":
break
aaabbbccc
aaabbbc (答案)
abbbccc
aaabccc


在Python中實現多個條件判斷需要用到()語句與if語句的組合
else
elif (答案)
pass
以上均不是


以下選項中,不是建立字典的方式是( )。
d = {[1,2]:1, [3,4]:3} (答案)
d = {1:[1,2], 3:[3,4]}
d = {(1,2):1, (3,4):3}
d = {'張三':1, '李四':2}
(列表不能作為key,元組可以)


已知x= np.array((1,2, 3, 4, 5)), 那麼表示式(x//5).sum()的值
1 (答案)
2
3
4
//向下取整,0+0+0+0+1=1


可以用來建立Python自定義函式的關鍵字的是()
function
def (答案)
class
return


下面程式碼的輸出結果是( )
x=10
y=3
print(x%y,x**y)
1 30
1 1000 (答案)
3 1000
3 30


Python 語言屬於以下哪種語言()
機器語言
組合語言
高階語言 (答案)
以上均不是


關於Python語言的變數,以下選項中說法正確的是( )。
隨時命名、隨時賦值、隨時變換型別
隨時宣告、隨時使用、隨時釋放
隨時命名、隨時賦值、隨時使用(答案)
隨時宣告、隨時賦值、隨時變換型別


已知x= np.array((1,2,3,4,5)),那麼表達(x ** 2).max()的值為
15
20
25 (答案)
30


程式碼:
for i in range(4):
if i==3:
break
print(i)
print(i)
執行結果正確的是()
0123 (答案)
0122
123
234


下列說法中正確的是( )。
continue能結束迴圈,而break只能結束本次迴圈
break能結束迴圈,而continue只能結束本次迴圈 (答案)
break用在for語句中,而continue用在while 語句中
break用在while語句中,而continue用在for語句中


在Matplotlib中,用於繪製散點圖的函式是()。
hist()
scatter() (答案)
bar()
pie()


C4.5決策樹構造演算法的特徵選擇採用( )。
資訊增益
基尼係數
條件熵
資訊熵 (答案)


以下關於異常值檢測的說法中錯誤的是()。
3δ原則利用了統計學中小機率事件的原理分佈
使用箱線圖方法時要求資料服從或近似服從正態分佈
基於聚類的方法可以進行離群點檢測
基於分類的方法可以進行離群點檢測 (答案)
(離群點也算是一個正常的分類類別)


下列與標準化方法有關的說法中錯誤的是()。
離差標準化簡單易懂,對最大值和最小值敏感度不高 (答案)
標準差標準化是最常用的標準化方法,又名零—勻值標準化
小數定標標準化實質上就是將資料按照一定的比例縮小
多個特徵的資料的K-Means聚類不需要對資料進行標準化
(離差標準化公式:xj = xi − xmin / xmax − xmin對最大值和最小值敏感度很高,可以使資料範圍劃定在[0,1]之間)​


如果擬合曲線幾乎透過了所有實測資料點,很有可能出現的現象是( )。
過擬合。 (答案)
正常擬合。
不確定。
欠擬合。


支援向量機SVM演算法採用的損失函式是()
指數損失函式
Logistic損失函式
鉸鏈損失函式 (答案)
都可以
(該損失函式主要用於二分類問題,目標是最大化分類間隔。含義是:如果樣本被正確分類且距離決策邊界有一定的間隔,那麼損失為0;如果樣本被錯誤分類或距離決策邊界太近,則損失會隨著距離的減小而增大。)


機器學習的實質是()。
根據再用資料,尋找輸入資料和輸出資料的對映關係/函式
衡量輸入資料和輸出資料的對映關係 /函式的好壞
建立資料模型
挑出輸入資料和輸出資料的最佳對映關係/函式 (答案)


有一份資料,需要檢視資料的型別,並將部分資料做強制型別轉換,以及對數值型資料做基本的描述性分析。下列的步驟和方法正確的是( ).
dtypes檢視型別,astype轉換類別,describe描述性統計 (答案)
astype檢視型別,dtypes轉換類別,describe描述性統計
describe檢視型別,astype轉換類別,dtypes描述性統計
dtypes檢視型別,describe轉換類別,astype描述性統計


以下關於缺失值檢測的說法中,正確的是()。
mull和notnull可以對缺失值進行處理
dropna方法既可以刪除觀測記錄,亦可以刪除特徵(答案)
fillna 方法中用來填充缺失值的值只能是資料框
pandas庫中的interpolate模組包含了多種插值方法
(疑似Python中沒有mull方法,所以第一條錯)
(fillna() 方法可以用標量值、字典、其他資料框或透過前向/後向填充方法來填充缺失值,而不僅僅限於整個資料框。)
(第四條有錯誤嗎,我怎麼沒看出來)


Logistic迴歸分析屬於( ) 迴歸
非機率線性
機率線性
機率非線性 (答案)
非機率非線性


下面哪一個其法不是聚類分析演算法()
K-means
K中心點演算法
DBSCAN
KNN (答案)
(KNN(K-Nearest Neighbors,K 最近鄰)是一種簡單且常用的機器學習演算法,主要用於分類和迴歸任務。)


下列loc、iloc、ix屬性的用法正確的是()
df.loc['列名','索引名'];df.iloc['索引位置','列位置'];df.ix['索引位置','列名']
df.loc['索引名','列名'];df.iloc['索引位置','列名'];df.ix['索引位置','列名']
df.loc['索引名','列名'];df.iloc['索引位置','列名'];df.ix['索引名','列位置']
df.loc['索引名','列名'];df.iloc['索引位置','列位置'];df.ix['索引位置','列位置'] (答案)

df.loc:透過標籤(索引名)來訪問資料。您可以使用行和列的標籤來檢索特定的行或列。
df.iloc:透過整數位置來訪問資料。行和列的索引是基於零的整數值。
df.ix:是一個混合索引器,可用於同時使用標籤和位置。但是 df.ix 在 Pandas 0.20.0 版本中已經被棄用,因此建議使用 df.loc 和 df.iloc 代替。


以下關於資料分析預處理的過程描述正確的是()
資料清洗包含廣數機積準化、資料合併和缺失值處理
資料合併按照合併軸方向主要分為左連線、右連線、內連線和外連線
資料分析的預處理過程主要包括效據清洗, 資料合井、敏據標準化柏資料轉換,它們之間存在交叉,沒有嚴格的先後關係。 (答案)
資料標準化的主要物件是類別型的特徵


不定項選擇題


以下敘述中正確的是( )。
資料科學中對資料複雜性產生了全新的認識,複雜性被視為是大資料自身的不可分離屬性. (答案)
資料科學主要關注的是資料密集型問題,而不是計算密集型問題。 (答案)
資料科學中資料處理正規化從“模式在先、資料在後正規化”轉向“資料在先、模式在後正規化”或“資料在先,無模式正規化”。 (答案)
資料科學中,資料不僅是一種“資源”,而且更是一種重要“資產”。 (答案)


以下描述中,屬於大資料時代對資料工程師的崗位職責的是( )。
資料的ETL轉換 (答案)
主資料管理 (答案)
資料整合 (答案)
基於資料提出好問題
(基於資料提出好問題 更多地被視為資料分析師的職責。)


以下描述中屬於資料科學的主要職責的是( )。
制定“資料戰略”。 (答案)
構建“資料生態系統”。 (答案)
提出“基於資料的好問題”。 (答案)
資料的備份與恢復
(資料備份通常和IT運維相關,主要目的是保證資料的可用性和安全性,不是資料科學的核心職責。)


以下描述中正確的是( )。
“基於資料的智慧”的重要特點是“資料複雜,但演算法簡單” (答案)
資料科學中強調的是基於資料的智慧。 (答案)
資料科學中強調的是基於演算法的智慧。


大資料的資產屬性體現在( )。
具有勞動增值 (答案)
明確的法律權屬 (答案)
具有財務價值 (答案)
涉及道德與倫理 (答案)


在大資料時代,大資料分析師的主要崗位職責包括( )。
資料準備 (答案)
資料分析活動的執行 (答案)
分析結果的呈現 (答案)
資料介面的設計
(主要由軟體開發部門實現)


以下描述中錯誤的是( )。
資料科學主要關注的是資料本身的管理; (答案)
資料工程是資料科學的一個新的分支領域; (答案)
資料工程主要關注的是基於資料的管理 (答案)
(一三條寫反了)


DrewConway的資料科學維恩圖顯示,資料科學處於( )的交叉之處。
數學與統計學 (答案)
領域實戰 (答案)
駭客精神 (答案)
電腦科學


資料科學中的”3C精神“中的3個C分別代表的是
創造性設計 (答案)creative
超越自我
批判性思考 (答案)criticism
好奇心提問 (答案)curiosity


以下描述中,資料科學家應具備以下能力(含素質)為( )。
掌握資料科學的理論基礎———統計學、機器學習和資料視覺化。 (答案)
提出“好”的研究假設或問題,並完成對應的試驗設計。 (答案)
積累參與資料科學專案的經驗,包括程式設計經驗和統計分析經驗 (答案)
擁有資料產品的研發能力 (答案)


Python標準庫物件匯入語句正確的是()
import math.sin as sin
from math import sin (答案)
import math.*
from math import* (答案)


下面開發環境可以用來編寫和除錯Python程式的有()
IDLE (答案)
Pythcharm (答案)
Jupyter Notebook (答案)
Spyder (答案)


下面說法正確的選項有()
正確的縮排對Python程式是非常重要的 (答案)
在表示式中圓括號可以改變運算順序 (答案)
在Python3.x中可以使用中文做變數名 (答案)
Python程式中的空格和空行可有可無,但是適當的增加空格和空行可以提高程式碼的可讀性。


有關聚類分析說法正確的是()。
無需對樣本進行標記 (答案)
聚類分析無法提取樣本特徵 (答案)
聚類分析簇間資料具有較大的差異性
聚類分析可以分析樣本的分佈特點 (答案)


支援向量機分類器求解方法有( )。
以下都不對
內點法 (答案)
隨機梯度下降 (答案)
序列最小最佳化 (答案)


以下表達正確的是()
深度學習是機器學習的一種 (答案)
人工智慧是人們長遠以來的目標,期待機器像人一樣有智慧
機器學習指機器有學習的能力,是人類達成人工智慧目標的手段。 (答案)
人或機器表現的很有智慧取決於先天本能/創造者事先設定的規則和後天學習。 (答案)


關於K-means聚類說法正確的是( )。
K-means需要事先指定K的數目 (答案)
K-means的聚類中心是聚類中心的均值 (答案)
K-means實現沒有采用的貪心策略
K-means的聚類中心一 定是樣本空間的資料 (答案)


關於樸素貝葉斯分類器,正確的有 ( )。
是一種機率分類器 (答案)
利用貝葉斯公式將樣本屬於某個類別的機率轉換為後驗機率來計算 (答案)
所謂“樸素”假設,即是樣本獨立同分布的的假設 (答案)
所謂“樸素”假設,即是樣本特徵(屬性)的條件獨立假設


以下方法中,能夠利用pandas.DataFrame()建立DataFrame的是()
透過Python字典 (答案)
透過ndarray物件建立 (答案)
透過隨機函式建立 (答案)
透過Series建立 (答案)


下列關於Pandas資料讀/寫說法正確的是()
read_csv能夠讀取所有文字文件的資料
read_sql能夠讀取資料庫的資料 (答案)
to_csv函式能夠讀取資料庫的資料寫入.csv檔案 (答案)
to_excel函式能夠將結構化資料寫入Excel檔案 (答案)


資料質量包含的要素有( )
準確性、完整性 (答案)
時效性、可信性 (答案)
一致性、可解釋性 (答案)
決定性


判斷題


在資料科學專案中,特別強調資料科學家的溝通能力,包括與專案中的其他干係人的溝通能力、資料視覺化能力和資料故事化描述能力。T


當資料量足夠大時,我們可以透過簡單的“資料洞見(DataInsight)”操作,找出並評估歷史資料中已存在的翻譯記錄,同樣可以實現與傳統“知識正規化”相當的智慧水平。T


資料分析師和資料工程師並非大資料時代新產生的崗位,但其能力要求和崗位並未發生變化。F


大資料分析師需要掌握應用統計學,包括試驗設計、統計建模、統計驗證和高階應用統計學。T


在資料科學專案中,資料科學家往往以團隊合作方式彌補各自的劣勢,充分發揮自己的優勢和特長。T


資料密集型應用中資料成為應用系統的主要難點、瓶頸和挑戰。T


資料科學家一定是一般意義上的“科學家”。F


“資料碼農”完全可以勝任“資料科學家”的角色。F


大資料分析師需要掌握應用機器學習的知識,包括演算法設計、演算法最佳化、演算法選擇、深度學習及特徵工程。T


書寫檔案路徑時,為了減少路徑中分隔符“\”符號的輸入,同時也為了避免不正確的轉義導致程式碼錯誤,建議使用原始字串。T


在函式內部沒有任何宣告的情況下直接為某個變數賦值,這個變數一定是函式內部的區域性變數。T


在編寫程式碼時,一般應先匯入標準庫物件,再匯入擴充套件庫物件。T


在定義函式時,某個引數名字前面帶有兩個*符號表示可變長度引數,可以接收任意多個關鍵引數並將其存放於一個字典之中。T


Python列表中所有元素必須為相同型別的資料。F


縮排對於Python程式碼至關重要。T


擴充套件庫numpy中的arange()函式功能和內建函式range()類似.只能生成包含整數的陣列,無法建立包含浮點數的陣列。F


已知x.shape的值為(3,5), 那麼語句x[:, 2]=2的作用是把陣列x所有行中列下標為3的元素值都改為2。F
(x[:, 2] 的作用是把陣列 x 中所有行的列下標為 2 的元素選取出來,形成一個新的一維陣列。)


在Python3.x中,reduce()是內建函式,可以直接使用。F


擴充套件庫numpy的線性代數子模組linalg 中提供了計算奇異值分解的svd0函式。T


兩個不等長的陣列不能相加。T


表示式np.empty((3,5)).sum()的值一定為0。T


使用內建函式open()且以"w"模式開啟的檔案,檔案指標預設指向檔案尾。F
(如果以 "a"(附加)模式開啟檔案,檔案指標確實會指向檔案末尾,以便在現有內容之後新增新內容。在 "w" 模式下,檔案指標預設指向檔案的開頭。)


包含列表的元組可以作為字典的“鍵”。F


DBSCAN演算法對引數敏感。T


凝聚聚類分析是一種自底向上的聚類分析演算法。T
(自底向上:這意味著聚類過程從個體資料點(每個資料點被視為一個單獨的簇)開始,然後逐步將它們聚合成更大的簇。在每一步中,演算法都會找到最近的兩個簇並將它們合併,直到滿足停止標準(如達到預定的簇數量或距離閾值)。)

相關文章