大二上 國際化科研素養實訓(電腦科學)人工智慧:機器學習在資料分析及自然語言處理中的實際運用 期中考試試題分析 20241117

陆舟LandBoat發表於2024-12-06

20241206 出成績了,本次考試成績滿分

題目如下:

  1. 單選題 (5 分)
    A zoologist working at a lake would like to estimate the age of a fish in years by looking at the length, weight, color and maximum width. What ML task is this?(B)

A
Classification
B
Regression

C
Recommendation

D
Association

在這個問題中,動物學家希望透過魚的長度、重量、顏色和最大寬度來估計魚的年齡(以年為單位)。這是一個典型的迴歸任務,原因如下:

迴歸(Regression):迴歸任務的目標是預測一個連續的數值。在這個例子中,魚的年齡是一個連續的數值,因此需要使用迴歸模型來預測。
分類(Classification):分類任務的目標是預測一個離散的類別。例如,如果問題是判斷魚的種類(如鯉魚、鱸魚等),那麼這就是一個分類任務。
推薦(Recommendation):推薦系統的目標是根據使用者的行為和偏好推薦物品或內容。這個問題中沒有涉及使用者的偏好或行為,因此不符合推薦系統的定義。
關聯(Association):關聯規則挖掘的目標是發現資料集中項之間的頻繁共現關係。例如,市場籃子分析。這個問題中沒有涉及項之間的關聯關係,因此不符合關聯規則的定義。
具體應用
在實際應用中,動物學家可以使用迴歸模型(如線性迴歸、決策樹迴歸、隨機森林迴歸等)來根據魚的長度、重量、顏色和最大寬度來預測其年齡。這些模型會透過訓練資料學習輸入特徵(長度、重量、顏色、最大寬度)與輸出(年齡)之間的關係,從而在新的資料上進行預測。

因此,正確答案是 B. Regression。

擴充:什麼是關聯模型
關聯模型(Association Model)主要用於發現資料集中項之間的頻繁共現關係。一個經典的例子是市場籃子分析(Market Basket Analysis),也稱為購物籃分析。以下是市場籃子分析的一個詳細例子:

市場籃子分析(Market Basket Analysis)
背景
假設你是一家超市的分析師,你希望瞭解顧客購買商品之間的關聯關係,以便進行促銷活動、商品擺放最佳化等。

資料集
你收集了一段時間內顧客的購物記錄,每條記錄代表一個顧客的一次購物籃。例如:

交易ID 購買商品列表
1 麵包, 牛奶, 黃油
2 麵包, 牛奶
3 牛奶, 黃油
4 麵包, 黃油
5 麵包, 牛奶, 黃油, 啤酒
6 牛奶, 啤酒
7 麵包, 啤酒
8 麵包, 牛奶, 啤酒
9 麵包, 黃油, 啤酒
10 牛奶, 黃油, 啤酒
目標
找出哪些商品經常一起被購買,即發現頻繁項集(Frequent Itemsets)和關聯規則(Association Rules)。

步驟
頻繁項集挖掘:使用Apriori演算法或FP-Growth演算法等,找到頻繁項集。頻繁項集是指出現頻率超過某個閾值的項集。
例如,設定最小支援度(Minimum Support)為30%,則支援度至少為3/10 = 30%的項集是頻繁項集。
透過計算,可以得到一些頻繁項集,如 {麵包, 牛奶}, {麵包, 黃油}, {牛奶, 黃油}, {麵包, 啤酒}, {牛奶, 啤酒}, {黃油, 啤酒} 等。
關聯規則生成:從頻繁項集中生成關聯規則。關聯規則通常表示為 "A -> B",表示如果購買了A,則很可能也會購買B。
例如,從頻繁項集 {麵包, 牛奶} 中可以生成規則 "麵包 -> 牛奶" 和 "牛奶 -> 麵包"。
計算規則的支援度(Support)和置信度(Confidence):
支援度(Support):規則在所有交易中出現的頻率。
置信度(Confidence):在購買A的情況下,購買B的機率。
例如,規則 "麵包 -> 牛奶" 的支援度為 4/10 = 40%,置信度為 4/7 ≈ 57.14%。
規則篩選:根據最小置信度(Minimum Confidence)篩選出有用的關聯規則。
例如,設定最小置信度為60%,則只有置信度大於60%的規則才會被保留。
在這個例子中,"麵包 -> 牛奶" 的置信度為57.14%,低於60%,因此不會被保留。
結果
透過上述步驟,你可以發現一些有用的關聯規則,例如:

"牛奶 -> 麵包",置信度為 4/6 ≈ 66.67%
"黃油 -> 麵包",置信度為 4/5 = 80%
這些規則可以幫助超市進行促銷活動,例如在牛奶旁邊放置麵包,或者在黃油旁邊放置麵包,以增加銷售量。

總結
市場籃子分析是一個典型的關聯模型應用,透過發現顧客購買商品之間的頻繁共現關係,幫助商家最佳化商品擺放、制定促銷策略等。

  1. 單選題 (5 分)
    A process of evaluating a machine learning algorithm so that performance is not dependent on luck is know as?

A
Testing

B
Training

C
Performance
D
Cross-validation

正確答案是 D. Cross-validation。

解釋
交叉驗證(Cross-validation) 是一種評估機器學習演算法效能的方法,旨在減少結果的隨機性和依賴性,確保模型的效能評估更加可靠和穩定。具體來說,交叉驗證透過將資料集分成多個子集,並多次訓練和測試模型,從而獲得更穩定的效能估計。

詳細步驟
資料分割:將資料集分成
𝑘
k 個互斥的子集(通常稱為“折”)。每個子集大致相同大小。
訓練和測試:對於每一個子集,將其作為測試集,其餘
𝑘

1
k−1 個子集合並作為訓練集。訓練模型並在測試集上進行評估。
效能彙總:對每個子集的評估結果進行彙總,通常計算平均效能指標(如準確率、F1分數等)。
優點
減少隨機性:透過多次訓練和測試,減少了因資料集劃分不同而導致的效能波動。
充分利用資料:每個資料點都會被用作測試集一次,確保了資料的充分利用。
避免過擬合:透過多次訓練和測試,可以更好地評估模型的泛化能力,避免過擬合。
與其他選項的區別
A. Testing:測試通常是指使用單獨的測試集來評估模型的效能。這種方法依賴於測試集的選擇,可能導致結果的隨機性較大。
B. Training:訓練是指使用訓練集來訓練模型的過程,不涉及模型效能的評估。
C. Performance:效能是一個籠統的術語,通常指模型的表現,但不具體指評估方法。
舉例
假設我們有一個包含1000個樣本的資料集,使用5折交叉驗證:

將資料集分成5個子集,每個子集包含200個樣本。
對於第1個子集,用剩下的800個樣本訓練模型,然後在第1個子集上測試模型。
重複上述步驟,分別用第2、第3、第4和第5個子集作為測試集,其餘子集作為訓練集。
最後,計算5次測試結果的平均效能指標。
透過這種方式,我們可以獲得一個更加穩定和可靠的模型效能評估。

因此,正確答案是 D. Cross-validation。

  1. 單選題 (5 分)
    A bag contains a number of marbles of which 78 are red, 24 are blue, and the rest are green. If the probability of selecting a green marble is 1/3, what is the probability of selecting a red marble?

A
78/153

B
24/153

C
78/100

D
56/150
4. 單選題 (5 分)
During the course introduction Professor Raja talked about 3 types of learning needed for the real world. Which of the following is NOT one of those learnings? Just give A, B, C, or D.

A
Puzzle-based Learning

B
Problem-based learning
C
Profit-based learning

D
Project-based learning
5. 單選題 (5 分)
One of the powerful components of computational thinking is the ability to separate WHAT happens from HOW it happens. What is this skill better known as?

A
Decomposition
B
Abstraction

C
Recognition

D
Generalization

E
Computation
6. 單選題 (5 分)
In classification what type of data are we predicting?

A
Nominal

B
Ordinal

C
Interval

D
Ratio

在分類任務中,我們預測的資料型別是 A. Nominal(名義資料)。

解釋
分類(Classification) 是一種監督學習任務,目標是將資料點分配到預定義的類別中。這些類別通常是離散的、無序的標籤。

Nominal(名義資料):名義資料用於標識或分類,沒有內在的順序或等級。例如,性別(男、女)、國籍(中國、美國、英國等)、血型(A型、B型、AB型、O型)等。這些資料點之間是平等的,沒有高低之分。
Ordinal(有序資料):有序資料不僅用於分類,還具有一定的順序或等級,但類別之間的差距是不明確的或不相等的。例如,教育水平(小學、中學、大學)、滿意度評分(非常不滿意、不滿意、滿意、非常滿意)等。雖然有序資料有一定的順序,但在分類任務中,通常不考慮這種順序。
Interval(區間資料):區間資料不僅有順序,而且相鄰數值間的差距是相等的,但是沒有真正的零點。溫度(攝氏度或華氏度)是一個典型的例子。分類任務中很少直接預測區間資料。
Ratio(比率資料):比率資料與區間資料類似,都有固定的測量單位和相等的間隔,但是比率資料有一個絕對的零點,表示完全沒有所測量的屬性。例如,年齡、身高、體重等。分類任務中通常不預測比率資料。
舉例
名義資料的例子:在一個電子郵件分類任務中,目標是將郵件分為“垃圾郵件”和“非垃圾郵件”。這裡的類別是名義資料,因為“垃圾郵件”和“非垃圾郵件”之間沒有內在的順序關係。
因此,在分類任務中,我們預測的資料型別是 A. Nominal

  1. 單選題 (5 分)
    A jar contains 3 red balls and 2 green balls. An experiment consists of drawing balls one at a time from the jar, without replacement, until a red one is obtained. Find the probability of finding a red ball in exactly 2 draws.

A
1/2

B
3/5
C
6/20

D
5/25
8. 單選題 (5 分)
Suppose we have 3 coins and one of them is double headed (but we don't know which). We randomly pick a coin. What is the probability that we picked the double headed coin?

A
3/4

B
2/3

C
5/6
D
1/3
9. 單選題 (5 分)
We can detect when learning has happened (in people and machines) when we have detected what in performance?

A
speed
B
improvement

C
type

D
no change

正確答案是 B. Improvement。

解釋
學習(Learning) 是指透過經驗或訓練,個體或系統在某項任務上的表現得到提升的過程。無論是人類還是機器,學習的效果通常透過效能的改善來檢測。

Improvement(改進):當個體或系統的效能隨著時間的推移或經過訓練而提高時,可以認為學習已經發生。例如,一個人透過練習提高了某項技能的水平,或者一個機器學習模型在訓練過程中逐漸提高了預測的準確性。
Speed(速度):雖然學習可能會導致處理速度的提升,但這並不是檢測學習是否發生的直接指標。學習的核心在於效能的提升,而不是單純的處理速度。
Type(型別):型別通常指的是任務的種類或性質,而不是效能的變化。因此,它不是檢測學習是否發生的合適指標。
No Change(無變化):如果效能沒有變化,通常意味著沒有學習發生。學習的一個關鍵特徵是效能的提升,因此無變化與學習的定義不符。
舉例
人類學習的例子:一個學生在學習數學的過程中,透過做更多的練習題,逐漸提高了解題的正確率和速度。這種效能的提升表明學習已經發生。
機器學習的例子:一個分類模型在訓練過程中,透過不斷調整引數,逐漸提高了在驗證集上的準確率。這種效能的提升表明模型已經從資料中學習到了有用的資訊。
因此,正確答案是 B. Improvement。

  1. 單選題 (5 分)
    At the beginning of the very first class, Professor Raja ask you to be proud of something. What?

A
The school/university you go to

B
Your academic performance

C
Your major subject of study
D
Your identity and heritage
11. 單選題 (5 分)
The actual information that is extracted from raw data such as an image or an email that is fed into a machine learning algorithm is known as?

A
Pixel
B
Feature

C
info

D
Algorithm

正確答案是 B. Feature。

解釋
在機器學習中,從原始資料(如影像、電子郵件等)中提取的實際資訊被稱為 特徵(Feature)。特徵是用於訓練機器學習模型的輸入變數,它們能夠捕捉資料的關鍵屬性和資訊。

Feature(特徵):特徵是從原始資料中提取的有意義的資訊,用於訓練和預測。例如,在影像識別任務中,特徵可以是畫素強度、邊緣檢測結果、顏色直方圖等;在文字分類任務中,特徵可以是詞頻、TF-IDF值、情感分數等。
Pixel(畫素):畫素是影像的基本單位,但並不是所有機器學習任務的特徵。在某些影像處理任務中,畫素強度可以直接作為特徵,但在其他任務中,可能需要更高層次的特徵提取。
Info(資訊):這是一個通用術語,不夠具體,不能準確描述機器學習中的輸入變數。
Algorithm(演算法):演算法是用於處理資料和執行任務的步驟或方法,而不是從資料中提取的資訊。
舉例
影像識別:從一張影像中提取的特徵可能包括畫素強度、邊緣檢測結果、顏色直方圖、紋理特徵等。
文字分類:從一封電子郵件中提取的特徵可能包括詞頻、TF-IDF值、情感分數、主題模型等。
因此,正確答案是 B. Feature。

  1. 單選題 (5 分)
    Consider the following situation (assume that there are only two parties—Republican and Democratic). In a given town, 40% of the voters are Republicans and 60% are Democrats. The president's budget is supported by 50% of the Republicans and 90% of the Democrats. If a randomly (equally likely) selected voter is found to support the president's budget, what is the probability that they are a Republican?

A
0.5

B
0.37
C
0.27

D
0.45
13. 單選題 (5 分)
In class we briefly discussed 4 types of analytics. Exploratory Data Analysis (EDA) is also known as:

A
Descriptive Analytics

B
Diagnostic Analytics

C
Prescriptive Analytics

D
Predictive Analytics

  1. 單選題 (5 分)
    You are building a machine learning algorithm for an automatic vehicle to detect whether what it sees is a person (a human being) or a shadow. Which quantity would you want to minimize?

A
True Positive

B
False Positive

C
True Negative
D
False Negative
15. 單選題 (5 分)
What data type is the age of a person?

A
Nominal

B
Ordinal

C
Interval
D
Ratio
16. 單選題 (5 分)
The same zoologist quickly realizes that the fish she is catching do not all belong to the same species and that there are multiple species that are currently unknown. By looking at attributes like color, length, length to weight ratio, overall body shape, type of food they eat, etc. she would like to determine how many unknown species there are and how to identify them. How should she formulate this problem?

A
Classification

B
Recommendation

C
Association
D
Clustering
17. 單選題 (5 分)
What data type is the name of a person?

A
Nominal

B
Ordinal

C
Interval

D
Ratio
18. 單選題 (5 分)
3. The software thought leader, Kent Beck made the following insightful quote:

I'm not a great programmer;
I'm a good programmer with ___________________________________ .

What completes the blank?

A
great skill

B
hard work
C
great habits

D
good luck
19. 單選題 (5 分)
In regression what type of data are we predicting?

A
Nominal

B
Ordinal
C
Quantitative
20. 單選題 (5 分)
The set of all possible outcomes is known as the sample space. A subset of the sample space is known as a?

A
Feature

B
Subset
C
Event

D
Occurrence

相關文章