機器學習-習題(一)

RogZ發表於2022-05-04

1.1 表1.1中若只包含編號為1和4的兩個樣例,試給出相應的版本空間

表1.1 西瓜資料集

  1. 求假設空間
    (1)每一個屬性的所有取值分別組合形成所有可能性結果。
    “色澤” : “青綠”、“烏黑”
    “根蒂” : “蜷縮”、“稍蜷”
    “敲聲” : “濁響”、“沉悶”
    總共結果個數:\(2∗2∗2=8\)
色澤=青綠,根蒂=蜷縮,敲聲=濁響
色澤=青綠,根蒂=蜷縮,敲聲=沉悶
色澤=青綠,根蒂=稍蜷,敲聲=濁響
色澤=青綠,根蒂=稍蜷,敲聲=沉悶
色澤=烏黑,根蒂=蜷縮,敲聲=濁響
色澤=烏黑,根蒂=蜷縮,敲聲=沉悶
色澤=烏黑,根蒂=稍蜷,敲聲=濁響
色澤=烏黑,根蒂=稍蜷,敲聲=沉悶

(2)屬性取值至少含一個為“無論去什麼值都合適”(即屬性值為萬用字元“*”)的結果集合
“色澤” :“*”、 “青綠”、“烏黑”
“根蒂” :“*”、 “蜷縮”、“稍蜷”
“敲聲” :“*”、 “濁響”、“沉悶”
總共結果個數:\(3∗3∗3-8=19\)

色澤=*,   根蒂=*,   敲聲=*
色澤=青綠,根蒂=*,   敲聲=*
色澤=烏黑,根蒂=*,   敲聲=*
色澤=*,   根蒂=蜷縮,敲聲=*
色澤=*,   根蒂=稍蜷,敲聲=*
色澤=*,   根蒂=*,   敲聲=濁響
色澤=*,   根蒂=*,   敲聲=沉悶
色澤=青綠,根蒂=蜷縮,敲聲=*
色澤=青綠,根蒂=稍蜷,敲聲=*
色澤=烏黑,根蒂=蜷縮,敲聲=*
色澤=烏黑,根蒂=稍蜷,敲聲=*
色澤=青綠,根蒂=*,   敲聲=濁響
色澤=青綠,根蒂=*,   敲聲=沉悶
色澤=烏黑,根蒂=*,   敲聲=濁響
色澤=烏黑,根蒂=*,   敲聲=沉悶
色澤=*,   根蒂=蜷縮,敲聲=濁響
色澤=*,   根蒂=蜷縮,敲聲=沉悶
色澤=*,   根蒂=稍蜷,敲聲=濁響
色澤=*,   根蒂=稍蜷,敲聲=沉悶

(3)所有屬性值都無法取到的結果,即為空集,一個假設空間有且僅有一個
“色澤” : “Ø”
“根蒂” : “Ø”
“敲聲” : “Ø”
總共結果個數:1

色澤=Ø,根蒂=Ø,敲聲=Ø

假設空間共有:\(8+19+1=28\)\((2+1)*(2+1)*(2+1)+1=28\)

色澤=青綠,根蒂=蜷縮,敲聲=濁響
色澤=青綠,根蒂=蜷縮,敲聲=沉悶
色澤=青綠,根蒂=稍蜷,敲聲=濁響
色澤=青綠,根蒂=稍蜷,敲聲=沉悶
色澤=烏黑,根蒂=蜷縮,敲聲=濁響
色澤=烏黑,根蒂=蜷縮,敲聲=沉悶
色澤=烏黑,根蒂=稍蜷,敲聲=濁響
色澤=烏黑,根蒂=稍蜷,敲聲=沉悶
色澤=*,   根蒂=*,   敲聲=*
色澤=青綠,根蒂=*,   敲聲=*
色澤=烏黑,根蒂=*,   敲聲=*
色澤=*,   根蒂=蜷縮,敲聲=*
色澤=*,   根蒂=稍蜷,敲聲=*
色澤=*,   根蒂=*,   敲聲=濁響
色澤=*,   根蒂=*,   敲聲=沉悶
色澤=青綠,根蒂=蜷縮,敲聲=*
色澤=青綠,根蒂=稍蜷,敲聲=*
色澤=烏黑,根蒂=蜷縮,敲聲=*
色澤=烏黑,根蒂=稍蜷,敲聲=*
色澤=青綠,根蒂=*,   敲聲=濁響
色澤=青綠,根蒂=*,   敲聲=沉悶
色澤=烏黑,根蒂=*,   敲聲=濁響
色澤=烏黑,根蒂=*,   敲聲=沉悶
色澤=*,   根蒂=蜷縮,敲聲=濁響
色澤=*,   根蒂=蜷縮,敲聲=沉悶
色澤=*,   根蒂=稍蜷,敲聲=濁響
色澤=*,   根蒂=稍蜷,敲聲=沉悶
色澤=Ø,   根蒂=Ø,   敲聲=Ø
  1. 求版本空間
    (1) 刪除與正例不一致的假設。
    正例:色澤=青綠,根蒂=蜷縮,敲聲=濁響,好瓜=是
    要刪除的項:
2.	色澤=青綠,根蒂=蜷縮,敲聲=沉悶
3.	色澤=青綠,根蒂=稍蜷,敲聲=濁響
4.	色澤=青綠,根蒂=稍蜷,敲聲=沉悶
5.	色澤=烏黑,根蒂=蜷縮,敲聲=濁響
6.	色澤=烏黑,根蒂=蜷縮,敲聲=沉悶
7.	色澤=烏黑,根蒂=稍蜷,敲聲=濁響
8.	色澤=烏黑,根蒂=稍蜷,敲聲=沉悶
11.	色澤=烏黑,根蒂=*,   敲聲=*
13.	色澤=*,   根蒂=稍蜷,敲聲=*
15.	色澤=*,   根蒂=*,   敲聲=沉悶
17.	色澤=青綠,根蒂=稍蜷,敲聲=*
18.	色澤=烏黑,根蒂=蜷縮,敲聲=*
19.	色澤=烏黑,根蒂=稍蜷,敲聲=*
21.	色澤=青綠,根蒂=*,   敲聲=沉悶
22.	色澤=烏黑,根蒂=*,   敲聲=濁響
23.	色澤=烏黑,根蒂=*,   敲聲=沉悶
25.	色澤=*,   根蒂=蜷縮,敲聲=沉悶
26.	色澤=*,   根蒂=稍蜷,敲聲=濁響
27.	色澤=*,   根蒂=稍蜷,敲聲=沉悶
28.	色澤=Ø,   根蒂=Ø,   敲聲=Ø

保留的項:

1.	色澤=青綠,根蒂=蜷縮,敲聲=濁響
9.	色澤=*,   根蒂=*,   敲聲=*
10.	色澤=青綠,根蒂=*,   敲聲=*
12.	色澤=*,   根蒂=蜷縮,敲聲=*
14.	色澤=*,   根蒂=*,   敲聲=濁響
16.	色澤=青綠,根蒂=蜷縮,敲聲=*
20.	色澤=青綠,根蒂=*,   敲聲=濁響
24.	色澤=*,   根蒂=蜷縮,敲聲=濁響

(2) 刪除與反例一致的假設。
反例:色澤=烏黑,根蒂=稍蜷,敲聲=沉悶,好瓜=否
要刪除的項:

9.	色澤=*,   根蒂=*,   敲聲=*

保留的項:

1.	色澤=青綠,根蒂=蜷縮,敲聲=濁響
10.	色澤=青綠,根蒂=*,   敲聲=*
12.	色澤=*,   根蒂=蜷縮,敲聲=*
14.	色澤=*,   根蒂=*,   敲聲=濁響
16.	色澤=青綠,根蒂=蜷縮,敲聲=*
20.	色澤=青綠,根蒂=*,   敲聲=濁響
24.	色澤=*,   根蒂=蜷縮,敲聲=濁響

則版本空間為:

1.	色澤=青綠,根蒂=蜷縮,敲聲=濁響
10.	色澤=青綠,根蒂=*,   敲聲=*
12.	色澤=*,   根蒂=蜷縮,敲聲=*
14.	色澤=*,   根蒂=*,   敲聲=濁響
16.	色澤=青綠,根蒂=蜷縮,敲聲=*
20.	色澤=青綠,根蒂=*,   敲聲=濁響
24.	色澤=*,   根蒂=蜷縮,敲聲=濁響

1.2 與使用單個合取式來進行假設表示相比,使用“析合正規化”將使得假設空間具有更強的表示能力。例如

好瓜←→((色澤=)∧(根蒂=蜷縮)∧(敲聲=))∨((色澤=烏黑)∧(根蒂=*)∧(敲聲=沉悶))會把“((色澤=青綠)∧(根蒂=蜷縮)∧(敲聲=清脆))”以及“((色澤=烏黑)∧(根蒂=硬挺)∧(敲聲=沉悶))”都分類為“好瓜”。

若使用最多包含k個合取式的析合正規化來表達表1.1西瓜分類問題的假設空間,試估算共有多少種可能的假設。

合取:\(\wedge\),求交集
析取:\(\vee\),求並集
析合正規化:多個合取式進行析取
合析正規化:多個析取式進行合取

(1) 假設空間大小:\((2+1)*(3+1)*(3+1)+1=49\),但樣例中已經包含了正例,所以可以不考慮空集情況,即假設空間大小為48,所以k的取值為[1, 48]。
但這種情況明視訊記憶體在冗餘。若不考慮冗餘情況,假設總數就是從48個合取式中,取出k個進行組合並求和,共有\(\sum_{k=1}^{48}C_{48}^k-1=2^{48}-1\)(這裡排除了空集的情況,所以需要減一)。
(2) 這裡題目要求注意冗餘的情況,即\((A=a)\vee(A=*)\)\((A=*)\)等價。其實去除冗餘情況,就是隻考慮屬性值都為確定值的情況,而不考慮通配的情況。
冗餘舉例:

[(色澤=*)∧(根蒂=蜷縮)∧(敲聲=沉悶)] ∨ [(色澤=烏黑)∧(根蒂=蜷縮)∧(敲聲=沉悶)]
= (色澤=*)∧(根蒂=蜷縮)∧(敲聲=沉悶)

西瓜三種屬性,共有\(2*3*3=18\)種組合,任何一個組合互不相干。而對於西瓜的判斷只有“好瓜”和“壞瓜”兩種,是典型的二分類問題,所以可以構造一個\(2^{18}\)的函式空間,其假設總數的最大值也就是\(\sum_{k=1}^{18}C_{18}^k-1=2^{18}-1=262143\)(這裡也要排除空集的情況)。


1.3 若資料包含噪聲,則假設空間中可能不存在與所有訓練樣本都一致的假設。在此情形下,試設計一種歸納偏好用於假設選擇

噪聲資料:資料中存在著錯誤或異常(偏離期望值)的資料。其實就是脫離真實目標函式的點。
解決方法無非就是對資料降噪。(這裡對題目的理解可能不太對,題目好像是希望在一個完全不符合訓練樣本的假設空間中,重新定義一種歸納偏好,這裡還需要進行探討)
(1) 即對偏離訓練樣本距離過遠的假設進行刪除,選擇與訓練集中正例最大程度一致的假設作為其歸納偏好。
(2) 也可以選擇屬性值相同,但結果不同的幾組樣例,根據訓練集進行調整,符合的保留,不符合的刪除。


1.4 本章1.4節在論述“沒有免費的午餐”定理時,預設使用了“分類錯誤率”作為效能度量來對分類器進行評估。若換用其他效能度量l,則式(1.1)將改為

\(E_{ote}(ε_a|X,f)=\sum_h\sum_{x∈\chi-X}P(x)l(h(x),f(x))P(h|X,ε_a)\)

試證明“沒有免費的午餐定理”仍成立。

其中,

\[l(h(x),f(x))= \begin{cases} a, & \text{h(x) = f(x)} \\ b, & \text{h(x) ≠ f(x)} \end{cases} \]

(在指示函式Ⅱ(·)中,a,b分別取值為0,1,此處l(·)與其大致相同)
故令\((l(h(x)=f(x))+(l(h(x)≠f(x))=C(C為固定常數,由l(·)的定義來決定)\)

\[\sum_fE_{ote}(ε_a|X,f)=\sum_f\sum_h\sum_{x∈\chi-X}P(x)l(h(x),f(x))P(h|X,ε_a)\\ =\sum_{x∈\chi-X}P(x)\sum_hP(h|X,ε_a)\sum_fl(h(x),f(x))\\ =\sum_{x∈\chi-X}P(x)\sum_hP(h|X,ε_a)({1\over2}2^{|\chi|}(l(h(x)=f(x)))+{1\over2}2^{|\chi|}(l(h(x)≠f(x)))\\ ={1\over2}2^{|\chi|}·C·\sum_{x∈\chi-X}P(x)\sum_hP(h|X,ε_a)\\ ={1\over2}2^{|\chi|}·C·\sum_{x∈\chi-X}P(x)·1 \]

由此,即證“沒有免費的午餐定理”成立。


1.5 試述機器學習能在網際網路搜尋的哪些環節起作用

(1) 首先要理解網際網路搜尋引擎是如何工作的。這裡引用部落格園一位博主的一篇回答
搜尋引擎的工作原理
大致意思就是,“蜘蛛”在網際網路上爬取網頁,將網頁放到臨時資料庫中;
臨時資料庫再對符合檢索規則的網頁放入索引資料庫,而將不符合規則的清除;
通過一些邏輯規則,將索引庫中的網頁進行分類、歸檔、評分、排名等一系列操作,生成索引列表;
使用者在搜尋引擎上查詢時,搜素引擎就將索引資料庫中返回的查詢資料反饋給使用者。
(2) 機器學習的引入可以對搜尋引擎、索引庫、以及他倆之間的互動進行優化。其中包括

  • 搜尋引擎對自然語言的理解和處理,市面上成熟的AI(Siri這類的)已經具備了有限的自然語言理解能力,可以實時對使用者提出的問題進行反饋,包括對網頁內容的檢索。
  • 搜尋引擎對圖片、視訊、音樂等多元化資料的處理及檢索。機器學習在影像領域的發展其實有目共睹,人臉識別、車牌識別、AI智慧美顏等等已經深入到生活的點點滴滴,聽歌識曲等對音訊檔案的處理也充分展示了機器學習在多元化資料處理領域的優勢。
  • 使用者畫像,更個性化的搜尋排序。機器學習對使用者資料進行收集和分析,在使用者搜尋時,按照使用者個性化需求對搜尋結果進行排序(在電商領域可以實現精準營銷)。
  • 對垃圾網站的甄別。並非所有含有搜尋關鍵字的網站都可以滿足使用者需求,為了減少不必要的對無用資訊的查詢,對垃圾網站的甄別逐漸成為了使用者所需。
  • 還有更多的應用,歡迎各位補充。

相關文章