第二章 相似性和相異性度量&資料&資料預處理
DIck Whitman發表於2018-10-23
- 資料型別:定量、定性
- 屬性是物件的性質、特徵,測量標度是將數值或符號值與物件的屬性相關聯的規則(函式)
- 屬性型別:屬性的性質不必與用來度量他的值的性質相同
- 屬性的不同:相異性、序、加法、乘法
- 四種屬性型別:標稱和序數(分類的、定性的)、區間和比率(數值的、定量的);非對稱屬性:如果屬性值具有相同的權重,則為對稱的;反之,為非對稱的
- 資料集的型別:
- 資料集的特徵:維度、稀疏性、解析度
- 記錄資料:事務資料或購物籃資料、資料矩陣、稀疏資料矩陣
- 基於圖形的資料
- 有序資料:時序資料、序列資料、時間序列資料(考慮時間自相關,時間接近資料接近)、空間資料
- 資料質量
- 資料清洗:測量誤差與資料收集誤差、噪聲、偽像(確定的錯誤的結果)
- 精度、標準差
- 偏倚:樣本與總體引數之差
- 精確度:測量值與實際值之間的接近度
- 離群點:不同於噪音,本身是合法的,有時作為研究物件
- 遺漏值
- 不一致的值
- 重複資料:去重複
- 關於應用:資料的時效性、相關性(是否包含了足夠的資訊,抽樣偏倚)、關於資料的說明文件
- 聚集:將多個物件合併為單個物件;定量屬性求和或平均值聚集,定性屬性可以忽略或彙總成一個集合;聚集可以歸納成小資料集,演算法開銷小;
- 抽樣:抽取有代表性的樣本(近似的具有與原資料集相同的性質);漸次抽樣:合適的樣本量很難確定,從一個小樣本開始,增加樣本量直到足夠容量的樣本
- 維歸約:
- 將舊屬性合併在一起得到新屬性;
- 維災難:維度增加,資料在空間中變得稀疏,使分類、聚類質量下降
- 維歸約的線性代數技術:主成分分析PCA、principal components analysi、奇異值分解SVD、singular value decomposition
- 特徵子集選擇:去除冗餘和不相關特徵會使分類、聚類質量提升;三種特徵選擇標準方法:
- 嵌入:將特徵選擇嵌入到資料探勘演算法(分類)
- 過濾:在資料探勘演算法執行前進行特徵選擇(屬性之間的相關度儘量低)
- 包裝:將目標演算法作為特徵集評估演算法
- 特徵選擇過程:子集評估度量、控制新的特徵子集產生的搜尋策略、停止搜尋判斷、驗證
- 特徵加權:給特徵計算一個權值
- 特徵建立:由原屬性建立新的屬性集;三種特徵建立方法:
- 特徵提取:對原資料的屬性建立,如圖象根據人臉邊界,提取出人臉分類
- 對映資料到新的空間:更好的特徵來揭示資料的重要性
- 特徵構造:原特徵不適合資料探勘,可以構造新特徵,如密度
- 離散化和二元化:分類演算法要求資料是分類屬性形式,;關聯模式的演算法要求資料是二元屬性形式,這就需要將連續屬性變換成分類屬性或二元屬性
- 監督和非監督:非監督離散化就是不使用類資訊,等寬、等頻率、等深方法;監督離散化利用類資訊離散化,其中有熵(區間混亂程度)
- 過多值的分類屬性:型別相近的分一類,如系和專業
- 變數變換:
- 簡單函式:如非線性迴歸中的值變換;考慮變換後是否保序
- 規範化:某種方法組合不同變數,避免較大值域左右結果,如考慮用年齡和收入對兩人比較,引入相似度和相異度;均值和標準差容易受離群點影響,可以用中位數和絕對標準差來替代
- 鄰近度表示相似性和相異性(距離)
- 資料物件之間的相異度:
- 距離:兩點之間的距離有三個性質:非負性、對稱性、三角不等式;
- 非度量的相異度,集合差:集合的相異度定義為(集合1-集合2的個數)+(集合2-集合1的個數)
- 非度量的相異度,時間:24小時為週期
- 資料物件間的相似度:
- 相似度的性質:非負性、對稱性
- 鄰近性度量的例子:
- 二後設資料的相似性度量:SMC=(值匹配的屬性個數/屬性個數)和Jaccard係數=(匹配的個數/不涉及0-0匹配的屬性個數)
- 餘弦相似度:向量的相似度
- 廣義Jaccard係數:用於文件資料
- 相關性:皮爾遜相關係數
- 鄰近度計算問題:
- 鄰近度的三個問題:
- 屬性具有不同尺度時
- 物件具有不同型別屬性如何計算物件間的鄰近度
- 屬性具有不同權重時,如何計算鄰近度
- 距離度量的標準化和相關性:當屬性相關、值域不同、方差不同、資料分佈近似正態,則用mahalanobis距離;如果是不相關屬性,則變數標準化
- 組合異種屬性的相似度:某些屬性是非對稱屬性,如果兩物件的非對稱屬性都為0時,則計算忽略該屬性,否則用總相似度公式(照舊)
- 使用權值:計算加入k屬性的權值
- 選取正確的鄰近度度量:鄰近度度量與資料型別相適應
- 稠密的、連續的資料:距離度量
- 稀疏資料:常常包含非對稱屬性,忽略0-0匹配的相似性度量;餘弦、Jaccard和廣義Jaccard度量