第二章 相似性和相異性度量&資料&資料預處理

DIck Whitman發表於2018-10-23
  1. 資料型別:定量、定性
  2. 屬性是物件的性質、特徵,測量標度是將數值或符號值與物件的屬性相關聯的規則(函式)
  3. 屬性型別:屬性的性質不必與用來度量他的值的性質相同
  4. 屬性的不同:相異性、序、加法、乘法
  5. 四種屬性型別:標稱和序數(分類的、定性的)、區間和比率(數值的、定量的);非對稱屬性:如果屬性值具有相同的權重,則為對稱的;反之,為非對稱的
  6. 資料集的型別:
    1. 資料集的特徵:維度、稀疏性、解析度
    2. 記錄資料:事務資料或購物籃資料、資料矩陣、稀疏資料矩陣
    3. 基於圖形的資料
    4. 有序資料:時序資料、序列資料、時間序列資料(考慮時間自相關,時間接近資料接近)、空間資料
  7. 資料質量
    1. 資料清洗:測量誤差與資料收集誤差、噪聲、偽像(確定的錯誤的結果)
    2. 精度、標準差
    3. 偏倚:樣本與總體引數之差
    4. 精確度:測量值與實際值之間的接近度
    5. 離群點:不同於噪音,本身是合法的,有時作為研究物件
    6. 遺漏值
    7. 不一致的值
    8. 重複資料:去重複
  8. 關於應用:資料的時效性、相關性(是否包含了足夠的資訊,抽樣偏倚)、關於資料的說明文件
  1. 聚集:將多個物件合併為單個物件;定量屬性求和或平均值聚集,定性屬性可以忽略或彙總成一個集合;聚集可以歸納成小資料集,演算法開銷小;
  2. 抽樣:抽取有代表性的樣本(近似的具有與原資料集相同的性質);漸次抽樣:合適的樣本量很難確定,從一個小樣本開始,增加樣本量直到足夠容量的樣本
  3. 維歸約:
    1. 將舊屬性合併在一起得到新屬性;
    2. 維災難:維度增加,資料在空間中變得稀疏,使分類、聚類質量下降
    3. 維歸約的線性代數技術:主成分分析PCA、principal components analysi、奇異值分解SVD、singular value decomposition
  4. 特徵子集選擇:去除冗餘和不相關特徵會使分類、聚類質量提升;三種特徵選擇標準方法:
    1. 嵌入:將特徵選擇嵌入到資料探勘演算法(分類)
    2. 過濾:在資料探勘演算法執行前進行特徵選擇(屬性之間的相關度儘量低)
    3. 包裝:將目標演算法作為特徵集評估演算法
    4. 特徵選擇過程:子集評估度量、控制新的特徵子集產生的搜尋策略、停止搜尋判斷、驗證
    5. 特徵加權:給特徵計算一個權值
  5. 特徵建立:由原屬性建立新的屬性集;三種特徵建立方法:
    1. 特徵提取:對原資料的屬性建立,如圖象根據人臉邊界,提取出人臉分類
    2. 對映資料到新的空間:更好的特徵來揭示資料的重要性
    3. 特徵構造:原特徵不適合資料探勘,可以構造新特徵,如密度
  6. 離散化和二元化:分類演算法要求資料是分類屬性形式,;關聯模式的演算法要求資料是二元屬性形式,這就需要將連續屬性變換成分類屬性或二元屬性
    1. 監督和非監督:非監督離散化就是不使用類資訊,等寬、等頻率、等深方法;監督離散化利用類資訊離散化,其中有熵(區間混亂程度)
    2. 過多值的分類屬性:型別相近的分一類,如系和專業
  7. 變數變換:
    1. 簡單函式:如非線性迴歸中的值變換;考慮變換後是否保序
    2. 規範化:某種方法組合不同變數,避免較大值域左右結果,如考慮用年齡和收入對兩人比較,引入相似度和相異度;均值和標準差容易受離群點影響,可以用中位數和絕對標準差來替代
  1. 鄰近度表示相似性和相異性(距離)
  2. 資料物件之間的相異度:
    1. 距離:兩點之間的距離有三個性質:非負性、對稱性、三角不等式;
    2. 非度量的相異度,集合差:集合的相異度定義為(集合1-集合2的個數)+(集合2-集合1的個數)
    3. 非度量的相異度,時間:24小時為週期
  3. 資料物件間的相似度:
    1. 相似度的性質:非負性、對稱性
  4. 鄰近性度量的例子:
    1. 二後設資料的相似性度量:SMC=(值匹配的屬性個數/屬性個數)和Jaccard係數=(匹配的個數/不涉及0-0匹配的屬性個數)
    2. 餘弦相似度:向量的相似度
    3. 廣義Jaccard係數:用於文件資料
    4. 相關性:皮爾遜相關係數
  5. 鄰近度計算問題:
    1. 鄰近度的三個問題:
      1. 屬性具有不同尺度時
      2. 物件具有不同型別屬性如何計算物件間的鄰近度
      3. 屬性具有不同權重時,如何計算鄰近度
    2. 距離度量的標準化和相關性:當屬性相關、值域不同、方差不同、資料分佈近似正態,則用mahalanobis距離;如果是不相關屬性,則變數標準化
    3. 組合異種屬性的相似度:某些屬性是非對稱屬性,如果兩物件的非對稱屬性都為0時,則計算忽略該屬性,否則用總相似度公式(照舊)
    4. 使用權值:計算加入k屬性的權值
  6. 選取正確的鄰近度度量:鄰近度度量與資料型別相適應
    1. 稠密的、連續的資料:距離度量
    2. 稀疏資料:常常包含非對稱屬性,忽略0-0匹配的相似性度量;餘弦、Jaccard和廣義Jaccard度量

相關文章