屬性
離散/連續
離散屬性:具有有限或無限可數個值,不一定為整數。屬性hair_color、smoker、medical_test和drink_size都有有限個值,因此是離散的。
離散屬性可以具有數值。如對於二元屬性取 0 和 1 ,對於年齡屬性取 0 到 110 。如果一個屬性可能的值集合是無限的,但是可以建立一個與自然數的一一對應,則這個屬性是無限可數的。例如,屬性customer_ID是無限可數的。顧客數量是無限增長的,但事實上實際的值集合是可數的。
定性/定量
定量屬性:指以數量形式存在著的屬性,因此可以對其進行測量。測量的結果用一個具體的量(稱其為單位)和一個數的乘積來表示。以物理量為例,距離、質量、時間等都是定量屬性。
定性是指透過非量化的手段來探究事物的本質。其概念與定量相對應。定性的手段可以包括觀測、實驗和分析等,以此來考察研究物件是否具有這種或那種屬性或特徵以及它們之間是否有關係。
二元屬性:對稱/非對稱
對稱屬性:如果它的兩個狀態有相同的權重, 那麼該二元變數是對稱的,也就是兩個取值 0 或 1 ,沒有優先權。例如,屬性“性別”就是這樣的一個例子,它有兩個值:“女性”和“男性”。
非對稱屬性:如果兩個狀態的輸出不是同樣重要,那麼該二元變數是不對稱的。例如一個疾病檢查的肯定和否定的結果。根據慣例,我們將比較重要的輸出結果,通常也是出現機率較小的結果編碼為 1(例如,HIV陽性),而將另一種結果編碼為 0(例如 HIV 陰性)。給定兩個不對稱的二元變數,兩個都取值 1 的情況(正匹配)被認為比兩個都取值 0 的情況(負匹配)更有意義。
屬性的型別
- 標稱:標稱值只提供足夠的資訊以區別物件。例如,性別。
- 序數:序數值提供足夠的資訊確定物件的序。例如,礦石硬度[好、較好、最好]。
- 區間:值之間的差是有意義的。例如,日曆等。
- 比率:值之間的差和比率都有意義。例如,貨幣量、年齡、質量等。
變換
屬性型別 | 變換 |
---|---|
標稱 | 任何一對一的變換 |
序列 | 值的保序變換,即新值=f(舊值),其中是單調函式 |
區間 | 新值=a×舊值+b,其中a、b是常數 |
比率 | 新值=a×舊值 |
資料集的型別
記錄矩陣
- 記錄資料
- 資料矩陣
- 稀疏資料矩陣
- 事務資料矩陣
基於圖形的資料
帶有物件之間聯絡的資料,如全球資訊網。
具有圖形物件的資料,如蛋白質分子資料。
有序資料
空間資料、時序資料、序列資料、時間序列資料。
Transformer
原理:相同語義的詞,上下文關係類似。eg:香蕉🍌——猴子🐒、黃色、甜、水果
要求:語義關係碼,離散化後,能體現語義關係
why詞嵌入:one-hot編碼無法量化不同詞語間的關聯