機器學習之特徵組合:組合獨熱向量

Lois發表於2020-06-17

原文網址 : https://learnku.com/articles/46047?order_by=created_at&

到目前為止, 我們已經重點介紹瞭如何對兩個單獨的浮點特徵進行特徵組合.在實踐中, 機器學習模型很少會組合連續特徵,.不過, 機器學習模型卻經常組合獨熱特徵向量, 將獨熱特徵向量的特徵組合視為邏輯連線.例如, 假設我們具有以下兩個特徵: 國家/地區和語言.對每個特徵進行獨熱編碼會生成具有二元特徵的向量, 這些二元特徵可解讀為 country = USA , country = France 或 language = English, language = Spanish .然後, 如果您對這些獨熱編碼進行線性組合, 則會得到可解讀為邏輯連線的二元特徵, 如下所示:

coutry:usa AND language:spanish

再舉一個例子, 假設您對緯度和經度進行分箱, 獲得單獨的獨熱 5 元素特徵向量.例如, 指定的緯度和經度可表示如下:

binned_latitude = [ 0, 0, 0, 1, 0]
binned_longitude = [ 0, 1, 0, 0, 0]

假設您對這兩個特徵向量建立了特徵組合:

binned_latitude X binned_longitude

此特徵組合是一個 25 元素獨熱向量 ( 24 個 0 和 1 個 1 ) .該組合中的單個 1 表示緯度和經度的特定連線.然後, 您的模型就可以瞭解到有關這種連線的特定關聯性.
假設我們更粗略地對維度和經度進行分箱, 如下所示:

binned_latitude ( lat ) = [
0 < lat <= 10
10 < lat <= 20
20 < lat <= 30
]
binned_longitude ( lon ) = [
0 < lon <= 15
15 < lon <= 30
]

針對這些粗略分箱建立特徵組合會生成具有以下含義的合成特徵:

binnned_latitude_X_longitude ( lat, lon ) =[
0 < lat <= 10 AND 0 < lon <= 15
0 < lat <= 10 AND 15 < lon <= 30
10 < lat <= 20 AND 0 < lon <= 15
10 < lat <= 20 AND 15 < lon <= 30
20 < lat <= 30 AND 0 < lon <= 15
20 < lat <= 30 AND 15 < lon <= 30
]

現在, 假設我們的模型需要根據以下兩個特徵來預測狗主人對狗狗的滿意程度:
1.行為型別 ( 叫、偎依等 )
2.時段
如果我們根據這兩個特徵構建以下特徵組合:

[ behavior type X time of day ]

我們最終獲得的預測能力將遠遠超過任一特徵單獨的預測能力.例如, 如果狗狗在下午 5 點主人下班回來時 ( 快樂地 ) 叫喊, 可能表示對主人滿意度的正面預測結果.如果狗狗在凌晨 3 點主人熟睡時 ( 也許痛苦地 ) 哀叫, 可能表示主人對滿意度的強烈負面預測結果.
線性學習可以很好地擴充套件到大量資料.對大規模資料集使用特徵組合是學習高度複雜模型的一種有效策略.神經網路可提供另一種策略.

本作品採用《CC 協議》，轉載必須註明作者和本文連結

Hacking

機器學習之特徵組合: 多非線性規律進行編碼
2020-06-16
機器學習特徵
【數學】組合數學 - 排列組合
2024-04-12
組合數學學習筆記
2024-11-12
筆記
【學習筆記】組合數學
2024-07-15
筆記
python學習之什麼是組合資料?
2020-12-29
Python
組合數學筆記-排列與組合
2023-02-28
筆記
組合數學
2024-11-04
【演算法學習】組合數學
2024-11-05
演算法
機器學習之特徵工程
2020-06-14
機器學習特徵工程
組合機率期望
2024-07-01
組合語言-學習記錄（二）
2020-11-22
組合語言
組合最佳化學習筆記
2024-09-06
筆記
《小學組合數學》
2024-03-07
【POJ 2249】 Binomial Showdown 組合數學排列組合計算
2019-01-18
組合
2024-08-24
機器學習之過擬合的風險
2020-06-14
機器學習
機器學習–過度擬合欠擬合
2018-12-08
機器學習
【組合數學】組合數學簡介 ( 組合思想 2 : 數學歸納法 | 數學歸納法推廣 | 多重歸納思想 )
2020-10-15
機器學習之支援向量機的超平面
2020-07-04
機器學習
組合語言學習筆記03——暫存器（CPU工作原理）
2020-10-04
組合語言筆記
【火爐煉AI】機器學習017-使用GridSearch搜尋最佳引數組合
2018-08-20
AI機器學習
機器碼指令組合語言的關係
2019-05-03
機器碼組合語言
MySQL學習筆記：組合索引-最左原則
2020-09-22
MySql筆記索引
MySQL學習筆記：組合索引-索引下推
2020-09-22
MySql筆記索引
acm-排列組合學習筆記(更新中)
2020-11-04
ACM筆記
深度學習快速入門3本書組合
2022-02-14
深度學習
組合模式
2020-10-18
模式
排列組合
2024-09-16
機器學習之良好特徵的特點
2020-06-16
機器學習特徵
機器學習之支援向量與間隔
2020-07-04
機器學習
不學無數——組合模式
2018-09-12
模式
2024.4.6 組合數學補題
2024-04-06
組合數學 XKerror 筆記
2024-07-07
Error筆記
楊輝三角（組合數）+排列組合
2020-11-20
使用SAP Cloud Platform Leonardo機器學習提取圖片的特徵向量
2019-08-24
CloudPlatform機器學習特徵
51微控制器程式框架之組合按鍵
2024-05-04
框架
機器學習-特徵提取
2019-09-07
機器學習特徵
機器學習 | 特徵工程
2019-08-22
機器學習特徵工程

機器學習之特徵組合:組合獨熱向量

相關文章