大俠幸會,在下全網同名「演算法金」 0 基礎轉 AI 上岸,多個演算法賽 Top 「日更萬日,讓更多人享受智慧樂趣」
機器學習本質上和資料科學一樣都是依賴機率統計,今天整整那些聽起來讓人頭大的機器學習江湖黑話
A - C
A/B Testing (A/B 測試) A/B測試是一種線上實驗,透過對比測試兩個版本的不同效果,來找出哪個更符合我們的需求。
- Accuracy (準確率) 在統計學中,準確率是指分類正確的樣本數佔總樣本數的比例。
- Adaboost (Adaboost 演算法) Adaboost是一種提高機器學習模型效能的方法,它透過組合多個弱分類器來構建一個強分類器。
- Algorithm (演算法) 演算法是解決特定問題的一系列步驟。
- AIOps (Artificial Intelligence for IT Operations, 人工智慧運維) AIOps是利用人工智慧來自動化和增強IT運維的工具和方法。
- Analytics (分析學) 分析學是對我們收集的資料進行深入研究,以提取有價值的資訊和洞察的過程。
- Anomaly Detection (異常檢測) 異常檢測是識別資料集中的異常或不尋常模式的過程。
- ANOVA (Analysis of Variance, 方差分析) 方差分析是一種統計方法,用於分析資料中的變異性,並確定不同組之間的差異是否具有統計學意義。
- API (Application Programming Interface, 應用程式程式設計介面) API是軟體之間的橋樑,它允許不同的程式之間相互通訊,共享資料和功能。
- AUC-ROC (Area Under the ROC Curve, 接收者操作特徵曲線下面積) AUC-ROC是一個衡量分類模型好壞的指標,它表示模型在所有可能的分類閾值下的效能。
- Batch Gradient Descent (批次梯度下降) 批次梯度下降是一種最佳化演算法,透過在整個資料集上計算誤差梯度來更新模型的引數。
- Bayesian Statistics (貝葉斯統計) 貝葉斯統計是一種統計學方法,它使用機率來更新對一個假設的信念。
- BI (Business Intelligence, 商業智慧) 商業智慧是使用資料、資料分析和業務洞察來支援商業決策的一系列方法。
- Bias (偏差) 偏差是指模型預測值與真實值之間的系統性差異。
- Bias-Variance Tradeoff (偏差-方差權衡) 偏差-方差權衡是機器學習中的一個基本概念,描述了模型複雜度與泛化能力之間的平衡。
- Big Data (大資料) 大資料指的是資料量巨大、型別多樣、處理速度快的資料集合。
- Binary Classification (二元分類) 二元分類是將資料分為兩個類別的任務。
- Bootstrap Sampling (自助取樣法) 自助取樣法是一種統計方法,透過從資料集中隨機抽取樣本並重復這個過程來估計統計量。
- Categorical data (分類資料) 分類資料是將資料分為不同的類別或組,這些類別是互斥的。
- Chi-Square Test (卡方檢驗) 卡方檢驗是一種統計檢驗,用於判斷分類變數之間是否獨立。
- Classification (分類) 分類是將資料點分配到預定義類別的過程,是監督學習的一種。
- Clustering (聚類) 聚類是將資料點分組的過程,使得同一組內的資料點比其他組的資料點更相似。
- Confidence Interval (置信區間) 置信區間是一個區間估計,用於表示對一個引數的估計有多可靠。
- Confusion Matrix (混淆矩陣) 混淆矩陣是一個表格,用於描述分類模型的效能,包括真正例、假正例、真負例和假負例。
- Correlation (相關性) 相關性是衡量兩個變數之間關係強度和方向的統計指標。
- Covariance (協方差) 協方差是衡量兩個隨機變數變化趨勢的統計量。
- Cross-Entropy Loss (交叉熵損失) 交叉熵損失是一個常用於分類問題的損失函式,用於衡量模型預測的機率分佈與真實分佈之間的差異。
- Cross-Validation (交叉驗證) 交叉驗證是一種將資料集分成多個子集,然後在每個子集上進行訓練和驗證的方法。
- Cost Function (成本函式) 成本函式是衡量模型預測與實際值差異的函式,最佳化演算法透過最小化成本函式來訓練模型。
D - F
- Data Warehouse (資料倉儲) 資料倉儲是一個集中的資料儲存系統,用於報告和資料分析。
- Data Cleaning (資料清洗) 資料清洗是識別並修正資料中的錯誤或不一致的過程。
- Data Lake (資料湖) 資料湖是一個儲存原始資料的大型倉庫,通常是非結構化的。
- Data Mining (資料探勘) 資料探勘是從大量資料中透過演算法和統計分析來發現模式和知識的過程。
- Data Preprocessing (資料預處理) 資料預處理是將原始資料轉換成適合進行分析的格式的過程。
- Data Visualization (資料視覺化) 資料視覺化是將資料以圖形或視覺格式展示出來,以幫助理解資料。
- Decision Boundary (決策邊界) 決策邊界是決策模型中用來區分不同類別的界限。
- Decision Tree (決策樹) 決策樹是一種直觀的決策支援工具,透過樹狀結構來表示決策過程。
- Dimensionality Reduction (降維) 降維是從資料中減少變數數量的技術,同時儘可能保留原始資料的資訊。
- Eigenvalue and Eigenvector (特徵值和特徵向量) 特徵值和特徵向量是線性代數中的概念,常用於降維技術如主成分分析。
- Elastic Net (彈性網路) 彈性網路是一種正則化方法,結合了L1和L2正則化。
- Ensemble Learning (整合學習) 整合學習是透過構建並結合多個學習器來提高模型的效能。
- Exploratory Data Analysis (EDA, 探索性資料分析) 探索性資料分析是在沒有明確假設的情況下對資料集進行的一種分析,旨在發現資料的內在規律。
- F1 Score (F1 分數) F1分數是精確度和召回率的調和平均,用於衡量分類器的效能。
- False Positive and False Negative (假陽性和假陰性) 在分類問題中,假陽性是指錯誤地將負類判為正類,而假陰性是指錯誤地將正類判為負類。
- Feature (特徵) 特徵是資料集中的一個可測量的屬性,用於幫助機器學習模型做出決策。
- Feature Engineering (特徵工程) 特徵工程是建立新特徵或修改現有特徵以提高模型效能的過程。
- Feature Extraction (特徵提取) 特徵提取是從原始資料中提取出有助於模型理解的關鍵資訊。
- Feature Importance (特徵重要性) 特徵重要性是指一個特徵對於模型預測的貢獻程度。
- Feature Selection (特徵選擇) 特徵選擇是從所有特徵中選擇對模型最有用的特徵的過程。
G - J
- Gaussian Distribution (高斯分佈) 高斯分佈,也稱為正態分佈,是一種在自然和社會科學中常見的連續機率分佈。
- Geospatial Analysis (地理空間分析) 地理空間分析是分析和解釋地理資料的模式和關係。
- Gradient Boosting (梯度提升) 梯度提升是一種整合學習技術,透過組合多個弱預測模型來提高預測效能。
- Gradient Descent (梯度下降) 梯度下降是一種最佳化演算法,透過調整引數來最小化損失函式。
- Grid Search (網格搜尋) 網格搜尋是一種超引數最佳化方法,透過遍歷給定的引數網格來尋找最佳的引數組合。
- Heteroscedasticity (異方差性) 異方差性是指資料中誤差項的方差不相等。
- Hierarchical Clustering (層次聚類) 層次聚類是一種建立層次結構的聚類方法,可以生成一個聚類樹。
- Hyperparameter (超引數) 超引數是在訓練開始之前設定的引數,用於控制學習過程。
- Hypothesis Testing (假設檢驗) 假設檢驗是一種統計方法,用於基於樣本資料判斷某個假設是否成立。
- Imputation (插補) 插補是處理缺失資料的方法,透過估計來填補缺失的值。
- Inferential Statistics (推斷統計學) 推斷統計學是統計學的一個分支,它使用樣本資料來推斷總體的特徵。
- Information Gain (資訊增益) 資訊增益是在決策樹演算法中用來評估特徵對分類結果的貢獻大小的一種指標。
- Interquartile Range (IQR, 四分位數範圍) 四分位數範圍是描述統計學中衡量資料分散程度的一個方法。
- Joint Plot (聯合圖) 聯合圖是一種資料視覺化技術,用於展示兩個變數之間的關係以及它們的邊際分佈。
- Joint Probability (聯合機率) 聯合機率是指兩個或多個事件共同發生的機率。
- Jupyter Notebook (Jupyter 筆記本) Jupyter Notebook 是一個互動式的計算環境,支援超過40種程式語言。
K - N
- K-Means Clustering (K-均值聚類) K-均值聚類是一種將資料分為K個叢集的無監督學習演算法。
- K-Nearest Neighbors (KNN, K-最近鄰) K-最近鄰是一種監督學習演算法,根據一個點的K個最近鄰居進行預測。
- L1 Regularization (L1 正則化) L1正則化是一種在損失函式中加入正則項的方法,促使模型稀疏化。
- L2 Regularization (Ridge, L2 正則化) L2正則化是另一種正則化方法,透過懲罰係數的平方來防止模型過擬合。
- Linear Regression (線性迴歸) 線性迴歸是一種統計學方法,用於建立自變數與因變數之間的線性關係。
- Log Likelihood (對數似然) 對數似然是在統計學中用於估計模型引數的一種方法,特別是在最大似然估計中。
- Logistic Function (邏輯函式) 邏輯函式是一種S形曲線,常用於邏輯迴歸中將線性迴歸的結果對映到機率上。
- Logistic Regression (邏輯迴歸) 邏輯迴歸是一種分類方法,它預測事件發生的機率。
- Loss function (損失函式) 損失函式是衡量模型預測值與實際值差異的函式,模型訓練的目標是最小化損失函式。
- Machine Learning (機器學習) 機器學習是人工智慧的一個分支,它使計算機能夠從資料中學習並做出決策或預測。
- Mean Absolute Error (MAE, 平均絕對誤差) 平均絕對誤差是衡量預測值與實際值之間差異的指標之一。
- Mean Squared Error (MSE, 均方誤差) 均方誤差是另一種衡量預測誤差的方法,它計算預測值與實際值之差的平方的平均。
- Mean (平均值) 平均值是所有資料點的總和除以資料點的數量。
- Median (中位數) 中位數是將一組資料排序後位於中間位置的數值。
- Metrics (指標) 指標是用於評估機器學習模型效能的標準。
- Model Evaluation (模型評估) 模型評估是使用各種指標來評價模型的效能。
- Multicollinearity (多重共線性) 多重共線性是指模型中的兩個或多個預測變數高度相關。
- Multi-Label Classification (多標籤分類) 多標籤分類是為每個例項分配一個以上的類別標籤的分類方法。
- Multivariate Analysis (多變數分析) 多變數分析是涉及兩個或更多變數的統計分析方法。
- Naive Bayes (樸素貝葉斯) 樸素貝葉斯是一種基於貝葉斯定理的簡單機率分類器。
- Normalization (標準化) 標準化是一種將資料按比例縮放,使之落入一個小的特定區間的資料處理方法。
- Null Hypothesis (零假設) 零假設是在假設檢驗中預先設定的假設,通常表示沒有效應或者沒有差異。
O - Z
- One-Hot Encoding (獨熱編碼) 獨熱編碼是一種將分類變數轉換為機器學習演算法可以更好處理的形式的方法。
- Ordinal Variable (序數變數) 序數變數是一種不僅包含類別資訊,還包含類別順序的資訊的變數。
- Outlier (異常值) 異常值是資料集中顯著偏離其他資料點的值。
- R-squared (R², 決定係數) 決定係數是迴歸分析中衡量模型擬合優度的一個統計指標。
- Sampling Bias (抽樣偏差) 抽樣偏差是指由於抽樣方法不當導致的樣本不能代表總體的情況。
- Sampling (抽樣) 抽樣是從大量資料中選擇一部分資料進行分析的過程。
- Scalability (可擴充套件性) 可擴充套件性是指系統能夠適應增長的使用者數量或資料量的能力。
- Sigmoid Function (Sigmoid 函式) Sigmoid函式是一種常用於二分類問題的數學函式,它將線性輸出對映到(0,1)區間。
- Silhouette Score (輪廓係數) 輪廓係數是一種衡量聚類效果的指標,基於樣本與自身聚類和其他聚類之間的距離。
- Singular Value Decomposition (SVD, 奇異值分解) 奇異值分解是一種數學方法,用於將矩陣分解為三個特定的矩陣。
- Spearman Rank Correlation (斯皮爾曼秩相關) 斯皮爾曼秩相關是一種非引數的相關性度量,用於衡量兩個變數的單調關聯性。
- Standard Deviation (標準差) 標準差是衡量資料集中數值分散程度的一個統計量。
- Stationarity (平穩性) 平穩性是指時間序列資料的統計特性在時間上保持不變的特性。
- Stratified Sampling (分層抽樣) 分層抽樣是一種抽樣技術,它將總體分為不同的子群,然後從每個子群中進行簡單隨機抽樣。
- Supervised Learning (監督學習) 監督學習是一種機器學習型別,模型從標記的訓練資料中學習。
- Support Vector Machine (SVM, 支援向量機) 支援向量機是一種強大的分類演算法,透過找到最優的分割超平面來最大化樣本的分類邊界。
- t-Distribution (t 分佈) t分佈是一種在統計學中用於小樣本資料的分佈。
- Time Series Analysis (時間序列分析) 時間序列分析是一種分析按時間順序排列的資料點的方法。
- t-test (t 檢驗) t檢驗是一種統計檢驗,用於比較兩組資料的均值是否有顯著差異。
- Two-sample t-test (雙樣本 t 檢驗) 雙樣本t檢驗是用來比較兩個獨立樣本群體的均值是否相等的檢驗方法。
- Underfitting (欠擬合) 欠擬合是指模型過於簡單,無法捕捉到資料中的複雜特徵。
- Univariate Analysis (單變數分析) 單變數分析是隻涉及單個變數的統計分析。
- Unsupervised Learning (無監督學習) 無監督學習是機器學習的一種,它從未標記的資料中發現模式和結構。
- Validation Set (驗證集) 驗證集是機器學習過程中用於評估模型效能的獨立資料集。
- Variance (方差) 方差是衡量資料點與均值之間差異的統計量。
- XGBoost (XGBoost) XGBoost是一種高效的梯度增強框架,用於解決各種機器學習任務。
- Zero-shot Learning (零樣本學習) 零樣本學習是一種機器學習技術,它允許模型在沒有直接的樣本學習的情況下識別新的類別。
- Z-Score (標準分數) 標準分數表示一個資料點與資料集均值的距離,用標準差的單位來衡量。
[ 抱個拳,總個結 ]
歡迎留言區補充
日更時間緊任務急,難免有疏漏之處,還請各位大俠海涵
本篇內容僅供學習交流之用,部分素材來自網路,侵聯刪
[ 演算法金,碎碎念 ]
南京特種部隊訓練
梅花山上梅花鹿
“金陵獅子林” - 愚園
全網同名,日更萬日,讓更多人享受智慧樂趣
如果覺得內容有價值,煩請大俠多多 分享、在看、點贊,助力演算法金又猛又持久、很黃很 BL 的日更下去;
同時邀請大俠 關注、星標 演算法金,圍觀日更萬日,助你功力大增、笑傲江湖