机器学习

fjyu95 included in 算法知识库

2024-10-22 1316 words 3 minutes views

Contents

机器学习

模型损失策略

回归

https://ster.im/py_sklearn_1/#%E6%94%AF%E6%8C%81%E5%90%91%E9%87%8F%E6%9C%BA%E5%9B%9E%E5%BD%92

基础模型：

线性回归（包含岭回归、Lasso回归、弹性网络回归）
树回归
支持向量机回归 SVR
K近邻回归

集成模型：

随机森林回归
极端随机树回归
AdaBoost回归
Gradient Boosting回归

聚类（无监督）

K-means

原理：通过将数据点分配到最近的簇心来形成簇，然后更新簇心，重复这一过程直到收敛。
优点：简单易实现，计算效率高，适用于大规模数据。
缺点：需要预先指定簇的数量 k，对初始簇心敏感，可能会陷入局部最优。

算法伪代码

输入：数据点集 X，簇数量 k
初始化：随机选择 k 个数据点作为初始簇心
重复直到收敛：
1. 对每个数据点 x_i ∈ X：
a. 计算与每个簇心的距离
b. 将 x_i 分配给最近的簇心
2. 对每个簇 j：
a. 更新簇心为属于该簇的所有点的均值
输出：每个数据点的簇分配和最终簇心

Mean Shift

GMM（Gaussian Mixture Model）

降维

PCA与SVD

PCA 需要计算数据协方差矩阵 C=m−11XTX，并找出其特征向量和特征值。而 SVD 将 X 分解为 X=UΣVT 后，矩阵 V 的列就是协方差矩阵 C 的特征向量。
奇异值 Σ 中的每个值的平方，按比例与协方差矩阵的特征值相关联。这表示数据在主成分方向上的方差大小。
SVD 是实现 PCA 的一种方法：在实际应用中，PCA 通常使用 SVD 来计算数据的主成分，因为 SVD 更稳定且适用于任意矩阵。
使用 SVD 进行 PCA 时，主成分是由 SVD 中的右奇异向量（矩阵 V）决定的，而奇异值的平方与数据的方差成比例。

离群检测

1. 基于统计的方法

Z-Score 方法：
- 通过计算每个数据点的 Z-Score（标准分数）来判断离群点。如果 Z-Score 超过设定的阈值，则认为该点是离群点。
- 公式：
  Z=σ(X−μ)
  其中，μ 是均值，σ 是标准差。
  Z=(X−μ)σZ = \frac{(X - \mu)}{\sigma}
  μ\mu
  σ\sigma
箱形图（Box Plot）：
- 通过分析数据的四分位数（Q1, Q3）和四分位距（IQR = Q3 - Q1）来判断离群点。通常，超过 Q1 - 1.5 * IQR 或 Q3 + 1.5 * IQR 的数据点被视为离群点。

from sklearn.covariance import EllipticEnvelope

Elliptic Envelope 是一种基于统计的方法，用于离群检测，特别适用于高维数据的异常点检测。该算法通过拟合一个椭圆形的边界来估计数据的分布，从而识别离群点。

Contents

机器学习

机器学习

分类

SVM

1. `C`（惩罚系数）

2. `kernel`（核函数类型）

3. `degree`（多项式核的阶数）

回归

聚类（无监督）

算法伪代码

降维

离群检测

1. 基于统计的方法

Contents

机器学习

机器学习

分类

SVM

1. C（惩罚系数）

2. kernel（核函数类型）

3. degree（多项式核的阶数）

回归

聚类（无监督）

算法伪代码

降维

离群检测

1. 基于统计的方法

1. `C`（惩罚系数）

2. `kernel`（核函数类型）

3. `degree`（多项式核的阶数）