Contents

数据分析

Contents

数据分析

  • Pandas:数据处理和分析的核心库。
  • NumPy:支持高性能的数值计算。
  • Matplotlib:基础绘图库。
  • Seaborn:统计
  • Scikit-Learn
  • SciPy

数据清洗是数据分析中至关重要的步骤,能够有效提高数据的质量。清洗步骤包括删除重复、处理缺失值、转换数据类型、去除异常值、标准化和归一化、文本清理、编码分类数据等。Python 中,pandasnumpysklearn 等库为数据清洗提供了强大的功能。

缺失值处理 插值、删除、替换

异常值处理 删除、替换

数据预处理 StandardScaler、MinMaxScaler

将数据按列转换为均值为 0、标准差为 1 的标准正态分布

StandardScaler 会对每一列特征分别计算其均值和标准差,并用以下公式将数据标准化:

/posts/algorithm_knowledge_base/4_%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90/image%2058.png

与BN类似都是对特征进行标准化