数据分析
Contents
数据分析
- Pandas:数据处理和分析的核心库。
- NumPy:支持高性能的数值计算。
- Matplotlib:基础绘图库。
- Seaborn:统计
- Scikit-Learn
- SciPy
数据清洗是数据分析中至关重要的步骤,能够有效提高数据的质量。清洗步骤包括删除重复、处理缺失值、转换数据类型、去除异常值、标准化和归一化、文本清理、编码分类数据等。Python 中,pandas
、numpy
和 sklearn
等库为数据清洗提供了强大的功能。
缺失值处理 插值、删除、替换
异常值处理 删除、替换
数据预处理 StandardScaler、MinMaxScaler
将数据按列转换为均值为 0、标准差为 1 的标准正态分布
StandardScaler
会对每一列特征分别计算其均值和标准差,并用以下公式将数据标准化:
与BN类似都是对特征进行标准化