深入探讨：基于Python的数据清洗与预处理技术

昨天 6阅读

在数据科学和机器学习领域中，数据清洗与预处理是至关重要的步骤。无论是在构建预测模型、进行数据分析还是生成可视化报告时，高质量的数据都是成功的关键。然而，现实世界中的数据往往是不完整、不一致或包含噪声的，这使得数据清洗成为一项必不可少的任务。

本文将深入探讨如何使用Python对原始数据进行清洗和预处理。我们将结合代码示例，逐步讲解从数据加载到最终清理完成的全过程。本文的技术内容包括但不限于：处理缺失值、删除重复项、标准化数据、转换数据类型以及特征工程等。

1. 数据清洗的重要性

数据清洗（Data Cleaning）是指识别并修正或移除数据集中的错误、不一致或无关的部分，以提高数据质量的过程。以下是数据清洗的重要意义：

提升模型性能：干净的数据可以减少模型训练过程中的偏差和噪声，从而提高预测精度。节省计算资源：通过去除冗余或无用的数据，可以降低计算复杂度和存储需求。增强可解释性：清晰且一致的数据更容易被分析和理解，为后续决策提供可靠依据。

接下来，我们将通过一个具体案例来展示数据清洗的实际操作。

2. 示例数据集介绍

为了便于说明，我们假设有一个电子商务平台的用户购买记录数据集，其中包含以下字段：

字段名	描述
`user_id`	用户ID
`purchase_date`	购买日期
`product_name`	商品名称
`price`	商品价格（单位：元）
`quantity`	购买数量

该数据集中可能存在以下问题：

缺失值：某些记录缺少价格或购买数量。格式错误：日期格式不统一。重复项：同一用户可能多次提交相同订单。异常值：商品价格过高或过低。

我们将逐一解决这些问题。

3. 数据加载与初步检查

首先，我们需要将数据加载到Python环境中，并进行初步检查。这里我们使用Pandas库，因为它提供了强大的数据处理功能。

import pandas as pd# 加载数据data = pd.read_csv('ecommerce_data.csv')# 查看前5行数据print(data.head())# 检查数据基本信息print(data.info())# 统计缺失值情况print(data.isnull().sum())

输出示例：

     user_id purchase_date product_name  price  quantity0   U123456   2023-01-01        Shirt    NaN        21   U123457   2023-01-02         Jeans   99.9       12   U123458   2023-01-03         Shoes   150.0      NaN3   U123459   2023-01-04        Watch   300.0      14   U123460   2023-01-05        Phone   1000.0     1<class 'pandas.core.frame.DataFrame'>RangeIndex: 1000 entries, 0 to 999Data columns (total 5 columns): #   Column         Non-Null Count  Dtype  ---  ------         --------------  -----   0   user_id        1000 non-null   object  1   purchase_date  1000 non-null   object  2   product_name   1000 non-null   object  3   price          980 non-null    float64 4   quantity       990 non-null    float64dtypes: float64(2), object(3)memory usage: 39.1+ KBprice        20quantity     10dtype: int64

从输出可以看到，price 和 quantity 列存在少量缺失值。

4. 处理缺失值

缺失值的处理方式取决于业务场景和数据分布。以下是几种常见方法：

方法1：删除含有缺失值的行

如果缺失值比例较低，可以直接删除相关行。

# 删除任何包含缺失值的行data_cleaned = data.dropna()print(data_cleaned.shape)  # 检查剩余数据量

方法2：填充缺失值

对于数值型数据，可以使用均值、中位数或众数填充；对于分类数据，可以使用最常见的类别填充。

# 使用中位数填充 price 列的缺失值data['price'] = data['price'].fillna(data['price'].median())# 使用 0 填充 quantity 列的缺失值data['quantity'] = data['quantity'].fillna(0)# 验证是否还有缺失值print(data.isnull().sum())

5. 格式化日期

日期字段通常需要转换为标准格式以便后续分析。

# 将 purchase_date 转换为 datetime 类型data['purchase_date'] = pd.to_datetime(data['purchase_date'], errors='coerce')# 检查转换结果print(data['purchase_date'].head())

6. 删除重复项

重复数据可能会导致统计结果失真，因此需要及时删除。

# 检查是否有重复行print(data.duplicated().sum())# 删除重复行data = data.drop_duplicates()# 再次检查print(data.duplicated().sum())

7. 标准化数据

在某些情况下，需要对数值型数据进行标准化或归一化处理，以消除量纲影响。

from sklearn.preprocessing import MinMaxScaler# 对 price 和 quantity 进行归一化scaler = MinMaxScaler()data[['price', 'quantity']] = scaler.fit_transform(data[['price', 'quantity']])# 查看归一化后的数据print(data[['price', 'quantity']].head())

8. 特征工程

特征工程是数据预处理的重要组成部分，它通过创建新特征或转换现有特征来提升模型性能。

示例1：提取时间特征

我们可以从 purchase_date 中提取年份、月份和星期几等信息。

data['year'] = data['purchase_date'].dt.yeardata['month'] = data['purchase_date'].dt.monthdata['day_of_week'] = data['purchase_date'].dt.dayofweek# 查看新增列print(data[['year', 'month', 'day_of_week']].head())

示例2：创建总金额列

计算每笔订单的总金额（价格 × 数量）。

data['total_amount'] = data['price'] * data['quantity']# 查看新增列print(data[['price', 'quantity', 'total_amount']].head())

9. 总结

通过上述步骤，我们完成了数据的清洗与预处理工作。完整的流程如下：

加载数据：使用Pandas读取CSV文件。检查数据：查看基本信息和缺失值情况。处理缺失值：根据需求选择删除或填充策略。格式化日期：将日期字段转换为标准格式。删除重复项：确保数据集中没有重复记录。标准化数据：对数值型数据进行归一化处理。特征工程：创建新特征以丰富数据维度。

这些技术不仅适用于本案例，还可以推广到其他领域。掌握数据清洗技能，能够帮助你更高效地处理真实世界中的复杂数据集。

希望本文对你有所帮助！如果有任何疑问或建议，请随时交流。

免责声明：本文来自网站作者，不代表ixcun的观点和立场，本站所发布的一切资源仅限用于学习和研究目的；不得将上述内容用于商业或者非法用途，否则，一切后果请用户自负。本站信息来自网络，版权争议与本站无关。您必须在下载后的24个小时之内，从您的电脑中彻底删除上述内容。如果您喜欢该程序，请支持正版软件，购买注册，得到更好的正版服务。客服邮箱：aviv@vne.cc