Python案例如何实现数据特征工程？

wen python案例 2026-06-15 4

Python案例：数据特征工程从零到实战——完整实现指南

目录导读

什么是数据特征工程及其核心价值
特征工程的标准流程与Python工具链
案例实战：基于房价预测数据集的全流程特征工程
常见特征技巧：编码、缩放、组合与选择
高频问答与避坑指南

什么是数据特征工程及其核心价值

在机器学习项目中,有一句广为流传的格言：“数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限。”数据特征工程正是将原始数据转化为更能代表问题本质、更利于模型学习的特征集合的过程。

Python案例如何实现数据特征工程？

核心价值包括：

提升模型的预测精度与泛化能力
减少数据噪声,避免过拟合
让线性模型也能捕捉非线性关系
降低对大量数据与复杂模型的依赖

根据Kaggle竞赛与工业界经验,特征工程通常占据项目60%-80%的工作量，掌握一套完整的Python特征工程方法论，是数据科学从业者的必备技能。

特征工程的标准流程与Python工具链

一个典型的特征工程流水线包含以下6个阶段：

阶段	主要任务	常用Python库
数据清洗	处理缺失值、异常值	pandas, numpy
特征编码	类别变量数值化	sklearn.preprocessing, category_encoders
特征缩放	统一量纲	StandardScaler, MinMaxScaler, RobustScaler
特征组合	创造交叉特征	PolynomialFeatures, sklearn.feature_selection
特征选择	降低维度、筛选有效特征	SelectKBest, RFE, Lasso
特征降维	压缩特征空间	PCA, t-SNE, Autoencoder

推荐工具链： pandas + numpy + scikit-learn + feature-engine + category_encoders，这些库覆盖了99%的特征工程需求，且API高度一致。

案例实战：基于房价预测数据集的全流程特征工程

1 数据加载与初步探索

假设我们有一个包含3268条记录的二手房房价数据集（house_prices.csv），包含面积、房龄、卧室数、楼层、朝向、装修类型等字段。

import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.feature_selection import SelectKBest, f_regression
df = pd.read_csv('house_prices.csv')
print(df.info())
print(df.describe())

问答1：如何快速识别缺失值与异常值？

解答： 使用df.isnull().sum()查看缺失列；df.describe()查看数值列标准差与分位数；结合箱线图（df.boxplot()）标记异常值，建议对超过3倍标准差的异常点做截尾处理，而非直接删除。

2 缺失值处理——因地制宜的策略

# 数值型特征：用中位数填充
df['面积'].fillna(df['面积'].median(), inplace=True)
# 类别型特征：用众数填充或新增'缺失'类别
df['装修类型'].fillna('Unknown', inplace=True)
# 时间序列特征：向前填充
df['最近成交日期'].fillna(method='ffill', inplace=True)

3 类别特征编码——避免哑变量陷阱

from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer
categorical_cols = ['朝向', '装修类型', '楼层类型']
# 低频类别合并：出现次数少于1%的类别归为'其他'
for col in categorical_cols:
    freq = df[col].value_counts(normalize=True)
    rare_cats = freq[freq < 0.01].index
    df[col] = df[col].apply(lambda x: 'Other' if x in rare_cats else x)
# One-Hot编码
ct = ColumnTransformer([('encoder', OneHotEncoder(drop='first'), categorical_cols)], remainder='passthrough')
X_encoded = ct.fit_transform(df.drop('价格', axis=1))

问答2：One-Hot编码容易导致维度爆炸，怎么办？

解答： 对于高基数类别（如邮政编码、户型ID），可采用目标编码（Target Encoding），即用类别对应的目标均值替代原始类别，使用category_encoders.TargetEncoder，但需配合交叉验证防止过拟合，另一种选择：采用FeatureHasher进行哈希特征处理。

4 特征缩放——让模型收敛更快

# 对数值特征使用RobustScaler（对异常值鲁棒）
from sklearn.preprocessing import RobustScaler
numerical_cols = ['面积', '房龄', '距地铁站距离', '绿化率']
scaler = RobustScaler()
df[numerical_cols] = scaler.fit_transform(df[numerical_cols])

5 特征组合——挖掘潜在交互关系

from sklearn.preprocessing import PolynomialFeatures
# 只对重要数值特征做二阶交互（控制维度增长）
poly = PolynomialFeatures(degree=2, interaction_only=True, include_bias=False)
interaction_features = poly.fit_transform(df[['面积', '房龄']])
df['面积_房龄交互'] = interaction_features[:, -1]  # 取交互项
# 业务驱动的组合：每平米单价
df['单价'] = df['价格'] / (df['面积'] + 1)

6 特征选择——去芜存菁

# 基于方差阈值：剔除方差极低的特征
from sklearn.feature_selection import VarianceThreshold
selector = VarianceThreshold(threshold=0.01)
X_selected = selector.fit_transform(X_encoded)
# 基于与目标变量的相关性（F统计量）
X_train, X_test, y_train, y_test = train_test_split(X_selected, df['价格'], test_size=0.2, random_state=42)
skb = SelectKBest(f_regression, k=20)
X_train_selected = skb.fit_transform(X_train, y_train)
X_test_selected = skb.transform(X_test)

问答3：如何判断哪些特征应该被筛选掉？

解答： 同时使用多种方法交叉验证：1）sklearn.feature_selection.SelectFromModel结合Lasso回归（L1正则化自动筛选）；2）计算特征之间的相关系数矩阵，剔除两两相关系数>0.9的冗余特征；3）对树模型（如RandomForest）获取特征重要性排序，最终保留重要性排名前15-20的强特征。

常见特征技巧汇总

1 时间特征衍生

# 从日期中提取年、月、日、星期几、是否为周末
df['交易月份'] = pd.to_datetime(df['成交日期']).dt.month
df['是否周末'] = (pd.to_datetime(df['成交日期']).dt.weekday >= 5).astype(int)

2 统计聚合特征

# 按小区聚合：该小区所有房源的平均面积、中位价格
agg_df = df.groupby('小区名称')['面积', '价格'].agg(['mean', 'median', 'count'])
agg_df.columns = ['小区平均面积', '小区中位面积', '小区房源数']
df = df.merge(agg_df, on='小区名称', how='left')

3 文本特征 — 小区名称关键词提取

# 从小区名提取'花园'、'公寓'、'大厦'等关键词作为虚拟变量
df['含花园'] = df['小区名称'].str.contains('花园', na=False).astype(int)

高频问答与避坑指南

Q1：特征工程应该在划分训练集/测试集之前还是之后做？

A：所有涉及统计量（均值、中位数、分位数、编码映射）的操作，必须在训练集上fit，再transform测试集，包括填充缺失值、标准化、目标编码等，严禁直接对整个数据集统一操作，否则会造成数据泄漏。

Q2：为什么用了全部特征后模型效果反而变差？

A：维度诅咒，当特征数量超过样本量的1/10时，模型容易过拟合，建议：1）先做特征选择减少到20维以内；2）使用正则化模型（Lasso、Ridge）；3）进行主成分分析（PCA）降维后仅保留解释90%方差的前n个主成分。

Q3：离散化连续特征是否有必要？

A：视模型而定，对于线性模型，分箱可以捕捉非线性关系；对于树模型，默认就能处理非线性，分箱反而可能丢失信息，建议在特征工程后期，通过交叉验证尝试KBinsDiscretizer与原始连续特征对比效果。

Q4：如何处理高维稀疏类别特征？

A：推荐方法：1）奇异值分解（SVD）压缩为低维稠密向量（如10-50维）；2）实体嵌入（Entity Embeddings），将类别映射为可训练的嵌入向量，在深度学习中效果优异；3）CountEncoder，直接用出现次数代替标签编码，简单有效。

Q5：自动特征工程工具是否可完全替代人工？

A：工具如featuretools（深度特征合成）和tsfresh（时间序列特征）可以自动化生成大量候选特征，但人工特征的核心价值在于领域知识与业务洞察，建议：先用自动工具生成基线特征集，再手动剔除不合理特征、添加业务规则特征，最后用递归特征消除（RFE）做精细筛选。

数据特征工程是机器学习项目的“高杠杆”环节，通过本文的Python案例，你可以构建一个完整流程：清洗→编码→缩放→组合→选择→降维，没有一成不变的“最优特征集合”，迭代实验才是关键——始终带着对业务的理解与交叉验证的反馈来优化特征。

延伸资源：在实际工业项目中，建议将上述流程封装为sklearn.pipeline.Pipeline，结合GridSearchCV进行自动化调参，Kaggle竞赛中的特征工程文档（如House Prices预测赛）提供了大量高水平的特征工程范例，值得反复研习。