Python案例如何做输入校验

wen python案例 2026-06-04 51

Python案例实战：如何做输入校验？从入门到防御黑客攻击的完整指南

目录导读

为什么输入校验是Python开发的生死线？
基础校验：类型、范围、正则——三板斧
进阶案例：Web表单输入校验实战（Flask+Django）
防御攻击：SQL注入、XSS与命令注入的校验杀招
高级技巧：自定义校验器与第三方库（Pydantic/Cerberus）
常见问答与避坑指南

为什么输入校验是Python开发的生死线？

问：没有输入校验的代码会怎样？
答：未校验的用户输入直接交给数据库或系统命令，等于让黑客在家门口插钥匙，用户输入"; DROP TABLE users;--可能导致数据库被删除。

Python案例如何做输入校验

问：Python自身是否有内置校验工具？
答：有，但不够，内置的int()、isinstance()只能做基础类型检查，像“用户名仅允许字母下划线且长度6-20”这类业务规则，就需要组合策略。

核心原则：永远不要信任用户输入！ 校验应在入口处（如API路由、函数入口）立即执行，而不是在业务逻辑中到处散落，Python的最佳实践是将校验抽象为装饰器或独立函数。

基础校验：类型、范围、正则——三板斧

1 类型校验（防类型错误）

def safe_int(value):
    """安全转int，非数字返回None"""
    try:
        return int(value)
    except (ValueError, TypeError):
        return None

实战案例：用户年龄输入。safe_int(request.args.get('age'))若返回None，直接返回400错误。

2 范围校验（防逻辑越界）

结合assert或条件判断：

def validate_age(age):
    if not 0 <= age <= 150:
        raise ValueError("年龄必须在0-150之间")

注意：不要直接assert用于生产，因为python -O会禁用assert。

3 正则表达式校验（防格式攻击）

最经典的邮件、手机号、密码强度校验：

import re
def is_valid_email(email):
    pattern = r'^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$'
    return re.match(pattern, email) is not None

问：正则写错了怎么办？
答：使用validator-collection等成熟库，或在线正则测试器验证，实际项目中，更推荐email-validator库（pip install email-validator）。

进阶案例：Web表单输入校验实战（Flask+Django）

1 Flask中的动态校验装饰器

from functools import wraps
from flask import request, jsonify
def validate_input(schema):
    def decorator(f):
        @wraps(f)
        def wrapper(*args, **kwargs):
            data = request.get_json(silent=True) or {}
            errors = []
            for field, rules in schema.items():
                value = data.get(field)
                # 逐个规则校验
                for rule in rules:
                    if rule == 'required' and not value:
                        errors.append(f'{field}是必填项')
                    elif rule == 'int' and not isinstance(value, int):
                        errors.append(f'{field}必须为整数')
                    # 可以扩展更多规则...
            if errors:
                return jsonify({'error': errors}), 400
            return f(*args, **kwargs)
        return wrapper
    return decorator
# 使用示例
@app.route('/register', methods=['POST'])
@validate_input({
    'username': ['required', 'len_3_20'],
    'age': ['int', 'range_0_150']
})
def register():
    return jsonify({'status': 'success'})

优势：将校验逻辑从视图函数剥离，通过装饰器集中管理。

2 Django的ModelForm与Serializer校验

Django内置表单验证非常强大,但很多开发者低估了clean_字段名方法：

from django import forms
class UserForm(forms.Form):
    username = forms.CharField(max_length=20)
    age = forms.IntegerField(min_value=0, max_value=150)
    def clean_username(self):
        username = self.cleaned_data['username']
        if not re.match(r'^[a-zA-Z0-9_]+$', username):
            raise forms.ValidationError("用户名仅允许字母、数字和下划线")
        return username

问：Django的Serializer与Form有何区别？
答：Serializer用于REST API（如DRF），更适合前后端分离；Form用于传统模板渲染，两者都遵循“模型定义校验”原则，但Serializer支持嵌套与序列化。

防御攻击：SQL注入、XSS与命令注入的校验杀招

1 SQL注入防御（不止参数化）

参数化查询（如cursor.execute("SELECT * FROM users WHERE id = %s", (user_id,))）是标配，但二次校验依然关键：

用户输入的user_id必须验证为纯数字（str.isdigit()），防止1 OR 1=1。
对于LIKE查询,要escape特殊字符和。

2 XSS防御（输入转义+输出编码）

import html
safe_input = html.escape(user_input)  # 将<>&等转义
# 最佳实践：使用Jinja2模板引擎的自动转义（{% autoescape true %}）

3 命令注入防御（绝对禁止eval）

import subprocess
# 安全：直接传递参数列表
subprocess.run(['ping', '-c', '1', sanitized_host], check=True)
# 危险：字符串拼接
subprocess.run(f'ping -c 1 {user_input}', shell=True)  # 用户输入;rm -rf / 直接爆炸

关键原则：绝不使用shell=True，使用列表参数，如果需要，使用shlex.quote()转义。

高级技巧：自定义校验器与第三方库（Pydantic/Cerberus）

1 Pydantic：类型安全+自动校验（专为API设计）

from pydantic import BaseModel, validator, Field
class UserRegistration(BaseModel):
    username: str = Field(..., min_length=3, max_length=20, regex=r'^[a-zA-Z0-9_]+$')
    age: int = Field(..., ge=0, le=150)
    email: str
    @validator('email')
    def validate_email(cls, v):
        if '@' not in v or '.' not in v:
            raise ValueError('无效的邮箱')
        return v
# 使用
try:
    user = UserRegistration(username='test', age=25, email='test@example.com')
    print(user.dict())  # 自动转成字典
except ValidationError as e:
    print(e.errors())

优势：自动JSON Schema生成、嵌套模型、高性能验证。推荐FastAPI项目必用。

2 Cerberus：轻量级数据校验（适合旧项目）

from cerberus import Validator
schema = {
    'name': {'type': 'string', 'minlength': 1, 'maxlength': 10},
    'age': {'type': 'integer', 'min': 0, 'max': 150}
}
v = Validator(schema)
if v.validate({'name': '张三', 'age': 25}):
    print('校验通过')
else:
    print(v.errors)

适用场景：不依赖ORM的纯数据校验，或无法升级Pydantic的旧版Python环境。

3 自定义校验装饰器（企业级通用方案）

from functools import wraps
from typing import Callable, Any
def input_validator(validators: dict[str, Callable]):
    """多字段自定义校验器装饰器"""
    def decorator(func):
        @wraps(func)
        def wrapper(*args, **kwargs):
            # 假设输入在kwargs中（或从request等提取）
            for field, validator_func in validators.items():
                value = kwargs.get(field)
                if not validator_func(value):
                    raise ValueError(f'{field}校验失败: {value}')
            return func(*args, **kwargs)
        return wrapper
    return decorator
# 使用
def check_positive_int(value):
    return isinstance(value, int) and value > 0
@input_validator({'user_id': check_positive_int})
def get_user_info(user_id):
    # 这里可以放心使用user_id
    return {'id': user_id}

常见问答与避坑指南

Q1：输入校验应该放在前端还是后端？

A：必须放在后端！前端校验只为了用户体验，后端校验才是安全红线，攻击者可直接绕开前端发送恶意请求。

Q2：为什么用正则校验用户名时，要设置`max_length`？

A：防止ReDoS攻击（正则拒绝服务）：某些构造的输入（如aaaaaaaaaaaaaaaaaaaaaaaaaaaa!）会导致正则回溯爆炸，通过限制长度（如20字符）可以阻断。

Q3：如何处理用户上传的文件校验？

A：不能只检查文件扩展名！攻击者可上传script.php.jpg，正确做法：

使用python-magic库检测魔数（文件头）。
限制文件大小（Flask的request.files['file'].content_length）。
重命名文件并存储到非Web可访问目录。

Q4：第三方库（Pydantic/Django Form）和手写校验的取舍？

A：简单项目：手写+正则即可；复杂API：强制使用Pydantic或DRF Serializer，它们内置了错误信息格式化和嵌套校验；传统Django项目：直接用ModelForm省心。

Q5：校验通过后，数据存储前还需要做什么？

A：转义+参数化！校验只是第一道门，存储时仍需：

对HTML内容做html.escape（防XSS存储型）
数据库操作使用参数化查询（防SQL注入）
日志中屏蔽敏感字段（如密码）

输入校验是防御纵深的第一环，但不是唯一一环。 一个健壮的Python程序需要“前端验证+后端校验+参数化查询+输出编码”的立体防御，从今天起，在每一个input()、request.get_json()、form.cleaned_data出现的地方，都问一句：这个输入我真的信任了所有字符吗？ 这种程序员的本能，才是保住线上环境不掉坑的核心。