如何用Python案例抓取网页数据？

wen python案例 2026-06-19 4

本文目录导读：

如何用Python案例抓取网页数据？

如何用Python案例抓取网页数据？从零到实战的完整指南
保存到CSV

如何用Python案例抓取网页数据？从零到实战的完整指南

目录导读

为什么选择Python进行网页数据抓取？
必备工具与库：Requests、BeautifulSoup、Selenium
环境搭建与基础代码结构
实战案例一：静态网页数据抓取（文章标题与内容）
实战案例二：动态网页抓取（翻页与JavaScript渲染）
注意事项：反爬策略与法律边界
常见问题与解答

为什么选择Python进行网页数据抓取？

Q：Python在数据抓取领域有哪些不可替代的优势？
A：Python拥有简洁的语法、丰富的第三方库（如Requests、Scrapy、BeautifulSoup）、强大的社区支持，以及天然适合数据处理的特性，相比其他语言，Python学习成本低，开发效率高，尤其适合非编程背景的数据分析师快速上手，Python可无缝对接Pandas、NumPy等数据分析库，实现“抓取-清洗-分析”的闭环。

Q：与付费数据API相比，自己写爬虫有什么价值？
A：付费API往往有请求次数限制、字段不全或成本高昂，自定义爬虫可精准控制数据范围、频率和存储格式，尤其适合行业调研、竞品分析、学术研究等场景，但需注意，抓取行为需遵守目标网站的robots.txt协议与当地法律。

必备工具与库：Requests、BeautifulSoup、Selenium

库名称	用途	适用场景
Requests	发送HTTP请求，获取网页原始HTML	静态页面、无JavaScript内容的简单抓取
BeautifulSoup	解析HTML/XML，提取结构化数据	需要从复杂HTML中精准定位元素
Selenium	模拟真实浏览器操作，处理JavaScript渲染	动态加载、需要点击/滚动/登录的页面

Q：什么时候用Requests+BeautifulSoup，什么时候必须用Selenium？
A：当你打开网页查看源代码，目标数据直接出现在其中时，可使用前者，若数据是通过Ajax异步加载或需要执行JavaScript才能显示（如电商商品列表、社交媒体动态），则必须用Selenium驱动浏览器（如Chrome/Edge）模拟用户操作。

环境搭建与基础代码结构

安装依赖包

pip install requests beautifulsoup4 selenium
# 若使用Selenium，需下载对应浏览器驱动（如chromedriver）

基础代码模板

import requests
from bs4 import BeautifulSoup
# 设置请求头模拟浏览器，避免被识别为爬虫
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}
# 发送请求
url = 'https://example.com/article'
response = requests.get(url, headers=headers)
response.encoding = 'utf-8'  # 处理中文乱码
# 解析网页
soup = BeautifulSoup(response.text, 'html.parser')
# 提取数据= soup.find('h1', class_='article-title').text
content = soup.find('div', class_='article-content').text
print(f'标题：{title}\n正文：{content[:100]}...')

Q：为什么要设置User-Agent？
A：很多服务器会检测爬虫的默认请求头，设置成常见浏览器（如Chrome、Edge）可以降低被屏蔽的概率，更高级的做法是随机切换User-Agent。

实战案例一：静态网页数据抓取（文章标题与内容）

场景：抓取一个新闻网站的文章列表与详情页

假设目标：https://news.example.com/latest，需要提取每条新闻的标题、链接、发布时间和正文。

步骤：

分析网页结构：右键“检查”或“查看网页源代码”，发现每条新闻在<div class="news-item">中。

提取列表页：

import requests
from bs4 import BeautifulSoup
import csv

url = 'https://news.example.com/latest' headers = {'User-Agent': '...'}

response = requests.get(url, headers=headers) soup = BeautifulSoup(response.text, 'html.parser')

data = [] for item in soup.findall('div', class='news-item'):= item.find('h2').text link = item.find('a')['href'] date = item.find('span', class_='date').text data.append([title, link, date])

保存到CSV

with open('news.csv', 'w', newline='', encoding='utf-8') as f: writer = csv.writer(f) writer.writerow(['标题', '链接', '日期']) writer.writerows(data)

**抓取详情页**：遍历`link`列，用相同方法提取正文。
**Q：如果网页结构变化怎么办？**  
A：爬虫的稳定性依赖于网页结构，定期检查目标网站变化，或使用更通用的选择器（如`<h2>`而非特定class），并添加异常处理。
---
## 5. 实战案例二：动态网页抓取（翻页与JavaScript渲染）
### 场景：抓取电商网站的商品列表（翻页+动态加载）
目标：`https://shop.example.com/phones?page=1`，但数据通过Ajax加载，直接访问看不到商品。
### 方法：Selenium模拟浏览器
```python
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.options import Options
import time
# 无头浏览器（不显示界面，节省资源）
chrome_options = Options()
chrome_options.add_argument('--headless')
driver = webdriver.Chrome(options=chrome_options)
driver.get('https://shop.example.com/phones')
time.sleep(3)  # 等待页面完全加载
# 定位商品元素
products = driver.find_elements(By.CLASS_NAME, 'product-card')
for product in products:
    name = product.find_element(By.CLASS_NAME, 'product-name').text
    price = product.find_element(By.CLASS_NAME, 'product-price').text
    print(f'{name}: {price}')
# 翻页：点击“下一页”按钮
next_button = driver.find_element(By.CLASS_NAME, 'next-page')
while next_button:
    next_button.click()
    time.sleep(2)
    # 继续抓取...
driver.quit()

Q：Selenium速度太慢怎么办？
A：可以尝试以下优化：1）使用无头模式；2）设置页面加载超时；3）对已知接口直接模拟API请求（通过浏览器开发者工具Network面板找到真实数据接口），直接请求https://shop.example.com/api/phones?page=1，返回JSON格式数据,解析更快。

注意事项：反爬策略与法律边界

常见反爬策略及应对

反爬技术	应对方案
IP频率限制	使用代理IP池、添加随机延时（`time.sleep(random.uniform(1,3))`）
验证码	接入打码平台（如2captcha）或限制爬取频率
User-Agent检测	随机切换常见浏览器UA
JS加密参数	用Selenium执行完整JS，或逆向分析加密逻辑
动态Token	从请求头或页面中提取Token并动态传递

法律红线

严格遵守robots.txt（如https://example.com/robots.txt中的Disallow路径）
不要对个人隐私数据、支付信息、需登录才能访问的非公开数据进行抓取
控制爬取速率，避免对服务器造成压力（建议每秒1-2次请求）
商业用途需获得数据所有方授权

Q：抓取的数据可以用于训练AI模型吗？
A：需视情况而定，如果数据是公开的（如新闻、百科），且不涉及版权保护或商业机密，通常可以，但若包含用户生成内容（如评论、帖文），则可能涉及隐私或平台服务条款,建议审核数据来源。

常见问题与解答

Q：抓取的数据为什么是乱码？
A：编码不匹配，在requests.get()中设置response.encoding = 'utf-8'，或从response.apparent_encoding自动检测编码，对于英文字符为主的网站，通常为ISO-8859-1。

Q：find与find_all的区别是什么？
A：find只返回第一个匹配元素，find_all返回列表，定位单个标题用find，遍历多个元素用find_all，可使用select('CSS选择器')提高可读性（如soup.select('div.product > h2')）。

Q：如何处理登录后的数据？
A：方法一：使用Selenium手动登录后抓取cookie，或通过webdriver.get_cookies()保存并使用，方法二：分析登录请求的POST参数，用Requests库模拟登录（需注意验证码和CSRF Token）。

Q：爬虫被屏蔽后如何继续？
A：1）增加延时；2）更换IP（付费代理或免费代理池）；3）退出后等待一段时间再抓取；4）检查请求头是否缺失Referer、Accept-Language等字段，高级技巧：使用requests.Session()保持会话。

通过本文的案例与问答，你可以从零开始构建自己的网页数据抓取工具，爬虫的核心在于模拟正常用户行为，并尊重数据来源的规则，如果你对更复杂的项目（如分布式爬虫Scrapy、异步抓取）感兴趣,可以进一步探索Python在数据采集领域的深度应用。