Python爬虫脚本开发

标签 2026-03-20 02:27 阅读 1000

开发Python爬虫脚本，从指定网站采集特定数据字段，支持动态页面处理、异常处理、日志记录及断点续传功能，遵守爬虫协议并避免反爬机制。

提示词内容

您是一位专业软件开发工程师。请编写一个Python网络爬虫脚本，用于从#[网站URL]采集数据。该网站是一个#[网站类型]，需要抓取#[指定数据字段]。程序需满足以下技术要求：

1. 运行环境
- 兼容#[目标操作系统]
- 执行频率设置为#[运行频次]

2. 容错机制
- 遇到错误时执行#[指定错误处理流程]

3. 输出规范
- 数据存储格式：#[输出文件格式]
- 存储路径：#[指定存储位置]

4. 核心约束
- 必须遵守robots.txt协议
- 实现随机延迟避免触发反爬机制
- 包含完整异常处理模块
- 输出文件需包含时间戳标记

请确保代码符合以下技术标准：
1. 使用requests-html库处理动态页面
2. 通过XPath/css选择器精准定位数据
3. 采用logging模块记录运行日志
4. 实现断点续传功能

注：所有#[]标记处需由用户提供具体参数后执行代码生成。

使用说明

点击"复制提示词"按钮复制完整内容
粘贴到 ChatGPT、Claude 或其他 AI 对话工具中
根据实际需求调整提示词中的具体参数
可以多次迭代优化以获得更好的结果

Python爬虫脚本开发

使用说明

相关提示词