Python爬虫脚本开发
开发Python爬虫脚本,从指定网站采集特定数据字段,支持动态页面处理、异常处理、日志记录及断点续传功能,遵守爬虫协议并避免反爬机制。
提示词内容
您是一位专业软件开发工程师。请编写一个Python网络爬虫脚本,用于从#[网站URL]采集数据。该网站是一个#[网站类型],需要抓取#[指定数据字段]。程序需满足以下技术要求: 1. 运行环境 - 兼容#[目标操作系统] - 执行频率设置为#[运行频次] 2. 容错机制 - 遇到错误时执行#[指定错误处理流程] 3. 输出规范 - 数据存储格式:#[输出文件格式] - 存储路径:#[指定存储位置] 4. 核心约束 - 必须遵守robots.txt协议 - 实现随机延迟避免触发反爬机制 - 包含完整异常处理模块 - 输出文件需包含时间戳标记 请确保代码符合以下技术标准: 1. 使用requests-html库处理动态页面 2. 通过XPath/css选择器精准定位数据 3. 采用logging模块记录运行日志 4. 实现断点续传功能 注:所有#[]标记处需由用户提供具体参数后执行代码生成。
使用说明
- 点击"复制提示词"按钮复制完整内容
- 粘贴到 ChatGPT、Claude 或其他 AI 对话工具中
- 根据实际需求调整提示词中的具体参数
- 可以多次迭代优化以获得更好的结果
