Python 分布式爬虫系统

Project Overview

项目简介

基于 Scrapy + Redis 的分布式爬虫框架,支持断点续爬、自动去重、数据清洗、多格式导出等功能。内置反爬策略和代理池。

Feature Modules

功能列表

1

分布式爬取

基于Redis实现分布式调度,支持多机部署

2

智能去重

Bloom Filter + Redis 双重去重,亿级URL去重

3

代理池管理

自动代理切换、代理可用性检测、失败重试

4

数据导出

支持 JSON、CSV、Excel、MySQL、MongoDB 导出

5

可视化监控

爬取进度实时查看、数据统计图表、异常告警

User Roles

系统角色

系统管理员

配置爬虫规则、管理代理池、监控系统状态

数据分析师

查看爬取数据、导出数据报表、分析数据趋势