Project Overview
项目简介
基于 Scrapy + Redis 的分布式爬虫框架,支持断点续爬、自动去重、数据清洗、多格式导出等功能。内置反爬策略和代理池。
Feature Modules
功能列表
1
分布式爬取
基于Redis实现分布式调度,支持多机部署
2
智能去重
Bloom Filter + Redis 双重去重,亿级URL去重
3
代理池管理
自动代理切换、代理可用性检测、失败重试
4
数据导出
支持 JSON、CSV、Excel、MySQL、MongoDB 导出
5
可视化监控
爬取进度实时查看、数据统计图表、异常告警
User Roles
系统角色
系统管理员
配置爬虫规则、管理代理池、监控系统状态
数据分析师
查看爬取数据、导出数据报表、分析数据趋势