分布式爬虫系统

分工

蓝灿荣：爬虫，爬虫性能优化
龚子荣：分布式，任务分配
李泽轩：数据处理，提取有效信息

技术

python bottle web框架
scrapy && scrapy-redis: 分布式爬虫框架
mysql

部署

根据部署的文档安装多台ubuntu16.04 server lts，用docs/install文件夹下的shell脚本进行自动化安装。不同用途的server要执行不同的shell文件。slave可以有多台。

请看config/README.md完成分布式配置。

将example文件夹下面的settings.py里的redis host和port修改成现有的环境依赖。

启动

database server:

必须修改master下路径为/web/python/distributedCrawling/process_items.py文件对应的数据库配置
```
service mysql start         # 启动mysql
redis-server                # 启动redis server
```
slave1,slave2 ... slaveN:

必须修改各slave下路径为/web/python/distributedCrawling/config/conf.ini文件对应的配置
```
cd /web/python/distributedCrawling/example
scrapy crawl mycrawler_redis    # myscrawler_redis改成要启动的爬虫
```

master

必须修改master下路径为/web/python/distributedCrawling/config/conf.ini文件对应的配置

cd /web/python/web
python index.py                 # 启动web应用
cd /web/python/distributedCrawling/example
scrapy crawl mycrawler_redis    # myscrawler_redis改成要启动的爬虫

打开web应用(localhost修改为master的ip或者域名)，输入要爬取的url并提交。

License

MIT

Name		Name	Last commit message	Last commit date
Latest commit History 32 Commits
config		config
docs		docs
example		example
web		web
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
README.rst		README.rst
info.sql		info.sql
process_items.py		process_items.py
requirements.txt		requirements.txt
scrapy.cfg		scrapy.cfg
演示.mp4		演示.mp4
软件设计说明书.docx		软件设计说明书.docx

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

分布式爬虫系统

分工

技术

目录

部署

启动

License

About

Releases

Packages

Contributors 3

Languages

License

Chanran/distributedCrawling

Folders and files

Latest commit

History

Repository files navigation

分布式爬虫系统

分工

技术

目录

部署

启动

License

About

Topics

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Contributors 3

Languages

Packages