tusik / img-crawler Public

Notifications You must be signed in to change notification settings
Fork 0
Star 2

download image automatically by using python3

2 stars 0 forks Branches Tags Activity

Notifications

Name		Name	Last commit message	Last commit date
Latest commit History 17 Commits
.gitattributes		.gitattributes
README.md		README.md
getimage.py		getimage.py
jsonv.py		jsonv.py
thread-crawler.py		thread-crawler.py

Repository files navigation

IMAGE CRAWLER

python3

仅为本人的python学习成果

目标测试站点konachan

thread-crawler.py 为多线程版本爬虫

getimage.py为单线程爬虫

请根据自己的需要选择

README-&-thread-crawler.py

爬取日志输出于同目录out文件
默认爬到的文件下载于img文件夹
可修改线程数，默认2个线程（过多的线程将会带来负担）
默认限制单次运行最大爬取4Gb图片，如需更多请修改上限
需要设置开始id和结束id
设置完成首次运行将会生成list文件，删除和改动
当程序成功运行的时候将会输出

线程名:图片id:图片名如果没有显示或者显示错误请检查自身网络

README-&-getimage.py

爬取日志输出于同目录out文件
当前count数可cat count查看
爬到的文件下载于img文件夹
默认限制单次运行最大爬取4Gb图片，如需更多请修改上限
当程序成功运行的时候将会输出

图片id:图片名如果没有显示或者显示错误请检查自身网络

默认屏蔽某些关键词(我只想做个好人)
默认排除分辨率小于1300*768的图片

README-&-jsonv.py

解析json版本爬虫，可降低服务器和本地的负载
可减少约一半的流量

About

download image automatically by using python3

Report repository

Releases

No releases published

Packages

No packages published

Languages

Python 100.0%