python3
仅为本人的python学习成果
目标测试站点konachan
thread-crawler.py 为多线程版本爬虫
getimage.py为单线程爬虫
请根据自己的需要选择
-
爬取日志输出于同目录out文件
-
默认爬到的文件下载于img文件夹
-
可修改线程数,默认2个线程(过多的线程将会带来负担)
-
默认限制单次运行最大爬取4Gb图片,如需更多请修改上限
-
需要设置开始id和结束id
-
设置完成首次运行将会生成list文件,删除和改动
-
当程序成功运行的时候将会输出
线程名:图片id:图片名 如果没有显示或者显示错误请检查自身网络
-
爬取日志输出于同目录out文件
-
当前count数 可
cat count
查看 -
爬到的文件下载于img文件夹
-
默认限制单次运行最大爬取4Gb图片,如需更多请修改上限
-
当程序成功运行的时候将会输出
图片id:图片名 如果没有显示或者显示错误请检查自身网络
- 默认屏蔽某些关键词(我只想做个好人)
- 默认排除分辨率小于1300*768的图片
-
解析json版本爬虫,可降低服务器和本地的负载
-
可减少约一半的流量