tumblr_video_crawler

一个专门爬取tumblr视频的爬虫

工作原理

这个爬虫工作分两步：

crawl_video_url.py user_list.xt

其中user_list.txt代表需要爬取的用户名列表，一行一个用户。爬取到的内容会保存到OutPutDir.url_save_dir指定的目录

download_video.py process_num

其中process_num是一个数字，代表下载时的并发数，并不是越大越好需要结合自己的带宽情况。下载的视频会保存到OutPutDir.video_save_dir指定的目录

crawl_video_url.py user_list.xt && download_video.py process_num

当你收集好用户名列表后，执行这句命令，并设置电脑不待机，一天大概能下好几十G的资源，哥只能帮你们到这儿了~

    export http_proxy=domain:port
    export https_proxy=domain:port

class OutPutDir:
    url_save_dir = './video_url_list/'
    video_save_dir = './video_list'

class CrawlerConf:
    max_page_num = 50
    max_exception_num = 10

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
README.md		README.md
common_object.py		common_object.py
crawl_video_url.py		crawl_video_url.py
crawler_conf.py		crawler_conf.py
download_video.py		download_video.py
user_list.txt		user_list.txt