Skip to content

ChangeWeDer/BaiduWenkuSpider_flaskWeb

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

16 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

BaiduWenkuSpider_flaskWeb

以web server形式实现对百度文库文档以pdf形式原格式下载 如果觉得可以的话,可以点个🌟哦 (当前爬取方式可能已经不支持,仅提供flask开发参考

前言

首先,这是根据 https://github.com/M010K/BaiduWenkuSpider 的项目进行一点修改得到的基于flask框架的python web项目, 可以对百度文库的文档转换为pdf格式进行下载

博客地址

如何使用?

一、下载项目zip包,或者直接用git获取

$ git clone https://github.com/ChangeWeDer/BaiduWenkuSpider_flaskWeb

二、安装依赖

项目使用的依赖有

  1. requests
  2. chardet
  3. bs4
  4. Pillow
  5. pdfkit
  6. flask
  7. imgkit
  8. img2pdf

cd到项目文件夹中使用命令,直接一键安装 pip install -r requirements.txt

三、安装wkhtmltopdf工具

官网下载地址

下载后按当前系统 配置环境变量即可

window: 在这里插入图片描述

Centos:

https://blog.csdn.net/LookingTomorrow/article/details/93513457

四、直接运行GetAll.py文件,访问http://127.0.0.1:5000/post 即可(运行在服务器端则访问IP:5000/post)

在这里插入图片描述

ps:ppt格式的文档不支持预览

五、Github源码下载地址

https://github.com/ChangeWeDer/BaiduWenkuSpider_flaskWeb

About

基于Flask框架 爬取百度文库的python web 项目

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 3

  •  
  •  
  •