以web server形式实现对百度文库文档以pdf形式原格式下载 如果觉得可以的话,可以点个🌟哦 (当前爬取方式可能已经不支持,仅提供flask开发参考)
首先,这是根据 https://github.com/M010K/BaiduWenkuSpider 的项目进行一点修改得到的基于flask框架的python web项目, 可以对百度文库的文档转换为pdf格式进行下载
$ git clone https://github.com/ChangeWeDer/BaiduWenkuSpider_flaskWeb
项目使用的依赖有
- requests
- chardet
- bs4
- Pillow
- pdfkit
- flask
- imgkit
- img2pdf
cd到项目文件夹中使用命令,直接一键安装 pip install -r requirements.txt
下载后按当前系统 配置环境变量即可
Centos:
https://blog.csdn.net/LookingTomorrow/article/details/93513457
四、直接运行GetAll.py文件,访问http://127.0.0.1:5000/post 即可(运行在服务器端则访问IP:5000/post)
ps:ppt格式的文档不支持预览
https://github.com/ChangeWeDer/BaiduWenkuSpider_flaskWeb