运用Jupyter Notebook 演示爬虫是如何运作的
- 下载本教程
git clone https://github.com/neo4dev/crawler_from_scratch.git
- 下载并安装Anaconda (包含了Jupyter Notebook以及运行代码所需要的常用库)
- 命令行中启动 Jupyter Notebook
jupyter notebook
- 具备1年代码经验,熟悉python
- 了解HTML,以及网络传输的基础知识
- 以一个全新的心态面对这个学习过程
- 一定能学会,因为我自己也只是个PM
- jupyter notebook 特有的交互式展示方式,很好的还原了爬虫运行的每个环节,一看就懂
- 初级-入门(Requests + BeautifulSoup)
- 00_Getting_Started:最简单的爬虫,以及解析数据,存储成json
- 01_Advanced_Request:访问被拒?加cookie和headers,以及如何自动识别要爬取的内容
- 02_Crawler_Sample:批量爬页面,完整实现bilibili搜索结果的爬取
- 中级-大量数据(Proxy + Redis + Pandas)
- 11_Proxy_Request:批量爬取免费代理,自动切换健康的代理
- 12_Database:数据库 Redis,支持高性能数据读写
- 13_Data_Analysis数据分析 pandas
- 高级-海量数据
- Scrapy:探索式爬取,断点续爬
- MongoDB:分布式存储
- Vaex:海量数据分析(一个开源的 DataFrame 库)
- 云端爬虫:服务器部署
- APP爬虫:seleium模拟登陆,获取cookie
- nbdev:fastai开源的探索式编程IDE
- 官方完整的一步一步教程
- 用模板创建一个github项目
- 修改setting.ini 所有配置都在这里
- nbdev_build_lib 生成.py的文件 其他命令
- nbdev_build_docs 生成文档所需文件