Skip to content

用Jupyter Notebook演示如何从零搭建爬虫python教程,持续更新中……

License

Notifications You must be signed in to change notification settings

neo4dev/crawler_from_scratch

Repository files navigation

从零学习爬虫 Crawler from scratch

运用Jupyter Notebook 演示爬虫是如何运作的

如何使用

  1. 下载本教程 git clone https://github.com/neo4dev/crawler_from_scratch.git
  • 下载并安装Anaconda (包含了Jupyter Notebook以及运行代码所需要的常用库)
  • 命令行中启动 Jupyter Notebook jupyter notebook

学习准备

  1. 具备1年代码经验,熟悉python
  • 了解HTML,以及网络传输的基础知识
  • 以一个全新的心态面对这个学习过程
    • 一定能学会,因为我自己也只是个PM
    • jupyter notebook 特有的交互式展示方式,很好的还原了爬虫运行的每个环节,一看就懂

学习大纲:

  1. 初级-入门(Requests + BeautifulSoup)
  • 中级-大量数据(Proxy + Redis + Pandas)
  • 高级-海量数据
    • Scrapy:探索式爬取,断点续爬
    • MongoDB:分布式存储
    • Vaex:海量数据分析(一个开源的 DataFrame 库)
    • 云端爬虫:服务器部署
    • APP爬虫:seleium模拟登陆,获取cookie

学习资料:

  1. nbdev:fastai开源的探索式编程IDE
  • Anaconda 打包了用Python进行数据分析需要的一切环境
  • Jupyter Notebook 基于Web的交互式计算环境
    • Enter/双击: 进入编辑模式
    • Esc: 退出编辑模式
    • 命令行/非编辑模式
      • D,D: 删除选中单元格
      • A/B: 上方/下方插入新代码块
      • H: 显示快捷键
      • O: 选择单元格的输出
    • 编辑模式
      • ⇧↩: 运行代码块, 并选择下面的代码块
      • ⇧M: 合并选中单元格
  • markdown一种轻量级标记语言,可以便捷的为这里的文字添加样式

其他教程

About

用Jupyter Notebook演示如何从零搭建爬虫python教程,持续更新中……

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages