Skip to content

onewhitethreee/zhihu_tools

Repository files navigation

zhihu_tools


知乎严选文章爬虫。

从根本上爬取严选文章。自从去年开始,知乎就改变了网页的规则,这也就导致了出现很多错误,包括但不限于字体错乱...

以前,知乎严选的文章还可在网页上直接观看,但是从2022/23开始,知乎改变了规则,严选文章必须要在手机APP上查看,真不知道他们怎么想的。这种反爬虫措施也想的出来,不过这确实隔绝了很多爬虫小白。有盾就有矛,虽然麻烦了一点但也没有彻底隔绝。


2024-04-20 代码重构

目录树 🤷‍♂️

├─answerSpider
│  └─__pycache__
├─config
│  └─__pycache__
├─ddddocr
│  └─__pycache__
├─fakeUserAgent
│  └─__pycache__
├─fontPreview
│  └─__pycache__
├─main
│  └─__pycache__
└─marketSpider
    └─__pycache__

开发计划 😘

  • fake请求头随机获取 👌
  • 解决字体错乱 👌
  • 单一question链接爬取
  • 单一market链接爬取 👌
  • 整合一本书爬取
  • 图形页面开发
  • 搜索关键词爬取

如何使用? 😶‍🌫️

- python3环境
- 正常的脑子 🧠
- 至少小学的语文水平 📚

下载此项目文件到本地

1. 打开cmd
2. cd到项目文件目录
3. 在config.ini文件中填写你的cookie
4. python main/spider.py

选项1

  1. 选项1用来爬取知乎带有question的严选文章,这在以前倒是没有什么困难获取到链接,但是现在知乎改变了规则,从Appe复制的链接是不带有question关键词的,而是带有soia关键词的,也就是另外一个App的内容了。不过方法总比困难多,你可以抓包获取带有question的链接。目前选项1闲置中。

选项2

  1. 选项2用来爬取知乎带有market的文章内容。链接也还是通过抓包获取到的。这个选项是可以使用的。
  2. 链接示例:https://www.zhihu.com/market/paid_column/1702723501155422208/section/1788920608135983104

选项3

  1. 一本完整的严选书籍爬取。什么时候想做了再做吧。

选项4

  1. 这个选项是用来爬取带有关键词的严选文章,通常在网页端打开链接,看到最后会要求在App中查看并且给出了一个关键词让你去搜索,这个选项是用来解决这个问题的。什么时候想做了再做吧。

报错?🤡

1. module not found
  • pip install

1. 无法爬取?🤡🤡

  • 这是一个盐选文件获取的项目。不是无中生有破解知乎

  • 首先要有的就是一个盐选账号。

    • 需要获取到账号的cookie复制到config.ini文件。然后运行main文件中的spider.py即可
  • 知乎提示需升级版本

    • User-Agent 不是手机或者是无用的User-Agent
    • 如何获取一个User-Agent?
      1. 手机抓包。打开知乎然后随意一条请求复制其中的内容到config.ini文件中含有User-Agent的值后
      2. 运气。项目提供上百个User-Agent。如果一次运行失败建议再运行一次
  1. 未知错误

这个项目有什么用?🤷‍♂️

  • 获取盐选文章到本地观看. 除此之外没有任何用

所看皆可爬

About

知乎盐选会员文章下载 zhihu vip

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages