CNKI 知网爬虫

这个 Python 脚本利用 Selenium 来爬取 CNKI（中国知网）平台基于关键词搜索的论文信息。该脚本能够浏览搜索界面，提取并保存所找到的论文信息。

特点

根据指定关键词在 CNKI 进行论文搜索。
提取信息包括标题、作者、摘要、出版详情等。
支持多线程以提高检索速度。
将提取的信息保存到指定文件中（在这种情况下是一个 TSV 文件）。
若存在指定文件将最后一行编号开始查询（可以随时关闭程序，下次接着爬取）。
异常处理以确保稳健性。

讲述

详见知乎或博客。

使用方法

1. 环境设置

确保您已经完成以下步骤：

安装 Python 3.x 版本。
安装 Selenium 库：pip install selenium
下载并配置适当的 WebDriver。代码示例使用了 Edge WebDriver。
- 下载 Edge WebDriver：Microsoft Edge WebDriver
- 双击 WebDriver.exe 完成安装

2. 代码自定义

使用文本编辑器打开 cnki_crawler.py 文件，并根据需要进行以下操作：

修改 keyword 变量为您感兴趣的关键词，例如 keyword = "青少年抑郁"。
可选：根据您的需求修改 papers_need 变量，设置所需获取的论文数量。
可自行修改是否接着指定文件继续查询

3. 运行爬虫

在命令行中执行以下命令来运行爬虫：

python CNKI_spider_paralle.py

脚本将打开一个 Edge 浏览器窗口并开始自动执行搜索并爬取论文信息的操作。请耐心等待脚本执行完毕。

4. 结果查看

爬取的结果将保存在名为 CNKI_关键词.tsv 的 TSV 文件中（例如 CNKI_青少年抑郁.tsv）。您可以使用文本编辑器或Excel打开该文件查看爬取的论文信息。

注意事项

该脚本配置了 Edge WebDriver，但可以根据需要更改 WebDriver 配置以适用于其他浏览器。
确保遵守 CNKI 的服务条款，并避免对其服务器进行过多请求。

贡献

欢迎对该项目进行贡献！如果您想报告问题、提出建议或提交代码，请参考以下步骤：

在项目的GitHub页面上提出问题或建议。
如果您有兴趣修复问题或添加新功能，请创建一个分支并提交您的更改。
向项目的主分支提交拉取请求，我们将会进行审查和讨论。

参考

Python爬虫实战(5) | 爬取知网文献信息（已优化代码） https://zhuanlan.zhihu.com/p/599579339
知网爬虫--根据【关键词】获取文献信息 https://zhuanlan.zhihu.com/p/663793038

Name		Name	Last commit message	Last commit date
Latest commit History 13 Commits
data		data
CNKI_spider_paralle.py		CNKI_spider_paralle.py
CNKI_青少年抑郁.tsv		CNKI_青少年抑郁.tsv
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

CNKI 知网爬虫

特点

讲述

使用方法

1. 环境设置

2. 代码自定义

3. 运行爬虫

4. 结果查看

注意事项

贡献

参考

About

Releases

Packages

Languages

Dramwig/CNKI-spider

Folders and files

Latest commit

History

Repository files navigation

CNKI 知网爬虫

特点

讲述

使用方法

1. 环境设置

2. 代码自定义

3. 运行爬虫

4. 结果查看

注意事项

贡献

参考

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages