Skip to content

基于selenium包,爬取知网关键字检索的论文信息的Python脚本

Notifications You must be signed in to change notification settings

Dramwig/CNKI-spider

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

13 Commits
 
 
 
 
 
 
 
 

Repository files navigation

CNKI 知网爬虫

这个 Python 脚本利用 Selenium 来爬取 CNKI(中国知网)平台基于关键词搜索的论文信息。该脚本能够浏览搜索界面,提取并保存所找到的论文信息。

特点

  • 根据指定关键词在 CNKI 进行论文搜索。
  • 提取信息包括标题、作者、摘要、出版详情等。
  • 支持多线程以提高检索速度。
  • 将提取的信息保存到指定文件中(在这种情况下是一个 TSV 文件)。
  • 若存在指定文件将最后一行编号开始查询(可以随时关闭程序,下次接着爬取)。
  • 异常处理以确保稳健性。

讲述

详见知乎博客

使用方法

1. 环境设置

确保您已经完成以下步骤:

  • 安装 Python 3.x 版本。
  • 安装 Selenium 库:pip install selenium
  • 下载并配置适当的 WebDriver。代码示例使用了 Edge WebDriver。

2. 代码自定义

使用文本编辑器打开 cnki_crawler.py 文件,并根据需要进行以下操作:

  • 修改 keyword 变量为您感兴趣的关键词,例如 keyword = "青少年抑郁"
  • 可选:根据您的需求修改 papers_need 变量,设置所需获取的论文数量。
  • 可自行修改是否接着指定文件继续查询

3. 运行爬虫

在命令行中执行以下命令来运行爬虫:

python CNKI_spider_paralle.py

脚本将打开一个 Edge 浏览器窗口并开始自动执行搜索并爬取论文信息的操作。请耐心等待脚本执行完毕。

4. 结果查看

爬取的结果将保存在名为 CNKI_关键词.tsv 的 TSV 文件中(例如 CNKI_青少年抑郁.tsv)。您可以使用文本编辑器或Excel打开该文件查看爬取的论文信息。

注意事项

  • 该脚本配置了 Edge WebDriver,但可以根据需要更改 WebDriver 配置以适用于其他浏览器。
  • 确保遵守 CNKI 的服务条款,并避免对其服务器进行过多请求。

贡献

欢迎对该项目进行贡献!如果您想报告问题、提出建议或提交代码,请参考以下步骤:

  1. 在项目的GitHub页面上提出问题或建议。
  2. 如果您有兴趣修复问题或添加新功能,请创建一个分支并提交您的更改。
  3. 向项目的主分支提交拉取请求,我们将会进行审查和讨论。

参考

About

基于selenium包,爬取知网关键字检索的论文信息的Python脚本

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages