Skip to content

EasyD0/spider_ieee

Repository files navigation

这是2023年写的一个爬虫, 用于爬取ieee上的数据, 主要利用 selenium 来爬取. 目前实现的功能:

  • 根据提供的 链接或文献名或关键词 查找相关信息, 如ris引用, 爬取pdf(在scihub上), 查找与它相似的文献(利用文献末尾的关键词进行查找并晒选).
    • 查找给定文献的相似文献时, 利用摘要文本并生成 tfidf 比较来判断相似度
  • 将查找的文献的信息汇总到一个Excel表格中, 包含标题名, 期刊名, 摘要和摘要翻译等

最近整理了一下, 可能存在一些问题

  • 移动了一些文件, 可能导致找不到依赖. 比如./test文件夹中的文件可能依赖 ./目录下的py文件.
  • python版本和库的更新导致有些代码失效. python的很多第三方库一更新, 接口就变了, 这也是很坑的.
    • 并不是说更新不好, 但是更新有点快了, 我做这个东西时间跨度不到3个星期, 就因为两次更新出问题. 所以放弃使用python了

各种库的版本: 待整理 python版本: 待整理

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published