JobRequirementCrawler

简介

JobRequirementCrawler 是一个基于 Python 的简单 web 应用项目，可以根据用户输入的职位名词，爬取并分析该职位的任职要求信息，并以可个性化的词云形式展示。

功能

用户输入职位，爬取该职位相关链接，并保存至本地
根据链接文件爬取每一个对应网页中的“任职要求”，并保存至本地
数据清洗，提取关键词，并生成词云图

代码结构

该项目包含以下主要文件：

spider_urls.py：负责爬取职位相关链接
spider_req.py：负责爬取职位信息
wash_data：负责清洗数据
get_keywords.py：负责提取关键词并生成词云
main.py：负责创建 Streamlit 应用
data/：存放爬取到的职位信息及生成的词云图

引入的包

os
sys
selenium
beautifulsoup4
jieba
sklearn.feature_extraction.text
imageio
wordcloud
matplotlib.pyplot
streamlit

使用方法

确保已安装所有上述依赖包。
main.py 文件，运行 streamlit run main.py 启动应用
在 Streamlit 应用中输入职位，点击 "生成词云" 按钮，等待1h左右时间（或者更长）爬虫，爬虫完毕即可看到生成的词云图。

其他说明

请确保在使用该应用时，已遵守相关法律法规，不爬取和使用非法信息。
该项目仅用于学习和研究目的，不应用于任何商业用途。

Name		Name	Last commit message	Last commit date
Latest commit History 23 Commits
.devcontainer		.devcontainer
.vscode		.vscode
__pycache__		__pycache__
data		data
LICENSE		LICENSE
README.md		README.md
get_keywords.py		get_keywords.py
main.py		main.py
packages.txt		packages.txt
requirements.txt		requirements.txt
spider_req.py		spider_req.py
spider_urls.py		spider_urls.py
wash_data.py		wash_data.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

JobRequirementCrawler

简介

功能

代码结构

引入的包

使用方法

其他说明

About

Releases

Packages

Languages

License

myg321/JobRequirementCrawler

Folders and files

Latest commit

History

Repository files navigation

JobRequirementCrawler

简介

功能

代码结构

引入的包

使用方法

其他说明

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages