在search_spider
文件夹下,运行search_start.py
文件,需要提前获取登录微博搜索的cookie,以及手动输入关键词。
在comment_spider
文件夹下,运行comment_start.py
文件,需要提前获取登录微博的cookie,以及手动输入关键词。
在emotion_analysis
文件夹下,运行bert_bilstm.py
文件,修改关键词predict_main('全球性别不平等报告')
可以直接进行预测,训练模型则需要将注释取消:
file = './data/usual_train.txt'
train_main(model_config, file)
根据微博热搜词条爬取相关微博下的评论文本数据,将评论送入基于BERT训练的情感倾向分类模型。
BERT模型是一个多层双向的Transformer编码器,实现方式主要分为预训练和微调两个步骤。BERT模型参数先用预训练参数进行初始化,再利用“文本-情感标注”数据进行模型微调。 本项目实现情感的细粒度分类。
数据集来源:SMP2020
本次实验的训练数据存放在emotion_analysis/data/usual_train.txt
中。
代码参考:Weibo_Spider