【使用bert预训练过的中文模型:最短教程】

【使用自带数据集】

1.下载模型和数据集合：https://github.com/google-research/bert

2. 使用命令run_classifier.py,带上参数

【如何使用自定义数据集?】

1.在run_classifier.py中添加一个Processor，告诉processor怎么取输入和标签；并加该processor到main中的processors

2.将自己的数据集放入到特定目录。每行是一个数据，包括输入和标签，中间用"\t"隔开。

3.运行命令run_classifier.py,带上参数

【session-feed方式使用bert模型;使用bert做在线预测】

使用bert做在线预测-简明例子

【目前支持的任务类型】

1.文本分类(二分类或多分类)；

2.句子对分类Sentence Pair Classificaiton(输入两个句子，输出一个标签)

3.文本分类(多类别,multi-label classification)

使用bert做多类别任务（e.g.AI challenger情感分析任务），详见run_classifier_multi_labels_bert.py

【在bert中文模型基础上，做预训练，再调优fine-tuning】

1. 生成预训练需要的文件： 每行为一个句子；每个文档中间用空行隔开
2. 生成tf.record格式的预训练语料：
   create_pretraining_data.py
3. 使用已经生成的数据做预训练,可以指定初始的checkpoint:
   run_pretraining.py
4. 调优fine-tuning
   run_classifier.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README_bert_chinese_tutorial.md

README_bert_chinese_tutorial.md

Files

README_bert_chinese_tutorial.md

Latest commit

History

README_bert_chinese_tutorial.md

File metadata and controls