Skip to content

Commit

Permalink
Update UIE.md
Browse files Browse the repository at this point in the history
  • Loading branch information
chenxiaozeng authored Aug 8, 2022
1 parent 0158944 commit e3ab9ec
Showing 1 changed file with 11 additions and 4 deletions.
15 changes: 11 additions & 4 deletions UIE.md
Original file line number Diff line number Diff line change
Expand Up @@ -27,19 +27,26 @@

## 1. 模型简介

[UIE(Universal Information Extraction)](https://arxiv.org/pdf/2203.12277.pdf):Yaojie Lu等人在ACL-2022中提出了通用信息抽取统一框架UIE。该框架实现了实体抽取、关系抽取、事件抽取、情感分析等任务的统一建模,并使得不同任务间具备良好的迁移和泛化能力。为了方便大家使用UIE的强大能力,PaddleNLP借鉴该论文的方法,基于ERNIE 3.0知识增强预训练模型,训练并开源了首个中文通用信息抽取模型UIE。该模型可以支持不限定行业领域和抽取目标的关键信息抽取,实现零样本快速冷启动,并具备优秀的小样本微调能力,快速适配特定的抽取目标。
[UIE(Universal Information Extraction,通用信息抽取) ](https://arxiv.org/pdf/2203.12277.pdf)是由中科院软件所和百度共同提出的大一统诸多任务的通用信息抽取技术,信息抽取指的是从自然语言文本中抽取指定类型的实体、关系、事件等事实信息,并形成结构化数据输出的文本处理技术。产业级信息抽取面临着多种挑战:
- 开放域信息抽取方案不成熟:常见的基于序列标注的信息抽取方案仅可用于封闭域信息抽取;
- 数据获取和标注成本高:部分领域数据稀缺,难以获取,且领域专业性使得数据标注门槛高;
- 任务多样:针对实体、关系、事件等不同的信息抽取任务,需要开发不同的模型,开发成本和机器资源消耗都很大。

UIE 创新性得将实体抽取、关系抽取、事件抽取、情感分析等任务统一建模,使得模型在不同任务间具备良好的迁移和泛化能力,在实体、关系、事件和情感等4个信息抽取任务、13个数据集的全监督、低资源和少样本设置下,UIE均取得了SOTA性能,这项成果发表在ACL 2022[1]。PaddleNLP借鉴该论文的方法,基于 ERNIE 3.0 知识增强预训练模型,训练并开源了首个中文通用信息抽取模型UIE。该模型可以支持不限定行业领域和抽取目标的关键信息抽取,实现零样本快速冷启动,并具备优秀的小样本微调能力,快速适配特定的抽取目标。

<div align="center">
<img src=https://user-images.githubusercontent.com/40840292/167236006-66ed845d-21b8-4647-908b-e1c6e7613eb1.png height=400 hspace='10'/>
</div>

#### UIE的优势

- **使用简单**用户可以使用自然语言自定义抽取目标,无需训练即可统一抽取输入文本中的对应信息。**实现开箱即用,并满足各类信息抽取需求**

- **小样本能力强**开放域信息抽取在多种场景,多种任务上,均有不俗的表现
- **开放域信息抽取**:基于Prompt,适用于开放域。
- **降本增效**:以往的信息抽取技术需要大量标注数据才能保证信息抽取的效果,为了提高开发过程中的开发效率,减少不必要的重复工作时间,开放域信息抽取可以实现零样本(zero-shot)或者少样本(few-shot)抽取,**大幅度降低标注数据依赖,在降低成本的同时,还提升了效果**

- **效果领先**:开放域信息抽取在多种场景,多种任务上,均有不俗的表现。


- **使用简单**:用户可以使用自然语言自定义抽取目标,无需训练即可统一抽取输入文本中的对应信息。**实现开箱即用,并满足各类信息抽取需求**

<a name="应用示例"></a>

Expand Down

0 comments on commit e3ab9ec

Please sign in to comment.