检测出实体边界,还检测出命名实体的类型
- 领域命名实体识别局限性
- 特定于新闻语料中的人名、地名、组织机构名的识别,无法很好地迁移到其他特定领域中,如军事、医疗、生物、小语种语言,如医疗领域中实体包括疾病、症状、药品等
- 领域资源匮乏造成标注数据集缺失,导致模型训练很难直接开展
- 解决:半监督学习、远监督学习、无监督学习、迁移学习
- 命名实体表述多样性和歧义性
- 不同的文化、领域、背景下,命名实体的外延有差异
- 由于知识表示粒度不同、置信度相异、缺乏规范性约束等问题,出现命名实体表述多样、指代不明确等现象。
- 解决:实体链接、融合对齐
- 命名实体的复杂性和开放性
- 传统的实体类型只关注一小部分类型,例如“人名”“地名”“组织机构名”
- 命名实体的复杂性体现在实际数据中实体的类型复杂多样,需要识别细粒度的实体类型,将命名实体分配到更具体的实体类型中。(需要命名规范)
- 命名实体的开放性是指命名实体内容和类型并非永久不变,会随着时间变化发生各种演变,甚至最终失效。
方法
- 基于规则和词典的方法
- 规则模板或者特殊词典。规则包括关键词、位置词、方位词、中心词、指示词、统计信息、标点符号等。词典是由特征词构成的词典和外部词典共同组成,外部词典指已有的常识词典。制定好规则和词典后,通常使用匹配的方式对文本进行处理以实现命名实体识别。
- 传统机器学习的方法
- 命名实体识别被当作是序列标注问题。当前的预测标签不仅与当前的输入特征相关,还与之前的预测标签相关。
- 隐马尔可夫模型(Hidden Markov Model,HMM)
- 最大熵(Maximum Entropy,ME)
- 最大熵马尔可夫模型( Maximum Entropy Markov Model,MEMM)
- 支持向量机(Support Vector Machine,SVM)
- 条件随机场 ( Conditional Random Fields,CRF) 等
- 基于深度学习的方法
- IOB 标注法:I 表示内部,O 表示外部,B 表示开始。
BIOES 标注法:B 表示这个词处于一个命名实体的开始,I 表示内部,O 表示外部,E 表示这个词处于一个实体的结束,S 表示这个词是单独形成一个命名实体。(更通用)
- TextCNN
- 双向LSTM
- BERT、GPT、XLNet、BERT等+图