命名实体识别

检测出实体边界，还检测出命名实体的类型

领域命名实体识别局限性
1. 特定于新闻语料中的人名、地名、组织机构名的识别，无法很好地迁移到其他特定领域中，如军事、医疗、生物、小语种语言，如医疗领域中实体包括疾病、症状、药品等
2. 领域资源匮乏造成标注数据集缺失，导致模型训练很难直接开展
3. 解决：半监督学习、远监督学习、无监督学习、迁移学习
命名实体表述多样性和歧义性
1. 不同的文化、领域、背景下，命名实体的外延有差异
2. 由于知识表示粒度不同、置信度相异、缺乏规范性约束等问题，出现命名实体表述多样、指代不明确等现象。
3. 解决：实体链接、融合对齐
命名实体的复杂性和开放性
1. 传统的实体类型只关注一小部分类型，例如“人名”“地名”“组织机构名”
2. 命名实体的复杂性体现在实际数据中实体的类型复杂多样，需要识别细粒度的实体类型，将命名实体分配到更具体的实体类型中。（需要命名规范）
3. 命名实体的开放性是指命名实体内容和类型并非永久不变，会随着时间变化发生各种演变，甚至最终失效。

方法

基于规则和词典的方法
1. 规则模板或者特殊词典。规则包括关键词、位置词、方位词、中心词、指示词、统计信息、标点符号等。词典是由特征词构成的词典和外部词典共同组成，外部词典指已有的常识词典。制定好规则和词典后，通常使用匹配的方式对文本进行处理以实现命名实体识别。
传统机器学习的方法
1. 命名实体识别被当作是序列标注问题。当前的预测标签不仅与当前的输入特征相关，还与之前的预测标签相关。
2. 隐马尔可夫模型(Hidden Markov Model，HMM)
3. 最大熵(Maximum Entropy，ME)
4. 最大熵马尔可夫模型( Maximum Entropy Markov Model，MEMM)
5. 支持向量机(Support Vector Machine，SVM)
6. 条件随机场 ( Conditional Ｒandom Fields，CRF) 等
基于深度学习的方法
1. IOB 标注法：I 表示内部，O 表示外部，B 表示开始。 BIOES 标注法：B 表示这个词处于一个命名实体的开始，I 表示内部，O 表示外部，E 表示这个词处于一个实体的结束，S 表示这个词是单独形成一个命名实体。（更通用）
2. TextCNN
3. 双向LSTM
4. BERT、GPT、XLNet、BERT等+图