检测出实体边界,还检测出命名实体的类型

  1. 领域命名实体识别局限性
    1. 特定于新闻语料中的人名、地名、组织机构名的识别,无法很好地迁移到其他特定领域中,如军事、医疗、生物、小语种语言,如医疗领域中实体包括疾病、症状、药品等
    2. 领域资源匮乏造成标注数据集缺失,导致模型训练很难直接开展
    3. 解决:半监督学习、远监督学习、无监督学习、迁移学习
  2. 命名实体表述多样性和歧义性
    1. 不同的文化、领域、背景下,命名实体的外延有差异
    2. 由于知识表示粒度不同、置信度相异、缺乏规范性约束等问题,出现命名实体表述多样、指代不明确等现象
    3. 解决:实体链接、融合对齐
  3. 命名实体的复杂性和开放性
    1. 传统的实体类型只关注一小部分类型,例如“人名”“地名”“组织机构名”
    2. 命名实体的复杂性体现在实际数据中实体的类型复杂多样,需要识别细粒度的实体类型,将命名实体分配到更具体的实体类型中。(需要命名规范)
    3. 命名实体的开放性是指命名实体内容和类型并非永久不变,会随着时间变化发生各种演变,甚至最终失效

方法

  1. 基于规则和词典的方法
    1. 规则模板或者特殊词典。规则包括关键词、位置词、方位词、中心词、指示词、统计信息、标点符号等。词典是由特征词构成的词典和外部词典共同组成,外部词典指已有的常识词典。制定好规则和词典后,通常使用匹配的方式对文本进行处理以实现命名实体识别。
  2. 传统机器学习的方法
    1. 命名实体识别被当作是序列标注问题。当前的预测标签不仅与当前的输入特征相关,还与之前的预测标签相关。
    2. 隐马尔可夫模型(Hidden Markov Model,HMM)
    3. 最大熵(Maximum Entropy,ME)
    4. 最大熵马尔可夫模型( Maximum Entropy Markov Model,MEMM)
    5. 支持向量机(Support Vector Machine,SVM)
    6. 条件随机场 ( Conditional Random Fields,CRF) 等
  3. 基于深度学习的方法
    1. IOB 标注法:I 表示内部,O 表示外部,B 表示开始。 BIOES 标注法:B 表示这个词处于一个命名实体的开始,I 表示内部,O 表示外部,E 表示这个词处于一个实体的结束,S 表示这个词是单独形成一个命名实体。(更通用)
    2. TextCNN
    3. 双向LSTM
    4. BERT、GPT、XLNet、BERT等+图