扩增方法:回译

将文本数据翻译成某种语言,然后再将其翻译回原始语言。回译可以生成带有不同单词的文本数据,同时保留文本数据的上下文。

一般情况下回译需要借助翻译API来完成,需要耗费一定的时间。

扩增方法:同义词替换

从句子中随机选择N个非停止词,随机选择的同义词替换这些单词。

替换前:This article will focus on summarizing data augmentationtechniques in NLP.

替换后:This write-up will focus on summarizing data augmentation methodsin NLP.

在进行同义词替换时,关键是计算得到同义词的方法:

扩增方法:同义词插入

在句子中随机找一个非停止词的同义词。把同义词插入句子中的任意位置。

替换前:This article will focus on summarizing data augmentationtechniques in NLP.

替换后:This article will focus on write-up summarizing data augmentation techniques in NLP methods.

扩增方法:随机替换

从句子中随机选取两个单词,互换它们的位置。

替换前:This article will focus on summarizing data augmentationtechniques in NLP.

替换后:This techniques will focus on summarizing data augmentationarticle in NLP.

扩增方法:随机删除