将文本数据翻译成某种语言,然后再将其翻译回原始语言。回译可以生成带有不同单词的文本数据,同时保留文本数据的上下文。
一般情况下回译需要借助翻译API来完成,需要耗费一定的时间。
从句子中随机选择N个非停止词,随机选择的同义词替换这些单词。
替换前:This article
will focus on summarizing data augmentationtechniques
in NLP.
替换后:This write-up
will focus on summarizing data augmentation methods
in NLP.
在进行同义词替换时,关键是计算得到同义词的方法:
在句子中随机找一个非停止词的同义词。把同义词插入句子中的任意位置。
替换前:This article
will focus on summarizing data augmentationtechniques
in NLP.
替换后:This article
will focus on write-up
summarizing data augmentation techniques in NLP methods.
从句子中随机选取两个单词,互换它们的位置。
替换前:This article
will focus on summarizing data augmentationtechniques
in NLP.
替换后:This techniques
will focus on summarizing data augmentationarticle
in NLP.