Validation 验证和清除文本数据

Validation 验证和清除文本数据,validation,text,nlp,data-cleaning,bigdata,Validation,Text,Nlp,Data Cleaning,Bigdata,考虑到您既不能验证数值也不能读取每个条目,我想知道如何验证您提取和清理的文本数据 我的具体案例是处理从.mbox文件中提取的电子邮件文本数据。所以有各种不同类型的格式,比如签名等等,我想分析的文本本质上是正文的一部分。假设我找到了一种提取我想要的数据的方法,那么我该如何验证我将要处理的数据是否是我特别想要的?构建一个测试框架,该框架可以从示例消息中提取数据,并将结果与所需结果进行比较 将随机选择的消息以及所需的输出添加到测试框架中。根据需要优化提取/清理代码,直到通过此测试 然后添加另一条随机选

考虑到您既不能验证数值也不能读取每个条目,我想知道如何验证您提取和清理的文本数据


我的具体案例是处理从.mbox文件中提取的电子邮件文本数据。所以有各种不同类型的格式,比如签名等等,我想分析的文本本质上是正文的一部分。假设我找到了一种提取我想要的数据的方法,那么我该如何验证我将要处理的数据是否是我特别想要的?

构建一个测试框架,该框架可以从示例消息中提取数据,并将结果与所需结果进行比较

将随机选择的消息以及所需的输出添加到测试框架中。根据需要优化提取/清理代码,直到通过此测试

然后添加另一条随机选择的消息,并继续优化提取代码,直到所有测试都通过

重复此操作,直到测试框架中的消息表示数据集的足够大的子集,这样您就可以很有信心地处理了所有可能的情况

如果您发现了一条不正确的消息,您可以将其添加到您的测试套件中,并自信地修改代码,确保它不会破坏任何已知情况