Web crawler 如何使用RapidMiner删除非英语单词

Web crawler 如何使用RapidMiner删除非英语单词,web-crawler,text-mining,stop-words,rapidminer,web-mining,Web Crawler,Text Mining,Stop Words,Rapidminer,Web Mining,我正在RapidMiner中执行文本挖掘。我正在抓取一个网站,并做一些预处理任务,如标记化、小写和过滤英语单词;但我仍然得到一些无意义的词,如“xkxzaz”、“xkaffqoxzomd”或JavaScript代码词,如“wpcf”。我的问题是,在RapidMiner中有没有办法去掉这些词?有人告诉我,创建一本stopwords词典是一种解决方案,但这意味着我必须创建一本看起来不太理想的完整英语词典。任何提示都将不胜感激 您可以使用Filter Tokens操作符查找特定的无意义单词,并设置In

我正在RapidMiner中执行文本挖掘。我正在抓取一个网站,并做一些预处理任务,如标记化、小写和过滤英语单词;但我仍然得到一些无意义的词,如“xkxzaz”、“xkaffqoxzomd”或JavaScript代码词,如“wpcf”。我的问题是,在RapidMiner中有没有办法去掉这些词?有人告诉我,创建一本stopwords词典是一种解决方案,但这意味着我必须创建一本看起来不太理想的完整英语词典。任何提示都将不胜感激

您可以使用
Filter Tokens
操作符查找特定的无意义单词,并设置
Invert Condition
标志。如果列表很长,那么这可能会很乏味,因为您需要一个复杂的正则表达式或“无意义语料库”的多个运算符。它也不会适应新的无意义词汇

如果您提前知道所需的英语单词,可以使用
处理文档
操作符的单词列表输入。这将删除列表中未列出的所有单词,但将丢失从未见过但您可能希望保留的新词。您可以使用
过程文档
操作符的输出生成单词列表

Filter Stopwords(Dictionary)
操作符将删除文件中包含的Stopwords,因此“您所要做的就是”创建无意义语料库

这取决于您的问题是什么,但我会使用保存为文件的原始单词列表输出(使用
WordList to Data
Write CSV
运算符),我会手动编辑这些输出,生成无意义单词的列表,然后将其用作停止词过滤的词典

这是一个棘手的问题,因为问题的实质是决定一个以前看不见的作品是胡说八道还是英语。例如LOL是英语还是胡说八道