如何从RSS源中过滤亚洲语言?

如何从RSS源中过滤亚洲语言?,rss,internationalization,filter,feed,yahoo-pipes,Rss,Internationalization,Filter,Feed,Yahoo Pipes,我喜欢跟踪RSS提要。然而,最近有越来越多的亚洲网页的项目。由于我不懂任何亚洲语言,我想从feed中过滤它们,从而节省一些时间 我一直试着用它来做一些东西,但一直没能让它起作用 有人知道怎么做吗?我在这里运气不错 管道的源包含所有信息,但关键位正在运行一个带有正则表达式的过滤器,正则表达式为“!@\\$%^&*\(\)-\=\+;:\/\\\\\\\\\\\\\\\\\\\\\\\\\\[\]~+$” 这将过滤掉标题中除标准ASCII之外的任何提要。不幸的是,这意味着它也将过滤“résumé”之

我喜欢跟踪RSS提要。然而,最近有越来越多的亚洲网页的项目。由于我不懂任何亚洲语言,我想从feed中过滤它们,从而节省一些时间

我一直试着用它来做一些东西,但一直没能让它起作用

有人知道怎么做吗?

我在这里运气不错

管道的源包含所有信息,但关键位正在运行一个带有正则表达式的过滤器,正则表达式为“!@\\$%^&*\(\)-\=\+;:\/\\\\\\\\\\\\\\\\\\\\\\\\\\[\]~+$”

这将过滤掉标题中除标准ASCII之外的任何提要。不幸的是,这意味着它也将过滤“résumé”之类的词,但您可以很容易地调整正则表达式,以包含您所知道的语言中常见的非英语字符。

我在这方面有点运气

管道的源包含所有信息,但关键位正在运行一个带有正则表达式的过滤器,正则表达式为“!@\\$%^&*\(\)-\=\+;:\/\\\\\\\\\\\\\\\\\\\\\\\\\\[\]~+$”


这将过滤掉标题中使用标准ASCII以外的任何内容的提要。不幸的是,这意味着它还将过滤诸如“résumé”之类的词但是,调整正则表达式以包含您所知道的语言中常见的非英语字符应该是相当容易的。

如果超过X%的字符不是来自指定给您能理解的语言脚本的代码块,您可能希望跳过标题。例如,如果您不能阅读希腊语、俄语、西班牙语或西班牙语拉比语、希伯来语、亚美尼亚语、汉语、日语、朝鲜语、印度语等,拒绝超过(比如)的标题10%的字符不在U+0000到U+0233的范围内。这就给您留下了拉丁字母表。留出10%的空白是为了标点符号;此外,技术文章可能会使用不在基本字母表中的符号。

如果超过X%的字符不来自指定的代码块,您可能希望跳过标题例如,如果你不能阅读希腊语、俄语、阿拉伯语、希伯来语、亚美尼亚语、汉语、日语、韩语、印度语等,请拒绝超过(比如)的标题10%的字符不在U+0000到U+0233之间。这就给你留下了拉丁字母表。留出10%的空白是为了标点符号;技术文章也可能使用不在基本字母表中的符号。

谢谢!这对我很好。谢谢!这对我很好。