Javascript 用于提取网页内容的Node.Js模块?
有人能推荐一个Node.Js模块或Javascript库(不基于可读性)吗?它可以用来从网页和RSS提要中提取内容 我找到了一个很好的PHP库,可以完成这项工作——但正在寻找一个Node.Js模块,它也可以完成这项工作 谢谢大家! 我推荐。有两个很好的教程,包括这一个:Javascript 用于提取网页内容的Node.Js模块?,javascript,node.js,text,text-extraction,rss-reader,Javascript,Node.js,Text,Text Extraction,Rss Reader,有人能推荐一个Node.Js模块或Javascript库(不基于可读性)吗?它可以用来从网页和RSS提要中提取内容 我找到了一个很好的PHP库,可以完成这项工作——但正在寻找一个Node.Js模块,它也可以完成这项工作 谢谢大家! 我推荐。有两个很好的教程,包括这一个: 我为此编写了一个名为“unfluff”的Node.js模块: 希望这能解决你的问题 Unfluff基于流行的“python-goose”和“goose”(Scala)页面提取库(如果您熟悉这些库的话)。还可以很好地从HTML中
我为此编写了一个名为“unfluff”的Node.js模块: 希望这能解决你的问题 Unfluff基于流行的“python-goose”和“goose”(Scala)页面提取库(如果您熟悉这些库的话)。还可以很好地从HTML中提取内容。
node unfluff
在我的例子中对日语(可能是CJK)内容不稳定。您可以使用PhantomJS提取内容。谢谢,@TankofVines,但是您知道cheerio有没有专门设计用于抓取网页内容的实现,只需调用一个函数而不编写太多额外的代码就可以使用哪种方法?我在这里还发现了一些与cheerio有关的东西--但再次看来,您必须对其进行微调,我希望有一些现成的解决方案,因为我已经对代码的其他部分做了大量工作。如果你能给我一些线索,我会非常感激的@deemeetree,很抱歉,我不知道node.js中有更高级别的解决方案。我快速搜索了npm,找到了一些模块,但我认为它们的级别仍然低于您所寻找的级别。希望其他人也能加入进来。祝你好运。@Deemetree,你在寻找什么样的“简单”API?