Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/javascript/478.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Javascript 用于提取网页内容的Node.Js模块?_Javascript_Node.js_Text_Text Extraction_Rss Reader - Fatal编程技术网

Javascript 用于提取网页内容的Node.Js模块?

Javascript 用于提取网页内容的Node.Js模块?,javascript,node.js,text,text-extraction,rss-reader,Javascript,Node.js,Text,Text Extraction,Rss Reader,有人能推荐一个Node.Js模块或Javascript库(不基于可读性)吗?它可以用来从网页和RSS提要中提取内容 我找到了一个很好的PHP库,可以完成这项工作——但正在寻找一个Node.Js模块,它也可以完成这项工作 谢谢大家! 我推荐。有两个很好的教程,包括这一个: 我为此编写了一个名为“unfluff”的Node.js模块: 希望这能解决你的问题 Unfluff基于流行的“python-goose”和“goose”(Scala)页面提取库(如果您熟悉这些库的话)。还可以很好地从HTML中

有人能推荐一个Node.Js模块或Javascript库(不基于可读性)吗?它可以用来从网页和RSS提要中提取内容

我找到了一个很好的PHP库,可以完成这项工作——但正在寻找一个Node.Js模块,它也可以完成这项工作

谢谢大家!

我推荐。有两个很好的教程,包括这一个:


我为此编写了一个名为“unfluff”的Node.js模块:

希望这能解决你的问题

Unfluff基于流行的“python-goose”和“goose”(Scala)页面提取库(如果您熟悉这些库的话)。

还可以很好地从HTML中提取内容。
node unfluff
在我的例子中对日语(可能是CJK)内容不稳定。

您可以使用PhantomJS提取内容。谢谢,@TankofVines,但是您知道cheerio有没有专门设计用于抓取网页内容的实现,只需调用一个函数而不编写太多额外的代码就可以使用哪种方法?我在这里还发现了一些与cheerio有关的东西--但再次看来,您必须对其进行微调,我希望有一些现成的解决方案,因为我已经对代码的其他部分做了大量工作。如果你能给我一些线索,我会非常感激的@deemeetree,很抱歉,我不知道node.js中有更高级别的解决方案。我快速搜索了npm,找到了一些模块,但我认为它们的级别仍然低于您所寻找的级别。希望其他人也能加入进来。祝你好运。@Deemetree,你在寻找什么样的“简单”API?