智能网页抓取c#_C#_Html_Web Scraping

智能网页抓取c#

c# html web-scraping

智能网页抓取c#,c#,html,web-scraping,C#,Html,Web Scraping,有很多产品提供了一个gui来挑选你想要从网页上抓取的标签。（比如WebHarvy）我以前看过HTML敏捷包，用于获取DOM。我只是想看看是否有人知道有什么好的库或流程可以自动在HTML页面中找到有用的内容并创建所需的XPath 类似于Evernote和iOS如何知道“文章”在页面上的位置。但是，理想情况下，它可以用于重复区域和分页。不确定这是否是您要寻找的：但是Diffbot很擅长从网站上抓取内容。我想要的是一个库或者可以内置到我自己解决方案中的东西。我不想依赖第三方。我用过Agilit

有很多产品提供了一个gui来挑选你想要从网页上抓取的标签。（比如WebHarvy）

我以前看过HTML敏捷包，用于获取DOM。我只是想看看是否有人知道有什么好的库或流程可以自动在HTML页面中找到有用的内容并创建所需的XPath

类似于Evernote和iOS如何知道“文章”在页面上的位置。但是，理想情况下，它可以用于重复区域和分页。

不确定这是否是您要寻找的：

但是Diffbot很擅长从网站上抓取内容。

我想要的是一个库或者可以内置到我自己解决方案中的东西。我不想依赖第三方。我用过Agility Pack，过去没有发现比它更强大的东西。但是如果你找到更好的，我会很感兴趣的。