Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/csharp/337.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
C# 从网页中删除内容_C#_Asp.net_Web Scraping - Fatal编程技术网

C# 从网页中删除内容

C# 从网页中删除内容,c#,asp.net,web-scraping,C#,Asp.net,Web Scraping,我需要刮一个远程html页面寻找图像和链接。我需要找到一个图像,这是“最有可能”的网页上的产品形象和链接,是“附近”的形象。目前,我使用javascript bookmarklet来实现这一点,以便能够获得图像和链接的渲染x/y坐标,帮助我确定这些是否是我想要的 我想要的是通过使用url而不是bookmarklet来获取这些信息的能力。问题是,通过使用url并尝试httpwebrequest之类的操作并在服务器上获取html,我将不会有位置值,因为它没有在浏览器中呈现。我需要图像和链接的位置,以

我需要刮一个远程html页面寻找图像和链接。我需要找到一个图像,这是“最有可能”的网页上的产品形象和链接,是“附近”的形象。目前,我使用javascript bookmarklet来实现这一点,以便能够获得图像和链接的渲染x/y坐标,帮助我确定这些是否是我想要的

我想要的是通过使用url而不是bookmarklet来获取这些信息的能力。问题是,通过使用url并尝试httpwebrequest之类的操作并在服务器上获取html,我将不会有位置值,因为它没有在浏览器中呈现。我需要图像和链接的位置,以帮助我确定我想要的图像和链接


那么,我如何从服务器上的远程站点获取html,并使用dom元素的呈现位置值来帮助我定位图像和链接呢?

正如您所指出的,纯粹通过检查html来实现这一点是一件非常痛苦的事(特别是当涉及CSS时)。您可以尝试使用
WebBrowser
控件(它承载IE),但我想知道寻找一个合适的、受支持的API是否会更好(并且不太可能阻止您)。如果没有API或类似的,您可能不应该这样做。所以不要这样做。

您可以使用HttpWebRequet加载页面,然后使用HtmlAgilityPack解析出您需要的数据


您可以从

下载,但要小心。如果你消耗了太多的服务器资源,或者做了一些不愉快的事情,比如忽略
robots.txt
,网站可能会将你列入黑名单。我所说的功能与Facebook为更新添加url的功能相同。有趣的是,在这个板上,每个人都认为其他人都在做坏事。HtmlAbilityPack有可能获得每个dom元素在屏幕上的位置吗?或因此,渲染图像的大小。我假设没有。这些属性确实有助于使我当前的bookmarklet非常准确。