C# 编写一个C程序,扫描电子商务网站并提取产品图片;价格+;他们的描述

C# 编写一个C程序,扫描电子商务网站并提取产品图片;价格+;他们的描述,c#,screen-scraping,C#,Screen Scraping,我正在开发一个电子商务搜索引擎,允许你在许多电子商务网站上搜索产品 我如何处理这件事 我需要一个应用程序,将能够扫描网站,解析他们的HTML,并确定哪些图片在网站上是产品图片,哪些是产品描述,哪些是产品价格 我很乐意听到任何想法,例如 提前谢谢 编辑: 我的问题不是如何从网站上获取HTML(称为屏幕抓取),而是如何解析这些信息,并了解哪些HTML包含我正在查找的实际数据,哪些不包含。您可能会发现这对您的搜索很有帮助。我已经概述了那里的基本步骤。这是指向SO上标记为“”的所有问题的链接。此外,网络

我正在开发一个电子商务搜索引擎,允许你在许多电子商务网站上搜索产品

我如何处理这件事

我需要一个应用程序,将能够扫描网站,解析他们的HTML,并确定哪些图片在网站上是产品图片,哪些是产品描述,哪些是产品价格

我很乐意听到任何想法,例如

提前谢谢

编辑:
我的问题不是如何从网站上获取HTML(称为屏幕抓取),而是如何解析这些信息,并了解哪些HTML包含我正在查找的实际数据,哪些不包含。

您可能会发现这对您的搜索很有帮助。我已经概述了那里的基本步骤。这是指向SO上标记为“”的所有问题的链接。此外,网络上有很多资料-。

您将要删除的大多数网站(更准确地说)都有“转销商”类型交易的合作伙伴API。如果你用屏幕抓取来规避这个问题,你会很快发现你的IP被他们的流量服务器阻塞,并有可能使你陷入法律困境


这充其量在道德上是可疑的。

这被称为屏幕抓取。看标签。听起来好像商店必须付费才能在shopbot上注册。有趣的模型。您可以使用PYTHON,它是所有web问题的答案(如扫描HTML请求和响应),因此,您可以搜索用PYTHON编写的web spider程序,然后使用jython将其编译为java程序(applet),并将其加载到任何免费web服务器中。cyaHow,这到底是不是得到了否决票?我保证任何尝试OP尝试的人都会很快被关闭。