Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/.net/20.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
.net 以编程方式从其他网站获取数据的最佳方式是什么&引用;例如,亚马逊提供;_.net_Html_Web - Fatal编程技术网

.net 以编程方式从其他网站获取数据的最佳方式是什么&引用;例如,亚马逊提供;

.net 以编程方式从其他网站获取数据的最佳方式是什么&引用;例如,亚马逊提供;,.net,html,web,.net,Html,Web,我想建立一个小的应用程序,将前往一些网站,并从这些网站读取特定的数据,我希望应用程序是通用的,因为我可以这样做,它在任何网站上我想稍后工作。 因此,有一种使用.net解析网站的好方法?假设您试图获取的数据无法通过RSS或其他类似方式获得,那么听起来您将要寻找一个页面刮板。用谷歌搜索“.NET HTML scraper”会返回大量有关该主题的信息。虽然并非真正用于您的场景,但请查看。我想你要做的是擦屏。Watin非常容易使用,并且可以避免您自己编写大量解析代码 阅读为人类制作的网站总是一个问题。我

我想建立一个小的应用程序,将前往一些网站,并从这些网站读取特定的数据,我希望应用程序是通用的,因为我可以这样做,它在任何网站上我想稍后工作。
因此,有一种使用.net解析网站的好方法?

假设您试图获取的数据无法通过RSS或其他类似方式获得,那么听起来您将要寻找一个页面刮板。用谷歌搜索“.NET HTML scraper”会返回大量有关该主题的信息。

虽然并非真正用于您的场景,但请查看。我想你要做的是擦屏。Watin非常容易使用,并且可以避免您自己编写大量解析代码

阅读为人类制作的网站总是一个问题。我这样做已经有几年了,这从来都不容易。从XML或RSS等其他文件中查找所需的数据总是一个好主意

始终记住,网站布局可能会发生变化,您必须调整您的应用程序。但是主要的问题是在页面上找到你需要的信息。我们总是需要很多字符串方法,比如contains、left、mid、indexOf


HTML是XML的一种,所以也许可以使用XMLParser。但是浏览器总是有点宽容,会接受和显示许多格式不好的页面。

如果网站不提供API,你最终会“删除”网站。虽然这当然是可能的,但它非常脆弱。如果网站发生变化,你用来“查找”你想要的信息的逻辑就会中断。拥有一个能够找到特定信息的通用应用程序是一个很好的概念,但很难可靠地实现。

有人告诉我,在.NET中进行屏幕抓取的一个好工具是

您应该意识到,要使屏幕刮片解决方案稳定,或如您所描述的通用,总是非常困难的


另请参阅此问题的其他答案:

使用wget for windows和正则表达式应该可以实现您想要的功能。您可以使用wget获取源代码,然后使用正则表达式过滤掉所有代码,或者如果它有一个模式,则可以准确地获取您要查找的内容