如何使用YQL对TripAdvisor中的内容进行web抓取

如何使用YQL对TripAdvisor中的内容进行web抓取,web,web-scraping,Web,Web Scraping,我对网络抓取很陌生,所以我的问题可能有点简单,但它确实让我很困扰。 我想从TripAdvisor中删除一些内容,但当我在YQL中运行以下命令时,它不会返回任何内容 从html中选择*=http://www.tripadvisor.com/Search?q=sunny+relax&geo=191&ssrc=A&o=0.html 有人能告诉我为什么吗?我的命令有什么问题吗 提前感谢您的帮助。这是因为中不允许使用/Search页,YQL会在robots.txt中检查此项 您可以尝试另一个页面并使用XP

我对网络抓取很陌生,所以我的问题可能有点简单,但它确实让我很困扰。 我想从TripAdvisor中删除一些内容,但当我在YQL中运行以下命令时,它不会返回任何内容

从html中选择*=http://www.tripadvisor.com/Search?q=sunny+relax&geo=191&ssrc=A&o=0.html

有人能告诉我为什么吗?我的命令有什么问题吗


提前感谢您的帮助。

这是因为中不允许使用/Search页,YQL会在robots.txt中检查此项

您可以尝试另一个页面并使用XPATH选择一些节点,例如:

select * from html where xpath = '//div[@class="listing_title"]/a' and url = 'http://www.tripadvisor.com/Hotels-g45963-Las_Vegas_Nevada-Hotels.html'

您可能需要首先获取网页内容-此页面上的各种内容应该可以让您开始:另一种方法是利用DOM模型从网页对象中提取内容。您不需要.html,但它只是一个搜索结果页面,而不是XML或YQL数据源-例如,本教程可能会有所帮助