Python 从网站上的产品目录中删除价格数据

Python 从网站上的产品目录中删除价格数据,python,web-scraping,Python,Web Scraping,我对urllib很熟悉,因为我在课堂上使用它来解析来自谷歌货币转换器的数据,但现在我想创建一个网络刮板,从这个网站nextworth.com获取价格 正如你所见,这不像从一个页面上抓取数据那么容易(就像你在金价或其他方面所做的那样),但要显示最终价格,需要回答很多产品和问题。这就是它的工作原理: 1.转到站点() 2.点击产品类别(例如iPhone) 3.点击实际产品(例如iPhone 4 16GB ATT) 然后你有一系列的问题,以便给你一个即时的报价。因此,下一步将是: 4.全功能开机-是

我对urllib很熟悉,因为我在课堂上使用它来解析来自谷歌货币转换器的数据,但现在我想创建一个网络刮板,从这个网站nextworth.com获取价格

正如你所见,这不像从一个页面上抓取数据那么容易(就像你在金价或其他方面所做的那样),但要显示最终价格,需要回答很多产品和问题。这就是它的工作原理:

1.
转到站点()

2.
点击产品类别(例如iPhone)

3.
点击实际产品(例如iPhone 4 16GB ATT)

然后你有一系列的问题,以便给你一个即时的报价。因此,下一步将是:

4.
全功能开机-是

5.
显示屏破裂-否

最后,显示价格。这就是我想要刮和储存的东西。现在我只想得到完美状态物品的价格,因为这比较容易,但请记住,如果第4步是否,第5步是否,或者第4步-是,第5步-是,等等,我也会想要价格

所以我想我的问题是,为这个程序编写代码背后的伪代码(逻辑步骤)是什么样的?这样做是可行的,还是需要花费很长时间和大量代码?我是否应该从为每个类别创建几个功能开始,然后在这些功能中我拥有每个产品(我觉得这需要花费很长时间)。还是应该为每个类别和嵌入函数使用类


编辑:我想我应该问问Python是否是一个好的语言来完成它,希望在Python中做它是可行的,因为我只知道和C++。很好的一点是,它可以利用QtWebkit模块,这样您甚至可以处理大量使用javascript的站点

考虑到这一点,我不得不警告你这类事情

您所做的是一个自动化的过程,根据您的需求,该过程看起来好像要访问很多页面。如果你没有得到你要撤销的网站的许可,你可能会被他们的服务器阻止,因为这些资源可能会吸引到他们关心的实时人工客户


在这种情况下,您需要处理某种API。查看站点是否有API,因为这些API对自动化流程更加友好,只要您遵守它们的API规则

Webscraping库要求您设置某种形式的库以及集成开发环境。在您的案例中,您正在考虑为此选择python


我们已经创建了一个webscraping作为服务平台,允许您。虽然我们仍在创建chrome浏览器扩展的过程中,我们将在本周末发布该扩展的第一个版本。您只需编写几行JSON,然后才能使用我们为您进行web抓取

谢谢你的警告,不幸的是我认为他们没有公共API。也许这并不像我想的那样是一项可行的任务。@Goose我只想联系他们看看。如果你真的只是为了学习,解释一下。他们也可以在工作中使用一个API,或者他们自己使用另一个API。最糟糕的情况是他们拒绝了你的请求。如果你真的想进入更高层次的实践领域,那就看看下面的例子。这是一项非常有市场且有用的技能。@Goose-Hmm,我认为您应该在较低的层次上了解Python和网络。我在Python文档中列出了推荐的部分。一旦你把你的头缠在上面,我会再次考虑解决AWS的问题。