Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/java/397.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Java 使用网络爬虫进行价格比较_Java_Web Crawler - Fatal编程技术网

Java 使用网络爬虫进行价格比较

Java 使用网络爬虫进行价格比较,java,web-crawler,Java,Web Crawler,我需要一个开源的基于java的网络crwaler,我可以扩展它进行价格比较? 我怎样做价格比较? 有开源代码吗?看看web harvest,您将不得不使用它有点奇怪的语法来处理网页,但应该公平地扩展它以进行一些价格比较: 有什么原因不能从已有的数百个价格比较网站中获取数据?似乎更容易抓取nextag或froogle或其他东西,而不是编写一个爬虫程序来抓取数十亿个商店网站。无论你是从商店本身还是从现有的比较网站抓取价格信息,构建一个从大量不同网站抓取价格信息的东西都将是一项艰巨的工作 每个人的网

我需要一个开源的基于java的网络crwaler,我可以扩展它进行价格比较? 我怎样做价格比较?
有开源代码吗?

看看web harvest,您将不得不使用它有点奇怪的语法来处理网页,但应该公平地扩展它以进行一些价格比较:


有什么原因不能从已有的数百个价格比较网站中获取数据?似乎更容易抓取nextag或froogle或其他东西,而不是编写一个爬虫程序来抓取数十亿个商店网站。

无论你是从商店本身还是从现有的比较网站抓取价格信息,构建一个从大量不同网站抓取价格信息的东西都将是一项艰巨的工作

  • 每个人的网站布局都会不同,需要分别为每个网站配置爬虫

  • 一些网站可能会以难以抓取的方式呈现价格信息;e、 g.使用AJAX

一些网站所有者会将相关页面放入他们的
robots.txt
文件中,告诉您远离。如果你忽视了这一点,他们会做很多事情让你的生活变得困难

未经允许,擅自删除许多人的网站可能会使你不受欢迎。它可能会引起诉讼的威胁,或者来自那些认为你正在损害他们商业模式的人的实际诉讼。或其他回应


你真的确定要这么做吗?真的吗?

没有人希望他们的网站超载而没有任何好处。我认为你应该为你的需要创建一个爬虫。但是,请注意,它们中的大多数可能会阻碍您或使您的反应变慢。你需要表现得像你不是一个人一样,吃掉他们的带宽…

这里有人写到了法律问题。法律问题并不简单。史蒂芬C写了关于诉讼的文章,但这是双向的。有大量的法律与反竞争行为有关。如果有人因为参与价格操纵或虚假索赔而希望自己的价格不被报告,那么网站本身将面临严厉的处罚。法律不是可以随便引用的东西。你可以在谷歌上搜索定价,看到无数公司已经被处以巨额罚款

谢谢你的答复。是的,我已经复习了WebHarvest。是的,我也有想法只是刮价格比较网站?所以它应该由爬虫来完成,对吗?下一步,价格比较网站是否允许您访问他们的网站?我是不是遗漏了什么?如果很简单的话,你只需要浏览10-20个网站,对吗?不要自己抓取网页。它只会带来痛苦和麻烦(无论是在法典还是法律术语中)。您应该与价目表供应商联系,以获取有关其公共Web服务的更多信息,然后使用它。@BalusC trouble(法律术语)?怎么做?为什么?这个应用看起来很酷,也很容易使用,但不幸的是,在现实中,它的性能(以我的衡量)相当糟糕。