Php 网页抓取建议/建议_Php_Python_Web Scraping

Php 网页抓取建议/建议

php python web-scraping

Php 网页抓取建议/建议,php,python,web-scraping,Php,Python,Web Scraping,这是我第一次尝试刮。有一个网站与搜索功能，我想使用当我进行搜索时，搜索详细信息不会显示在网站url中。当我检查元素并查看网络选项卡时，请求url保持不变（方法：post），但当我查看底部时，在表单数据部分，我单击了查看源代码，url表单中有我的搜索详细信息我的问题是: 如果请求url=http://somewebsite.com/search 以及表单数据源=startDate=09.07.2016和endDate=10.07.2016 如何连接这两者以提取数据进行刮取？我是个新手，所以如果

这是我第一次尝试刮。有一个网站与搜索功能，我想使用

当我进行搜索时，搜索详细信息不会显示在网站url中。当我检查元素并查看网络选项卡时，请求url保持不变（方法：post
），但当我查看底部时，在表单数据
部分，我单击了查看源代码，url表单中有我的搜索详细信息

我的问题是:

如果请求url=

http://somewebsite.com/search

以及表单数据源=
startDate=09.07.2016和endDate=10.07.2016

如何连接这两者以提取数据进行刮取？我是个新手，所以如果我做错了，请告诉我

谢谢

刮是一种不好的做法，但在某些情况下，刮是获得东西的唯一途径。
如果你在浏览某个网站，请考虑温和，不要在一天内提出1M请求。基本上，您需要使用php curl函数和pass post字段

<?php
$ch = curl_init();

curl_setopt($ch, CURLOPT_URL,"http://example.com/search");
curl_setopt($ch, CURLOPT_POST, 1);
curl_setopt($ch, CURLOPT_POSTFIELDS, http_build_query(array('postvar1'=>'value1')));
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);

$html = curl_exec ($ch);

curl_close ($ch);

刮是一种不好的做法，但在某些情况下，刮是获得某些东西的唯一途径。

如果你在浏览某个网站，请考虑温和，不要在一天内提出1M请求。
基本上，您需要使用php curl函数和pass post字段
<?php
$ch = curl_init();

curl_setopt($ch, CURLOPT_URL,"http://example.com/search");
curl_setopt($ch, CURLOPT_POST, 1);
curl_setopt($ch, CURLOPT_POSTFIELDS, http_build_query(array('postvar1'=>'value1')));
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);

$html = curl_exec ($ch);

curl_close ($ch);

道德规范
使用机器人获取网站内容对你和你正在抓取的网站都有好处。你可以像搜索引擎一样使用这些数据来引用网站的内容。有时，您可能希望向用户提供原始网站不提供的服务
然而，有时刮削被用于邪恶的目的。窃取内容、使用他人的计算机资源，或者更糟
不清楚你有什么意图。帮助你，可能是不道德的。我不是说它是，但它可能是。我不理解“AucT”，说这是一种不好的做法，然后给出答案。这是怎么回事
注二：
搜索结果比大多数其他网页需要更多的资源来生成。它们特别容易受到拒绝服务攻击
我运行多个站点，发现大量流量是由机器人造成的。这真的花了我很多钱。有些网站的机器人流量比人流量大。它正在失控，我不得不投入相当多的时间来控制问题。不遵守带宽限制的机器人会被我永久阻止。当然，我允许友好的机器人
伦理道德
使用机器人获取网站内容对你和你正在抓取的网站都有好处。你可以像搜索引擎一样使用这些数据来引用网站的内容。有时，您可能希望向用户提供原始网站不提供的服务
然而，有时刮削被用于邪恶的目的。窃取内容、使用他人的计算机资源，或者更糟
不清楚你有什么意图。帮助你，可能是不道德的。我不是说它是，但它可能是。我不理解“AucT”，说这是一种不好的做法，然后给出答案。这是怎么回事
注二：
搜索结果比大多数其他网页需要更多的资源来生成。它们特别容易受到拒绝服务攻击
我运行多个站点，发现大量流量是由机器人造成的。这真的花了我很多钱。有些网站的机器人流量比人流量大。它正在失控，我不得不投入相当多的时间来控制问题。不遵守带宽限制的机器人会被我永久阻止。当然，我允许友好的机器人
您可以使用简单的HTMLDOM
您可以使用简单的html dom

我相信您会发现，与过去几年相比，主要的搜索引擎已经积极地让您尝试做的事情更具挑战性。然而，它们确实提供了允许搜索的API。这些通常需要您订阅并支付一定级别的API访问费。如果你真的选择坚持尝试拼凑，那么要准备好很快接受验证码的挑战。我相信你会发现，主要的搜索引擎已经积极地让你正在尝试做的事情比过去几年更具挑战性。然而，它们确实提供了允许搜索的API。这些通常需要您订阅并支付一定级别的API访问费。如果你真的选择坚持尝试擦洗，请准备好很快接受CAPTCHA的挑战。谢谢AucT。我也在考虑用python来做这件事。看起来卷曲是更好的选择。你怎么认为？不，我不打算每天做无数的请求，只是一点点而已您可以用任何支持curl的语言来实现。只需谷歌curl post%语言%。谢谢。我也在考虑用python来做这件事。看起来卷曲是更好的选择。你怎么认为？不，我不打算每天做无数的请求，只是一点点而已您可以用任何支持curl的语言来实现。只需google curl post%language%。嘿，KIKO。谢谢你的回答。不，我不是想偷信息。实际上，我打算按照你在回答开始时的建议，“为用户提供原始网站不提供的服务。”我不想让任何人质疑他们的道德，因为我问了一个关于如何尝试刮擦的问题。如果你的意图是好的，我想你已经联系过你要去刮的网站，并同意他们的意见，这样可以吗？任何内容提供商都会对此表示感谢。如果您为他们提供了唯一的“浏览器字符串”，他们还可以监视您的使用情况。这样做可以让你的服务更可靠。谢谢你的回答。不，我不打算吃牛排