Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/301.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/5/ruby/20.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 从谷歌提取公司联系方式_Python_Ruby_Regex_Email - Fatal编程技术网

Python 从谷歌提取公司联系方式

Python 从谷歌提取公司联系方式,python,ruby,regex,email,Python,Ruby,Regex,Email,我的老板给了我一份大约3500家公司的名单,希望在明天之前为每一家公司发送通用的联系电子邮件。我知道这听起来很愚蠢,确实如此,但我们的客户要求这样做。我想采取的方法是: 在谷歌上搜索公司名称 识别公司网站并重定向至该网站 通过网站链接查找“联系我们/关于我们”页面 找到并返回页面上的第一个电子邮件地址 我在这里和那里做了一些python,但没有基于web或使用正则表达式。。。虽然我有基本的想法,但我不知道我是否能在接下来的12小时内完成这项任务 如果有人对我如何用python或ruby编写脚

我的老板给了我一份大约3500家公司的名单,希望在明天之前为每一家公司发送通用的联系电子邮件。我知道这听起来很愚蠢,确实如此,但我们的客户要求这样做。我想采取的方法是:

  • 在谷歌上搜索公司名称
  • 识别公司网站并重定向至该网站
  • 通过网站链接查找“联系我们/关于我们”页面
  • 找到并返回页面上的第一个电子邮件地址
我在这里和那里做了一些python,但没有基于web或使用正则表达式。。。虽然我有基本的想法,但我不知道我是否能在接下来的12小时内完成这项任务


如果有人对我如何用python或ruby编写脚本有任何帮助,我将非常感激……

在ruby中,您可能会想看看如何使用,以及gem。Ruby的库或gem将非常有用。另外,Ruby's或类似的东西也会有帮助

你不想刮谷歌的页面。他们有一个API,可以返回可用的响应,而无需删除。如果你尝试删除3500个搜索,如果他们在你完成之前就禁止你,我不会感到惊讶


要执行您想要的操作的实际代码示例位于库和gems的文档中

在Ruby中,您可能希望了解如何使用gem。Ruby的库或gem将非常有用。另外,Ruby's或类似的东西也会有帮助

你不想刮谷歌的页面。他们有一个API,可以返回可用的响应,而无需删除。如果你尝试删除3500个搜索,如果他们在你完成之前就禁止你,我不会感到惊讶


要执行您想要的操作的实际代码示例位于库和gems的文档中

我会寻找一个更非技术性的解决方案。你可以把3500个名字分成几部分,然后把它们发到亚马逊的Mechanical Turk上,每一个都要花1美分。然后,你编写代码来创建点击率,让真人来“抓取”公司网站,而不是编写代码来抓取谷歌

我不知道这对你是否有效,但我可能会这么做

希望有帮助


布兰登

我会寻找一个更非技术性的解决方案。你可以把3500个名字分成几部分,然后把它们发到亚马逊的Mechanical Turk上,每一个都要花1美分。然后,你编写代码来创建点击率,让真人来“抓取”公司网站,而不是编写代码来抓取谷歌

我不知道这对你是否有效,但我可能会这么做

希望有帮助


Brandon

我不想这么说,但如果你以前没有这样做过,那么这不是一个在12小时内完成的合理要求。你将很难在任何给定网页上自动找到“联系我们”页面。如果你选择这条路线,最好是查询谷歌地图,它通常会在结果中提供地址和电话信息。+1@samb8s,试图在页面上找到合适的链接是很困难的,而且很可能会导致很多死胡同或失控,因为没有“联系我们”的标准页面名称。很明显,你老板的要求是不合理的。但是如果你没有说它是迟钝的,那么你很有可能会用这里给出的答案来解释为什么期望在12小时内完成任务是不现实的。无论如何,我支持bcarlso关于众包和使用MTurk()的建议。我不想这么说,但如果你以前没有这样做过,这不是一个在12小时内完成的合理要求。你将很难在任何给定网页上自动找到“联系我们”页面。如果你选择这条路线,最好是查询谷歌地图,它通常会在结果中提供地址和电话信息。+1@samb8s,试图在页面上找到合适的链接是很困难的,而且很可能会导致很多死胡同或失控,因为没有“联系我们”的标准页面名称。很明显,你老板的要求是不合理的。但是如果你没有说它是迟钝的,那么你很有可能会用这里给出的答案来解释为什么期望在12小时内完成任务是不现实的。无论如何,我支持bcarlso关于众包和使用MTurk()的建议。