如何从下载的html文件中获取电子邮件地址?

如何从下载的html文件中获取电子邮件地址?,html,web-scraping,html-parsing,Html,Web Scraping,Html Parsing,我正试图通过R 我的目标是获取治疗师的电子邮件,该电子邮件显示为链接。 页面示例如下: 浏览器将此代码显示为: <a href="mailto:abonfil@cogbtherapy.com">abonfil@cogbtherapy.com</a> 但是当我下载页面(通过Ctrl+S)进行解析并获取电子邮件地址时,这部分代码从html文件中消失 谁能给我解释一下,有什么问题吗?我怎样才能获得完整的网页来提取电子邮件 谢谢大家! 该元素正从客户端JavaScript添

我正试图通过R

我的目标是获取治疗师的电子邮件,该电子邮件显示为链接。 页面示例如下:

浏览器将此代码显示为:

<a href="mailto:abonfil@cogbtherapy.com">abonfil@cogbtherapy.com</a>

但是当我下载页面(通过Ctrl+S)进行解析并获取电子邮件地址时,这部分代码从html文件中消失

谁能给我解释一下,有什么问题吗?我怎样才能获得完整的网页来提取电子邮件


谢谢大家!

该元素正从客户端JavaScript添加到DOM中;请参阅来源的这一部分:

<script language="JavaScript"><!--
    var strEmail = CharShiftDecrypt('ghutlor@iumhznkxgvE.ius', 6, 'abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ123456789');
    document.write('<a href="mailto:'+ strEmail + '">'+ strEmail + '</a><br>');
//--></script>

获得该内容的唯一方法是首先以浏览器的方式执行JavaScript。因此,除非您使用的是执行该JavaScript的处理器,否则您将无法刮取它

您需要做的是使用Selenium和/或WebDriver,或者使用基于PhantomJS或类似的东西。所有这些都会导致运行无头浏览器引擎,该引擎执行JavaScript,并为您提供与您自己在浏览器中导航到站点相同的DOM

以下是一些可用选项的操作指南:


该元素正从客户端JavaScript添加到DOM中;请参阅来源的这一部分:

<script language="JavaScript"><!--
    var strEmail = CharShiftDecrypt('ghutlor@iumhznkxgvE.ius', 6, 'abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ123456789');
    document.write('<a href="mailto:'+ strEmail + '">'+ strEmail + '</a><br>');
//--></script>

获得该内容的唯一方法是首先以浏览器的方式执行JavaScript。因此,除非您使用的是执行该JavaScript的处理器,否则您将无法刮取它

您需要做的是使用Selenium和/或WebDriver,或者使用基于PhantomJS或类似的东西。所有这些都会导致运行无头浏览器引擎,该引擎执行JavaScript,并为您提供与您自己在浏览器中导航到站点相同的DOM

以下是一些可用选项的操作指南:


所以,据我所知,我需要模拟浏览器工作,或者在脚本中嵌入一些JavaScript以进行抓取。对,对。对于一些可用选项的一些操作指南,请参阅刚才添加到回答末尾的更新,因为我知道我需要模拟浏览器工作或在脚本中嵌入一些JavaScript以进行抓取。对,对。有关几个可用选项的一些操作指南,请参阅刚才添加到答案末尾的更新