Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/javascript/453.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Javascript Engagator网站-通过自动化镜像内容更改_Javascript_Php_Web Scraping_Automation - Fatal编程技术网

Javascript Engagator网站-通过自动化镜像内容更改

Javascript Engagator网站-通过自动化镜像内容更改,javascript,php,web-scraping,automation,Javascript,Php,Web Scraping,Automation,我正在建立一个强化者网站。以www.nbcnews.com为例,他们的头号故事是一个有文字的大画面。将您链接到实际的文章。我也想在我的网站上镜像图片和文本。当然,我也可以在我的网站上设置一个静态链接,指向该图像和文本。然而,当他们改变他们的头号故事时,我的故事仍然是与旧故事的静态链接。有没有办法使这个过程自动化?每当他们的头号故事更新时,我希望我的头号故事反映出这种变化 是否有一个php或java解决方案不使用web刮板 下面是一个精简的示例,其中包含我所说的设置了静态链接的空白页面 顺便说一句

我正在建立一个强化者网站。以www.nbcnews.com为例,他们的头号故事是一个有文字的大画面。将您链接到实际的文章。我也想在我的网站上镜像图片和文本。当然,我也可以在我的网站上设置一个静态链接,指向该图像和文本。然而,当他们改变他们的头号故事时,我的故事仍然是与旧故事的静态链接。有没有办法使这个过程自动化?每当他们的头号故事更新时,我希望我的头号故事反映出这种变化

是否有一个php或java解决方案不使用web刮板

下面是一个精简的示例,其中包含我所说的设置了静态链接的空白页面

顺便说一句,没有RSS源和API。这也是合法的,因为合理使用的法律和事实,当你点击,它链接回作者的网站

<!doctype html>
<html>
<head>
<meta charset="utf-8">
<title>Untitled Document</title>
</head>
<div style="height: 400px; width: 900px; border: 2px red solid"><a href="http://www.nbcnews.com/politics/2016-election/donald-trump-s-strange-surprise-last-minute-jaunt-mexico-n640686"><img src="http://media4.s-nbcnews.com/j/newscms/2016_35/1690621/160831-trump-pena-nieto-mn-0851_697c23fc65b3e981f879e0302b490899.nbcnews-fp-600-320.jpg" width="100%" height="100%" alt=""/></a> 
</div>
<body>
</body>
</html>

如果你仔细想想,这并不难做到。首先,我用python完成了它,我只需要两个库就可以了。请求和lxml python库。请求用于转到实际的网页,lxml用于从网站上删除html片段的一部分,您需要编写一个函数来将返回值从lxml库转换为可用于网站的数据结构

谷歌或搜索此网站以了解如何抓取网站,或检查网站是否提供api或rss源。没有api或rss源。我也不知道有什么方法可以编辑一个rss提要,把它限制在仅仅是头条新闻,然后只使用主图片。要做到这一点,唯一的方法是创建一个刮板吗?请检查您是否违反网站TOS。你可能是,我不是。请查阅公平使用。你对没有rss的错误看法是:这应该使这变得更简单。这对我来说有些道理,但我相信我可以用谷歌或搜索来填补空白。我一点也不懂python。有没有php解决方案或javascript解决方案可以抓住这一点?我提到python是因为它们与php非常相似,但语法更清晰。您肯定可以在php或javascript中找到与python等效的库。
<!doctype html>
<html>
<head>
<meta charset="utf-8">
<title>Untitled Document</title>
</head>
<div style="height: 400px; width: 900px; border: 2px red solid"><a href="http://www.nbcnews.com/politics/2016-election/donald-trump-s-strange-surprise-last-minute-jaunt-mexico-n640686"><img src="http://media4.s-nbcnews.com/j/newscms/2016_35/1690621/160831-trump-pena-nieto-mn-0851_697c23fc65b3e981f879e0302b490899.nbcnews-fp-600-320.jpg" width="100%" height="100%" alt=""/></a> 
</div>
<body>
</body>
</html>