Warning: file_get_contents(/data/phpspider/zhask/data//catemap/1/dart/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Web 如何创建一个提交URL并从结果页面读取数据的脚本?_Web - Fatal编程技术网

Web 如何创建一个提交URL并从结果页面读取数据的脚本?

Web 如何创建一个提交URL并从结果页面读取数据的脚本?,web,Web,在这方面我是个新手——我第一次写任何与网络相关的脚本。我试图创建一个脚本,在浏览器中提交一个变量URL,然后从结果页面的特定DOM元素读取数据 基本上,我有一大堆单词。我想自动访问以每个单词结尾的URL(例如:如果我的列表是[‘苹果’、‘香蕉’、‘胡萝卜’],我的基本URL是www.example.com,我想访问www.example.com/apple、www.example.com/banana、www.example.com/carrot)。然后,在每个页面上,我知道要从中读取数据并将其

在这方面我是个新手——我第一次写任何与网络相关的脚本。我试图创建一个脚本,在浏览器中提交一个变量URL,然后从结果页面的特定DOM元素读取数据

基本上,我有一大堆单词。我想自动访问以每个单词结尾的URL(例如:如果我的列表是[‘苹果’、‘香蕉’、‘胡萝卜’],我的基本URL是www.example.com,我想访问www.example.com/apple、www.example.com/banana、www.example.com/carrot)。然后,在每个页面上,我知道要从中读取数据并将其返回给我的特定DOM元素


我该怎么做呢?任何指向正确方向的指针都会很棒!提前感谢:)

我建议使用Python,使用获取HTML页面,然后使用解析页面。然后,提取特定已知DOM元素的内容非常简单:

import lxml.html
from lxml import etree
import urllib2
response = urllib2.urlopen('http://example.com/abc/123')
html_text = response.read()
parsed = lxml.html.document_fromstring(html_text)
result = parsed.xpath('/html/body/some/element/path')
print result.text

有关其他类型的数据提取(属性等),请参阅LXML文档;它很容易使用。

用什么语言?此外,堆栈溢出的概念是,您自己进行研究,并尝试使其工作,当您遇到问题时,将其作为问题提问。我们并不喜欢“我需要X”这样的问题。你可以看看bash脚本和curl或wget来获取网页内容。然后可以使用regexp检索dom元素。。。这是一个命题:)@Ko2r“使用regexp检索dom元素”听起来像是一个错误@比芬说的没错,但在某些情况下,这就足够了。。。也许python html解析器是一个很好的解决方案!