Web 如何创建一个提交URL并从结果页面读取数据的脚本？_Web

Web 如何创建一个提交URL并从结果页面读取数据的脚本？

web

Web 如何创建一个提交URL并从结果页面读取数据的脚本？,web,Web,在这方面我是个新手——我第一次写任何与网络相关的脚本。我试图创建一个脚本，在浏览器中提交一个变量URL，然后从结果页面的特定DOM元素读取数据基本上，我有一大堆单词。我想自动访问以每个单词结尾的URL（例如：如果我的列表是[‘苹果’、‘香蕉’、‘胡萝卜’]，我的基本URL是www.example.com，我想访问www.example.com/apple、www.example.com/banana、www.example.com/carrot）。然后，在每个页面上，我知道要从中读取数据并将其

在这方面我是个新手——我第一次写任何与网络相关的脚本。我试图创建一个脚本，在浏览器中提交一个变量URL，然后从结果页面的特定DOM元素读取数据

基本上，我有一大堆单词。我想自动访问以每个单词结尾的URL（例如：如果我的列表是[‘苹果’、‘香蕉’、‘胡萝卜’]，我的基本URL是www.example.com，我想访问www.example.com/apple、www.example.com/banana、www.example.com/carrot）。然后，在每个页面上，我知道要从中读取数据并将其返回给我的特定DOM元素

我该怎么做呢？任何指向正确方向的指针都会很棒！提前感谢：）

我建议使用Python，使用获取HTML页面，然后使用解析页面。然后，提取特定已知DOM元素的内容非常简单：

import lxml.html
from lxml import etree
import urllib2
response = urllib2.urlopen('http://example.com/abc/123')
html_text = response.read()
parsed = lxml.html.document_fromstring(html_text)
result = parsed.xpath('/html/body/some/element/path')
print result.text

有关其他类型的数据提取（属性等），请参阅LXML文档；它很容易使用。

用什么语言？此外，堆栈溢出的概念是，您自己进行研究，并尝试使其工作，当您遇到问题时，将其作为问题提问。我们并不喜欢“我需要X”这样的问题。你可以看看bash脚本和curl或wget来获取网页内容。然后可以使用regexp检索dom元素。。。这是一个命题：）@Ko2r“使用regexp检索dom元素”听起来像是一个错误@比芬说的没错，但在某些情况下，这就足够了。。。也许python html解析器是一个很好的解决方案！