Regex 我需要一些正则表达式的帮助

Regex 我需要一些正则表达式的帮助,regex,Regex,编辑:下面我要找的是一个REGEX语句,它是这样说的: 抓取以div class='productBundle'开头、以.html结尾的行 抓住所有这些(我认为这叫做贪婪) 我将这些存储在一个数组中,然后获取页面。对于每个页面,我需要获取图像url,因此我需要正则表达式代码。我知道它很脆,但它能满足我的需要 我有一个html页面,包含以下组: <div class='productBundle' id='4086472'> <table cellpadding="0" ce

编辑:下面我要找的是一个REGEX语句,它是这样说的:

  • 抓取以div class='productBundle'开头、以.html结尾的行
  • 抓住所有这些(我认为这叫做贪婪)
我将这些存储在一个数组中,然后获取页面。对于每个页面,我需要获取图像url,因此我需要正则表达式代码。我知道它很脆,但它能满足我的需要

我有一个html页面,包含以下组:

<div class='productBundle' id='4086472'>
<table cellpadding="0" cellspacing="0" class='inv'>
<tr><td valign="middle" align="center" width="100%">
<a href="http://listing.com/product/view/4086794.html" alt="472">

我想检索div class='productBundle'下列出的所有URL。每页可以有任何数字,但总是在productBundle div下

然后从这些html页面,我需要得到产品图片的url

<img id=productImage' src='http://listing.com/item/472248/472.jpg'>

例如,我需要“http://listing.com/item/472248/472.jpg“从上面的html代码

我可以使用REGEX代码的帮助来获取第一部分中的页面,然后使用REGEX代码从productImage中获取url


谢谢

您真的应该使用XPath来实现这一点。将文档加载到框架提供的支持XPath的任何容器中,并发出以下查询:

//div[@class='ProductBundle']//img/@src //div[@class='ProductBundle']//img/@src
结果将是您需要的字符串列表。

您真的应该使用XPath来实现这一点。将文档加载到框架提供的支持XPath的任何容器中,并发出以下查询:

//div[@class='ProductBundle']//img/@src //div[@class='ProductBundle']//img/@src
结果将是您需要的字符串列表。

不,您需要的帮助是处理标记语言,正则表达式就像用螺丝刀敲钉子一样

换句话说,您可以让它工作,但捕获所有边缘情况需要付出相当大的努力


我的建议是使用XML处理工具,它的选择取决于您使用的语言和环境。

不,您需要的帮助是处理标记语言,正则表达式就像用螺丝刀敲钉子一样

换句话说,您可以让它工作,但捕获所有边缘情况需要付出相当大的努力

我的建议是使用XML处理工具,其选择取决于您使用的语言和环境。

考虑:


编辑以添加有用的内容: 这就是说,这是非常脆弱的,但应该工作

用于获取.html URL的Perl:

$/ = undef; # read multiline
$in = <>;   # read file provided on command line
while ($in =~ s/<div class='productBundle'.*?<a href=\"(.*?html)//sm) {
  print "$1\n";
}
$/=undef;#读多行
$in=#读取命令行上提供的文件
而($in=~s/则考虑:


编辑以添加有用的内容: 这就是说,这是非常脆弱的,但应该工作

用于获取.html URL的Perl:

$/ = undef; # read multiline
$in = <>;   # read file provided on command line
while ($in =~ s/<div class='productBundle'.*?<a href=\"(.*?html)//sm) {
  print "$1\n";
}
$/=undf;#读取多行
$in=#读取命令行上提供的文件

而($in=~s/HTML解析器,生成XML表示+XPATH

  • 选择一个
  • 使用产品列表吸入HTML,并使用以下XPath语句查找href
    //div[@class='productBundle']//a/@href
  • 迭代结果-HTTP获取每个href值
  • 对于每个href值-XPath,再次使用解析器对图像路径执行响应
    //img/@src

  • 生成XML表示+XPATH的HTML解析器

  • 选择一个
  • 使用产品列表吸入HTML,并使用以下XPath语句查找href
    //div[@class='productBundle']//a/@href
  • 迭代结果-HTTP获取每个href值
  • 对于每个href值-XPath,再次使用解析器对图像路径执行响应
    //img/@src
  • 这就成功了

    “http:\/\/listing.com\/product+([^”“])*html”

    这就做到了


    “http:\/\/listing.com\/product+([^”“])*html”

    您将使用什么语言?Ruby、Python、JavaScript、C#?答案可以是任何语言,我只需要正则表达式语句。我可以了解其他所有内容。您将使用什么语言?Ruby、Python、JavaScript、C#?答案可以是任何语言,我只需要正则表达式语句。我可以了解其他所有内容。是的,我已经看到了。我知道它很脆弱,但对预期用途很好。更新为添加perl正则表达式,假设一切都如您所说的那样工作感谢perl,但确实需要Regexuh,
    s/Yup,已经看到了这一点。我知道它很脆弱,但对预期用途很好。更新为添加perl正则表达式,假设一切都如您所说的那样工作感谢perl,但确实需要Regexuh,
    s/