Regex 我需要一些正则表达式的帮助_Regex

Regex 我需要一些正则表达式的帮助

regex

Regex 我需要一些正则表达式的帮助,regex,Regex,编辑：下面我要找的是一个REGEX语句，它是这样说的：抓取以div class='productBundle'开头、以.html结尾的行抓住所有这些（我认为这叫做贪婪）我将这些存储在一个数组中，然后获取页面。对于每个页面，我需要获取图像url，因此我需要正则表达式代码。我知道它很脆，但它能满足我的需要我有一个html页面，包含以下组： <div class='productBundle' id='4086472'> <table cellpadding="0" ce

编辑：下面我要找的是一个REGEX语句，它是这样说的：

抓取以div class='productBundle'开头、以.html结尾的行
抓住所有这些（我认为这叫做贪婪）

我将这些存储在一个数组中，然后获取页面。对于每个页面，我需要获取图像url，因此我需要正则表达式代码。我知道它很脆，但它能满足我的需要

我有一个html页面，包含以下组：

<div class='productBundle' id='4086472'>
<table cellpadding="0" cellspacing="0" class='inv'>
<tr><td valign="middle" align="center" width="100%">
<a href="http://listing.com/product/view/4086794.html" alt="472">

我想检索div class='productBundle'下列出的所有URL。每页可以有任何数字，但总是在productBundle div下

然后从这些html页面，我需要得到产品图片的url

<img id=productImage' src='http://listing.com/item/472248/472.jpg'>

例如，我需要“http://listing.com/item/472248/472.jpg“从上面的html代码

我可以使用REGEX代码的帮助来获取第一部分中的页面，然后使用REGEX代码从productImage中获取url

谢谢

您真的应该使用XPath来实现这一点。将文档加载到框架提供的支持XPath的任何容器中，并发出以下查询：

//div[@class='ProductBundle']//img/@src //div[@class='ProductBundle']//img/@src

结果将是您需要的字符串列表。

您真的应该使用XPath来实现这一点。将文档加载到框架提供的支持XPath的任何容器中，并发出以下查询：

//div[@class='ProductBundle']//img/@src //div[@class='ProductBundle']//img/@src

结果将是您需要的字符串列表。

不，您需要的帮助是处理标记语言，正则表达式就像用螺丝刀敲钉子一样

换句话说，您可以让它工作，但捕获所有边缘情况需要付出相当大的努力

我的建议是使用XML处理工具，它的选择取决于您使用的语言和环境。

不，您需要的帮助是处理标记语言，正则表达式就像用螺丝刀敲钉子一样

换句话说，您可以让它工作，但捕获所有边缘情况需要付出相当大的努力

我的建议是使用XML处理工具，其选择取决于您使用的语言和环境。

考虑：

编辑以添加有用的内容：这就是说，这是非常脆弱的，但应该工作

用于获取.html URL的Perl：

$/ = undef; # read multiline
$in = <>;   # read file provided on command line
while ($in =~ s/<div class='productBundle'.*?<a href=\"(.*?html)//sm) {
  print "$1\n";
}

$/=undef；#读多行
$in=#读取命令行上提供的文件
而（$in=~s/则考虑：


编辑以添加有用的内容：
这就是说，这是非常脆弱的，但应该工作
用于获取.html URL的Perl：
$/ = undef; # read multiline
$in = <>;   # read file provided on command line
while ($in =~ s/<div class='productBundle'.*?<a href=\"(.*?html)//sm) {
  print "$1\n";
}

$/=undf；#读取多行
$in=#读取命令行上提供的文件
而（$in=~s/HTML解析器，生成XML表示+XPATH
选择一个
使用产品列表吸入HTML，并使用以下XPath语句查找href//div[@class='productBundle']//a/@href
迭代结果-HTTP获取每个href值
对于每个href值-XPath，再次使用解析器对图像路径执行响应//img/@src
生成XML表示+XPATH的HTML解析器
选择一个
使用产品列表吸入HTML，并使用以下XPath语句查找href//div[@class='productBundle']//a/@href
迭代结果-HTTP获取每个href值
对于每个href值-XPath，再次使用解析器对图像路径执行响应//img/@src
这就成功了
“http:\/\/listing.com\/product+（[^”“]）*html”
这就做到了
“http:\/\/listing.com\/product+（[^”“]）*html”
您将使用什么语言？Ruby、Python、JavaScript、C#？答案可以是任何语言，我只需要正则表达式语句。我可以了解其他所有内容。您将使用什么语言？Ruby、Python、JavaScript、C#？答案可以是任何语言，我只需要正则表达式语句。我可以了解其他所有内容。是的，我已经看到了。我知道它很脆弱，但对预期用途很好。更新为添加perl正则表达式，假设一切都如您所说的那样工作感谢perl，但确实需要Regexuh，s/Yup，已经看到了这一点。我知道它很脆弱，但对预期用途很好。更新为添加perl正则表达式，假设一切都如您所说的那样工作感谢perl，但确实需要Regexuh，s/