Regex 我需要一些正则表达式的帮助
编辑:下面我要找的是一个REGEX语句,它是这样说的:Regex 我需要一些正则表达式的帮助,regex,Regex,编辑:下面我要找的是一个REGEX语句,它是这样说的: 抓取以div class='productBundle'开头、以.html结尾的行 抓住所有这些(我认为这叫做贪婪) 我将这些存储在一个数组中,然后获取页面。对于每个页面,我需要获取图像url,因此我需要正则表达式代码。我知道它很脆,但它能满足我的需要 我有一个html页面,包含以下组: <div class='productBundle' id='4086472'> <table cellpadding="0" ce
- 抓取以div class='productBundle'开头、以.html结尾的行
- 抓住所有这些(我认为这叫做贪婪)
<div class='productBundle' id='4086472'>
<table cellpadding="0" cellspacing="0" class='inv'>
<tr><td valign="middle" align="center" width="100%">
<a href="http://listing.com/product/view/4086794.html" alt="472">
我想检索div class='productBundle'下列出的所有URL。每页可以有任何数字,但总是在productBundle div下
然后从这些html页面,我需要得到产品图片的url
<img id=productImage' src='http://listing.com/item/472248/472.jpg'>
例如,我需要“http://listing.com/item/472248/472.jpg“从上面的html代码
我可以使用REGEX代码的帮助来获取第一部分中的页面,然后使用REGEX代码从productImage中获取url
谢谢您真的应该使用XPath来实现这一点。将文档加载到框架提供的支持XPath的任何容器中,并发出以下查询: //div[@class='ProductBundle']//img/@src //div[@class='ProductBundle']//img/@src
结果将是您需要的字符串列表。您真的应该使用XPath来实现这一点。将文档加载到框架提供的支持XPath的任何容器中,并发出以下查询: //div[@class='ProductBundle']//img/@src //div[@class='ProductBundle']//img/@src
结果将是您需要的字符串列表。不,您需要的帮助是处理标记语言,正则表达式就像用螺丝刀敲钉子一样 换句话说,您可以让它工作,但捕获所有边缘情况需要付出相当大的努力
我的建议是使用XML处理工具,它的选择取决于您使用的语言和环境。不,您需要的帮助是处理标记语言,正则表达式就像用螺丝刀敲钉子一样 换句话说,您可以让它工作,但捕获所有边缘情况需要付出相当大的努力 我的建议是使用XML处理工具,其选择取决于您使用的语言和环境。考虑:
编辑以添加有用的内容: 这就是说,这是非常脆弱的,但应该工作 用于获取.html URL的Perl:
$/ = undef; # read multiline
$in = <>; # read file provided on command line
while ($in =~ s/<div class='productBundle'.*?<a href=\"(.*?html)//sm) {
print "$1\n";
}
$/=undef;#读多行
$in=#读取命令行上提供的文件
而($in=~s/则考虑:
编辑以添加有用的内容:
这就是说,这是非常脆弱的,但应该工作
用于获取.html URL的Perl:
$/ = undef; # read multiline
$in = <>; # read file provided on command line
while ($in =~ s/<div class='productBundle'.*?<a href=\"(.*?html)//sm) {
print "$1\n";
}
$/=undf;#读取多行
$in=#读取命令行上提供的文件
而($in=~s/HTML解析器,生成XML表示+XPATH
选择一个
使用产品列表吸入HTML,并使用以下XPath语句查找href//div[@class='productBundle']//a/@href
迭代结果-HTTP获取每个href值
对于每个href值-XPath,再次使用解析器对图像路径执行响应//img/@src
生成XML表示+XPATH的HTML解析器
选择一个
使用产品列表吸入HTML,并使用以下XPath语句查找href//div[@class='productBundle']//a/@href
迭代结果-HTTP获取每个href值
对于每个href值-XPath,再次使用解析器对图像路径执行响应//img/@src
这就成功了
“http:\/\/listing.com\/product+([^”“])*html”这就做到了
“http:\/\/listing.com\/product+([^”“])*html”您将使用什么语言?Ruby、Python、JavaScript、C#?答案可以是任何语言,我只需要正则表达式语句。我可以了解其他所有内容。您将使用什么语言?Ruby、Python、JavaScript、C#?答案可以是任何语言,我只需要正则表达式语句。我可以了解其他所有内容。是的,我已经看到了。我知道它很脆弱,但对预期用途很好。更新为添加perl正则表达式,假设一切都如您所说的那样工作感谢perl,但确实需要Regexuh,s/Yup,已经看到了这一点。我知道它很脆弱,但对预期用途很好。更新为添加perl正则表达式,假设一切都如您所说的那样工作感谢perl,但确实需要Regexuh,s/