如何编写正则表达式从HTML中提取信息 给予与索取:通往成功的革命性途径
您不应该使用正则表达式来提取html。使用库来遍历xml/html。您不能出于通用目的解析html 但是,如果您打算解析特定的站点(如果您正在编写特定的爬虫程序),则可以尝试此方法 标题:如何编写正则表达式从HTML中提取信息 给予与索取:通往成功的革命性途径,html,regex,Html,Regex,您不应该使用正则表达式来提取html。使用库来遍历xml/html。您不能出于通用目的解析html 但是,如果您打算解析特定的站点(如果您正在编写特定的爬虫程序),则可以尝试此方法 标题: /id=“title”[^>]*>([^]*>([^HTML读取器更容易获取值,尽管可以使用正则表达式。请显示您尝试过的内容,否则这听起来有点像是您要求答案的作业。您使用什么工具或语言?Blahblah information=s/(*))/\1/g我知道你可以用这个来提取数据,但是你如何从上面的例子中提取数
/id=“title”[^>]*>([^]*>([^HTML读取器更容易获取值,尽管可以使用正则表达式。请显示您尝试过的内容,否则这听起来有点像是您要求答案的作业。您使用什么工具或语言?Blahblah information=s/(*))/\1/g我知道你可以用这个来提取数据,但是你如何从上面的例子中提取数据,因为它是嵌套的?我可以不用正则表达式来提取数据,但是问题集需要奇怪的正则表达式。请帮忙?我假设你用PCREHow我可以为上面的HTML页面编写一个包装器来提取所有有用的数据字段,包括#TITLE,#AUTHOR,#REVIEW#u COUNT,#FORMAT,#PRICE?你用的是什么语言?没什么特别的,我只需要regex和wrapper.lol,如果不指定语言,你怎么期望一个包装器?
<div data-feature-name="title">
<h1 id="title">
Give and Take: A Revolutionary Approach to Success
</h1>
<span class="author" font-size: 13px; line-height: 17.328125px;" >
Adam M. Grant Ph.D.
</span>
</div>
<div data-feature-name="averageCustomerReviews">
<a href="/Give-Take-Revolutionary-Approach-Success/product-reviews/0670026557/ref=dp_top_cm_cr_acr_txt?showViewpoints=1" >
183 customer reviews
</a>
</div>
<div>
<ul>
<li>
<span>
<span>Kindle</span>
<span>
<span>$11.99</span>
</span>
</span >
</li>
<li>
<span>
<span>Hardcover</span>
<span>
<span>$16.50</span>
</span>
</span>
</li>
<li>
<span>
<span>Paperback</span>
<span>
<span>$12.65</span>
</span>
</span>
</li>
<li>
<span>
<span>Audible</span>
<span>
<span>
$23.95
</span>
</span>
</span>
</li>
</ul>
</div>