Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/regex/18.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
如何编写正则表达式从HTML中提取信息 给予与索取:通往成功的革命性途径_Html_Regex - Fatal编程技术网

如何编写正则表达式从HTML中提取信息 给予与索取:通往成功的革命性途径

如何编写正则表达式从HTML中提取信息 给予与索取:通往成功的革命性途径,html,regex,Html,Regex,您不应该使用正则表达式来提取html。使用库来遍历xml/html。您不能出于通用目的解析html 但是,如果您打算解析特定的站点(如果您正在编写特定的爬虫程序),则可以尝试此方法 标题: /id=“title”[^>]*>([^]*>([^HTML读取器更容易获取值,尽管可以使用正则表达式。请显示您尝试过的内容,否则这听起来有点像是您要求答案的作业。您使用什么工具或语言?Blahblah information=s/(*))/\1/g我知道你可以用这个来提取数据,但是你如何从上面的例子中提取数

您不应该使用正则表达式来提取html。使用库来遍历xml/html。

您不能出于通用目的解析html

但是,如果您打算解析特定的站点(如果您正在编写特定的爬虫程序),则可以尝试此方法

标题:


/id=“title”[^>]*>([^]*>([^HTML读取器更容易获取值,尽管可以使用正则表达式。请显示您尝试过的内容,否则这听起来有点像是您要求答案的作业。您使用什么工具或语言?Blahblah information=s/(*))/\1/g我知道你可以用这个来提取数据,但是你如何从上面的例子中提取数据,因为它是嵌套的?我可以不用正则表达式来提取数据,但是问题集需要奇怪的正则表达式。请帮忙?我假设你用PCREHow我可以为上面的HTML页面编写一个包装器来提取所有有用的数据字段,包括#TITLE,#AUTHOR,#REVIEW#u COUNT,#FORMAT,#PRICE?你用的是什么语言?没什么特别的,我只需要regex和wrapper.lol,如果不指定语言,你怎么期望一个包装器?
<div data-feature-name="title">
    <h1 id="title">
        Give and Take: A Revolutionary Approach to Success
    </h1>

    <span class="author" font-size: 13px; line-height: 17.328125px;" >
    Adam M. Grant Ph.D.
    </span>
</div>

<div data-feature-name="averageCustomerReviews">
    <a href="/Give-Take-Revolutionary-Approach-Success/product-reviews/0670026557/ref=dp_top_cm_cr_acr_txt?showViewpoints=1" >
        183 customer reviews
    </a>
</div>

<div>
    <ul>
        <li>
            <span>
                <span>Kindle</span>
                <span>
                    <span>$11.99</span>
                </span>
            </span >
        </li>

        <li>
            <span>
                <span>Hardcover</span>
                <span>
                    <span>$16.50</span>
                </span>
            </span>
        </li>

        <li>
            <span>
                <span>Paperback</span>
                <span>
                    <span>$12.65</span>
                </span>
            </span>
        </li>

        <li>
            <span>
                <span>Audible</span>
                <span>
                    <span>
                        $23.95
                    </span>
                </span>
            </span>
        </li>
    </ul>
</div>