Regex 需要使用正则表达式从html文件提取数据的帮助吗

Regex 需要使用正则表达式从html文件提取数据的帮助吗,regex,Regex,我试图使用PHP正则表达式将数据从html文件拉入数组。下面是数据文件的两行。我想提取零件号(9517170是一个示例)、型号、品牌和下载URL。以下是我提取部件号和URL的失败正则表达式尝试: /第[0 | 1]行([0-9]+)“(.*)(\/component[0-9a-zA-Z:-\/]+)/ 有没有能让我找到正确方向的正则表达式大师 谢谢 <tr id="table_6_row_127" class="fabrik_row oddRow1 9517170">

我试图使用PHP正则表达式将数据从html文件拉入数组。下面是数据文件的两行。我想提取零件号(9517170是一个示例)、型号、品牌和下载URL。以下是我提取部件号和URL的失败正则表达式尝试:

/第[0 | 1]行([0-9]+)“(.*)(\/component[0-9a-zA-Z:-\/]+)/

有没有能让我找到正确方向的正则表达式大师

谢谢

    <tr id="table_6_row_127" class="fabrik_row oddRow1 9517170">
            <td class="fabrik_row___jos_baseplates___DemcoPart" ><a class='fabrik___rowlink' href='/baseplates/fitlist/details/6/6/127.html'>9517170</a></td>
            <td class="fabrik_row___jos_baseplates___Make" >Subaru</td>
            <td class="fabrik_row___jos_baseplates___Model" >Legacy Outback *4</td>
            <td class="fabrik_row___jos_baseplates___Years" >03-04</td>
            <td class="fabrik_row___jos_baseplates___A" >3</td>
            <td class="fabrik_row___jos_baseplates___B" >25</td>
            <td class="fabrik_row___jos_baseplates___C" >23</td>
            <td class="fabrik_row___jos_baseplates___D" >15 1/2</td>
            <td class="fabrik_row___jos_baseplates___Price" >370</td>
            <td class="fabrik_row___jos_baseplates___Download" ><a href='/component/docman/doc_download/250-tp20170.html' target='_self'>TP20170</a></td>
    </tr>
<tr id="table_6_row_431" class="fabrik_row oddRow0 9518272">
            <td class="fabrik_row___jos_baseplates___DemcoPart" ><a class='fabrik___rowlink' href='/baseplates/fitlist/details/6/6/431.html'>9518272</a></td>
            <td class="fabrik_row___jos_baseplates___Make" >Subaru</td>
            <td class="fabrik_row___jos_baseplates___Model" >Outback *4*9</td>
            <td class="fabrik_row___jos_baseplates___Years" >10-11</td>
            <td class="fabrik_row___jos_baseplates___A" >3</td>
            <td class="fabrik_row___jos_baseplates___B" >30</td>
            <td class="fabrik_row___jos_baseplates___C" >25-1/8"</td>
            <td class="fabrik_row___jos_baseplates___D" >17-1/4"</td>
            <td class="fabrik_row___jos_baseplates___Price" >370</td>
            <td class="fabrik_row___jos_baseplates___Download" ><a href='http://demco-products.com/component/docman/doc_download/921-tp20272.html' target='_self'>tp20272</a></td>
    </tr>

斯巴鲁
传统内陆*4
03-04
3.
25
23
15 1/2
370
斯巴鲁
内地*4*9
10-11
3.
30
25-1/8"
17-1/4"
370
使用?它在引擎盖下使用libxml,速度快且健壮

不要试图用正则表达式解析HTML。


我之所以这么大胆,是因为我在这里经常看到它,而且解决方案最好是脆弱的,最坏是有缺陷的。一旦你使用真正的HTML解析器来获取你想要的属性,那么使用正则表达式就更合理了。

查看我在loadHTML()上读过的文档的可能副本,但我完全不清楚如何使用该函数将我想要的变量放入PHP数组中。似乎也没有任何使用该函数提取表格数据的示例。有谁知道这方面的好教程吗?我相信您可以使用XPath获得某种类型的标记数组,而这只需要一步你想要什么。