如何从html页面提取和删除元素
代码:如何从html页面提取和删除元素,html,bash,xpath,Html,Bash,Xpath,代码: 达斯德法斯德 废话废话 废话废话2 我想删除所有内容,除了和中的内容。真正的页面要比这复杂得多,还有更多类似的页面,我想这样做,但是 我听说过simplehtmldom,但我不知道如何使用它。我希望它至少是半自动的。尝试使用以下方法: 输出: 废话废话 废话废话2 尝试使用以下方法: 输出: 废话废话 废话废话2 上面的xpath可以缩短为'//div[@id=“MainContent\u 0”或@id=“MainContent\u 2”]上面的xpath可以缩短为'//div[
达斯德法斯德
废话废话
废话废话2
我想删除所有内容,除了
和
中的内容。真正的页面要比这复杂得多,还有更多类似的页面,我想这样做,但是
我听说过simplehtmldom,但我不知道如何使用它。我希望它至少是半自动的。尝试使用以下方法:
输出:
废话废话
废话废话2
尝试使用以下方法:
输出:
废话废话
废话废话2
上面的xpath可以缩短为'//div[@id=“MainContent\u 0”或@id=“MainContent\u 2”]
上面的xpath可以缩短为'//div[@id=“MainContent\u 0”或@id=“MainContent\u 2”
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
<title>
dasdfasd
</title>
<link rel="stylesheet" type="text/css" href="style.css">
</head>
<body id="eheth" class="sdfgdf">
<div id="wrapper">
<div class="container">
<div class="row">
</div>
</div>
</div>
<div id="mainNav">
<div class="container">
<div class="row">
</div>
</div>
</div>
</div>
<script type="text/javascript">
</script>
<div id="MainContent_0">
blah blah blah
</div>
<div class="video"> </div>
<div id="MainContent_2">
blah blah blah 2
</div>
</body>
</html>
$ xmllint --html \
--xpath '//div[@id="MainContent_0" or @id="MainContent_2"]' file 2>/dev/null
<div id="MainContent_0">
blah blah blah
</div><div id="MainContent_2">
blah blah blah 2
</div>