Shell 删除标记中的HTML元素 球门

Shell 删除标记中的HTML元素 球门,shell,markdown,pandoc,Shell,Markdown,Pandoc,将包含HTML的标记文件转换为纯标记 代码:in.md 及 及 杂项 我无法调整最初生成in.md的方式 潘多克不一定是解决方案的一部分。然而,使用Pandoc似乎是有意义的,因为1转换需要由Azure DevOps发布管道执行,并且运行一个简单的命令非常适合该工作流,2所需的结果只是一个干净的标记文件 我可以使用Regex编写解决方案的脚本,如果没有其他解决方案有意义,我也会这样做,但如果使用Pandoc命令或其他解决方案完成了这项工作,那么我就不太容易犯人为错误 谢谢您的任何想法或建议。我的

将包含HTML的标记文件转换为纯标记

代码:in.md 及

杂项 我无法调整最初生成in.md的方式

潘多克不一定是解决方案的一部分。然而,使用Pandoc似乎是有意义的,因为1转换需要由Azure DevOps发布管道执行,并且运行一个简单的命令非常适合该工作流,2所需的结果只是一个干净的标记文件

我可以使用Regex编写解决方案的脚本,如果没有其他解决方案有意义,我也会这样做,但如果使用Pandoc命令或其他解决方案完成了这项工作,那么我就不太容易犯人为错误


谢谢您的任何想法或建议。

我的建议是先将完整文档转换为HTML,然后将结果转换为所需的降价格式:

请注意,输入似乎包含无效的HTML,例如,根据HTML标准,div不能出现在span或code元素中,因此嵌入的HTML并不完全是它应该表示的意思


人们还会注意到一些跨度仅包含换行符,这使得输出看起来很难看。最好的解决方案是通过删除它们。

我的建议是首先将完整文档转换为HTML,然后将结果转换为所需的标记格式:

请注意,输入似乎包含无效的HTML,例如,根据HTML标准,div不能出现在span或code元素中,因此嵌入的HTML并不完全是它应该表示的意思

人们还会注意到一些跨度仅包含换行符,这使得输出看起来很难看。最好的解决办法是通过一个移动设备将其移除

# Title

## Subtitle

### Sub-subtitle

<span><div>Line before image</div><div><br></div><div><img src="img.png" width=404 height=255><br></div><div><br></div><div>Line after image</div><div><br></div><div>Text</div></span><h1><span>Heading 1</span></h1><span><div>Text</div><div><br></div></span><h2><span>Heading 2</span></h2><span><div>Text</div></span><h3><span>Heading 3</span></h3><div><span>Text</span></div><div><span><br></span></div><span><div>Line before code</div><code><pre><code><div>Code line 1</div><div>Code line 2</div><div>Code line 3</div></code></pre></code><div><span style="">Line after code</span><br></div><div><span style=""><br></span></div><div><span style=""><a href="http://pandoc.org">Link</a></span></div><div><span style=""><br></span></div><div><ul><li>Unordered bullet 1<br></li><li>Unordered bullet 2<br></li></ul></div><div><span style=""><br></span></div><div><ol><li>Ordered bullet 1<br></li><li>Ordered bullet 2<br></li></ol></div><div><span style=""><br></span></div></span><blockquote style="margin:0 0 0 40px;border:none;padding:0px;"><span><div><span style="">Quote line 1</span></div></span><span><div><span style="">Quote line 2</span></div></span></blockquote><span><div><span style=""><br></span></div><div><span style="">Text</span></div><div><span style=""><br></span></div><div><i>Italic</i></div><div><i><br></i></div><div>Text</div><div></div></span>

Markdown text

More Markdown text
<h3>
<span>H3</span>
</h3>
<span>txt</span>

<span><br></span>
<ul>
<li>
bullet<br>
</li>
<li>
list<br>
</li>
</ul>
Heading 1
Text

Heading 2
Text

Heading 3
Text
Unordered bullet 1
Unordered bullet 2
Unordered bullet 3
pandoc --from=markdown --to=html in.md | \
    pandoc --from=html --to=markdown-raw_html-native_divs --output out.md