Command line 从libreoffice命令行转换中剥离HTML标记_Command Line_Libreoffice

Command line 从libreoffice命令行转换中剥离HTML标记

command-line

Command line 从libreoffice命令行转换中剥离HTML标记,command-line,libreoffice,Command Line,Libreoffice,我正在尝试将linux服务器上的HTML文件转换为TXT文件。问题是转换工作正常，但它保留了HTML标记。是否有命令删除转换中的所有HTML标记 libreoffice4.2 --headless --convert-to txt 2000.html 2000.txt 在GUI Libreoffice中打开它已经在从HTML保存到TXT时剥离了HTML，因此在命令行中也必须有一些方法来完成此操作。您需要告诉Libreoffice它必须使用哪个过滤器才能执行转换（请参阅）另一种选择可能是使用H

我正在尝试将linux服务器上的HTML文件转换为TXT文件。问题是转换工作正常，但它保留了HTML标记。是否有命令删除转换中的所有HTML标记

libreoffice4.2 --headless --convert-to txt 2000.html 2000.txt

在GUI Libreoffice中打开它已经在从HTML保存到TXT时剥离了HTML，因此在命令行中也必须有一些方法来完成此操作。

您需要告诉Libreoffice它必须使用哪个过滤器才能执行转换（请参阅）

另一种选择可能是使用

Hum。。。这与我使用的命令行相同，只是您没有添加输出文件名。HTML标记在转换后仍然在文件中，所以很抱歉，不好。另一个区别是在“txt”之后添加“：text”。这告诉LibreOffice使用“text”过滤器，它实际上负责删除HTML标记。至于输出文件名，它被LibreOffice忽略。它基本上采用源文件的名称，根据目标文件类型替换扩展名。我想我发现了一些东西，使用带有正则表达式的

sed

命令来剥离HTML文件的内容，而不是使用Libre Office。会知道它是否有效。

libreoffice4.2 --headless --convert-to txt:text 2000.html