Command line 从libreoffice命令行转换中剥离HTML标记

Command line 从libreoffice命令行转换中剥离HTML标记,command-line,libreoffice,Command Line,Libreoffice,我正在尝试将linux服务器上的HTML文件转换为TXT文件。问题是转换工作正常,但它保留了HTML标记。是否有命令删除转换中的所有HTML标记 libreoffice4.2 --headless --convert-to txt 2000.html 2000.txt 在GUI Libreoffice中打开它已经在从HTML保存到TXT时剥离了HTML,因此在命令行中也必须有一些方法来完成此操作。您需要告诉Libreoffice它必须使用哪个过滤器才能执行转换(请参阅) 另一种选择可能是使用H

我正在尝试将linux服务器上的HTML文件转换为TXT文件。问题是转换工作正常,但它保留了HTML标记。是否有命令删除转换中的所有HTML标记

libreoffice4.2 --headless --convert-to txt 2000.html 2000.txt

在GUI Libreoffice中打开它已经在从HTML保存到TXT时剥离了HTML,因此在命令行中也必须有一些方法来完成此操作。

您需要告诉Libreoffice它必须使用哪个过滤器才能执行转换(请参阅)


另一种选择可能是使用

Hum。。。这与我使用的命令行相同,只是您没有添加输出文件名。HTML标记在转换后仍然在文件中,所以很抱歉,不好。另一个区别是在“txt”之后添加“:text”。这告诉LibreOffice使用“text”过滤器,它实际上负责删除HTML标记。至于输出文件名,它被LibreOffice忽略。它基本上采用源文件的名称,根据目标文件类型替换扩展名。我想我发现了一些东西,使用带有正则表达式的
sed
命令来剥离HTML文件的内容,而不是使用Libre Office。会知道它是否有效。
libreoffice4.2 --headless --convert-to txt:text 2000.html