如何在java正则表达式中从word文档中删除单元格结尾特殊字符

如何在java正则表达式中从word文档中删除单元格结尾特殊字符,java,regex,Java,Regex,我正在从Microsoft word文档(.doc)中的表中提取数据 数据提取很好,但在每个提取值(来自每个单元格)的末尾有一个不可打印的^G字符,这严重干扰了进一步的处理。我只能在将控制台输出粘贴到文本编辑器(TextMate)中时看到这一点 使用正则表达式删除此项的最佳方法是什么。这是unicode字符吗?我找不到^G不可打印字符的任何引用。我认为这是一个结束的细胞特征。老实说,我宁愿摆脱所有不可打印的字符,但目前这是唯一一个导致我的任何问题,所以任何解决方案都可以 老实说,我宁愿去掉所有不

我正在从Microsoft word文档(.doc)中的表中提取数据

数据提取很好,但在每个提取值(来自每个单元格)的末尾有一个不可打印的^G字符,这严重干扰了进一步的处理。我只能在将控制台输出粘贴到文本编辑器(TextMate)中时看到这一点

使用正则表达式删除此项的最佳方法是什么。这是unicode字符吗?我找不到^G不可打印字符的任何引用。我认为这是一个结束的细胞特征。老实说,我宁愿摆脱所有不可打印的字符,但目前这是唯一一个导致我的任何问题,所以任何解决方案都可以

老实说,我宁愿去掉所有不可打印的字符

您可以使用:

input = input.replaceAll("\\P{Print}", "");
在Java中删除所有不可打印的字符


(包括Unicode字符)和
\p{Print}
通过匹配所有不可打印的字符来执行相反的操作。

您可以使用:
input=input.replaceAll(“\\p{Print},”)删除所有不可打印字符。
7 07 Alt-7 Ctrl-G^G
-源ascii表请参见