Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/java/308.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Java ApacheUIMA解析多语言内容_Java_Regex_Unicode_Multilingual_Uima - Fatal编程技术网

Java ApacheUIMA解析多语言内容

Java ApacheUIMA解析多语言内容,java,regex,unicode,multilingual,uima,Java,Regex,Unicode,Multilingual,Uima,我正在尝试解析非英语语言的内容,如韩语、汉语等。 UIMA是否有任何内置支持。我无法在ApacheUIMA门户中获得关于这方面的很多信息。 我所能想到的只是unicode正则表达式模式,但即使是出于某种原因,这些模式也似乎不起作用。我的带有unicode字符的正则表达式模式没有注释我需要的单词 Am使用JDK1.7、UIMA 2.4.2 非常感谢您的任何帮助或建议 下面是我正在尝试的一个例子 Text:Numéro de réservation 445566553代码[此文本位于我正在使用Fil

我正在尝试解析非英语语言的内容,如韩语、汉语等。 UIMA是否有任何内置支持。我无法在ApacheUIMA门户中获得关于这方面的很多信息。 我所能想到的只是unicode正则表达式模式,但即使是出于某种原因,这些模式也似乎不起作用。我的带有unicode字符的正则表达式模式没有注释我需要的单词

Am使用JDK1.7、UIMA 2.4.2

非常感谢您的任何帮助或建议

下面是我正在尝试的一个例子

Text:Numéro de réservation 445566553代码[此文本位于我正在使用FileSystemCollectionReader读取的文件中,我已将编码设置为UTF-8]


我的正则表达式(?我不确定您遇到的问题是否与uima有关,但在使用纯java时,您发布的正则表达式对我来说似乎很好。我使用的是java 1.7.0_45。我稍微修改了您的正则表达式,以允许在数字周围有多个空格。下面是一个SSCCE,运行时输出是
'44566553'

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegexExample {
    public static void main(String[] args) {
        String test = "Numéro de réservation   445566553 \tCode";
        Pattern pattern = Pattern.compile("(?<=Num\\u00E9ro\\sde\\sr\\u00E9servation)\\s+(.*?)\\s+(?=Code)");
        Matcher matcher = pattern.matcher(test);
        while(matcher.find()) {
            System.out.println("'"+matcher.group(1)+"'");
        }
    }
}
import java.util.regex.Matcher;
导入java.util.regex.Pattern;
公共类regexample{
公共静态void main(字符串[]args){
String test=“Numéro de réservation 445566553\t代码”;

Pattern Pattern=Pattern.compile(“(?发布您正在使用的正则表达式,您正在解析的文本,并突出显示您要提取的短语或单词谢谢您的解决方案。我发现我正在使用的文件没有保存为UTF-8格式。我现在可以使用了。再次感谢