Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/java/373.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Java中的文本处理_Java_Opennlp - Fatal编程技术网

Java中的文本处理

Java中的文本处理,java,opennlp,Java,Opennlp,现在这是一个棘手的问题,我无法找到一个好的解决方案。假设我们在Java中有一个字符串:-“他今天吃了3个苹果。”现在可以使用isNumeric函数或正则表达式在Java中轻松识别数字3。但是如果我有一个字符串,比如:“他今天吃了三个苹果。”?我怎样才能确定三实际上是一个数字?我使用OpenNlp并使用它的POS标记器,但它花费的时间实在太多了!有谁能提出更好的解决方案吗?在OpenNlp的“.bin”中,还有一个文件——“num.bin”,但我不知道如何使用这个文件。OpenNlp文档也没有提到

现在这是一个棘手的问题,我无法找到一个好的解决方案。假设我们在Java中有一个字符串:-“他今天吃了3个苹果。”现在可以使用isNumeric函数或正则表达式在Java中轻松识别数字3。但是如果我有一个字符串,比如:“他今天吃了三个苹果。”?我怎样才能确定三实际上是一个数字?我使用OpenNlp并使用它的POS标记器,但它花费的时间实在太多了!有谁能提出更好的解决方案吗?在OpenNlp的“.bin”中,还有一个文件——“num.bin”,但我不知道如何使用这个文件。OpenNlp文档也没有提到它。谁能告诉我这是否正是我一直在寻找的,如果是的话,那么如何使用它

/************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************/
实际上我在这里时间不多,所以我在这里找到了一个临时解决办法。制作一个文件/字典,并将所有条目放入哈希表中。然后我会标记我的句子,逐字检查数字,就像你们建议的一样。我会在需要时不断更新文件。谢谢你们宝贵的建议,伙计们,如果你们有比这更好的建议,我真的很高兴。OpenNlp以一种非常好的方式实现了这一点,唯一的问题是时间复杂度,我想在尽可能短的时间内做到这一点。

创建一个数字字典。在文本中搜索该词典中的元素


检查重要性复杂性,首先对文本进行排序可能会更便宜。

您必须将所有单词保留在数组中,然后使用它。是一个如何将数字转换为字符串的示例。它可能会帮助你。。。我认为你必须把你的文字分成几个字,然后检查一个字是否是一个数字(三)。如果是,检查下一个单词,因为它可以说“百万”,然后检查下一个单词,依此类推。这不容易,看起来像一个小图书馆。我想你会花很多时间写这篇文章。或者尝试在谷歌上搜索这样的图书馆。也许有人已经遇到了这个问题,写了一个库并免费分享了它。)祝你好运。

你需要只检测数字,而且只检测英语吗?如果是的话,我认为你不需要一些图书馆。手工书写会容易得多。是的……只写数字……但任何类型的数字、小数、分数、百分比、足球分数(如3-1)都应该被检测出来……只写英语……是的,这是可能的,但字典会变得多大?文本,如百、四十三、五十等等……我必须在字典中添加所有可能的单词……而不是字典,使用加权方向图。