获取和存储印地语输入文本文件中唯一单词的java代码

获取和存储印地语输入文本文件中唯一单词的java代码,java,string,hindi,Java,String,Hindi,我有一个包含大约30000个印地语单词的文本文件。我想从文件中提取一个唯一的单词,并将其保存为表格形式。 我正在用java尝试这一点,但我不确定如何实现这一点。 非常感谢您的帮助。我建议您使用一组字符串来存储字符串 优点是它不允许该值出现多次。这里有一个例子: Set<String> storage = new HashSet<String>; //use TreeSet<String> if you need to sort the values stora

我有一个包含大约30000个印地语单词的文本文件。我想从文件中提取一个唯一的单词,并将其保存为表格形式。 我正在用java尝试这一点,但我不确定如何实现这一点。
非常感谢您的帮助。

我建议您使用一组字符串来存储字符串

优点是它不允许该值出现多次。这里有一个例子:

Set<String> storage = new HashSet<String>; //use TreeSet<String> if you need to sort the values
storage.add("dog");
storage.add("cat");
storage.add("cat");

for(String name: set) {
  System.out.println(name); //Values are: dog, cat
}
Set存储=新哈希集//如果需要对值进行排序,请使用TreeSet
储存。添加(“狗”);
储存。添加(“cat”);
储存。添加(“cat”);
for(字符串名称:set){
System.out.println(name);//值为:dog、cat
}
您可以像这样读取文件:


基本上,您可以使用“,”将其保存为纯文本,并将文件保存为csv。然后您可以轻松地将其导入excel

是否有特定原因导致这30000个单词不在数据库中?如何定义需要查找的唯一单词?使用正则表达式?在不包括重复单词的意义上的唯一单词。一个单词只需出现一次就可以在表中提取和保存。原因是我必须区分文件中的停止词、词根词和屈折词。因此,在30000个单词中,基本上有15000个单词(没有双条目)需要以表格形式保存,对吗?关于表格形式,它是显示在gui中还是保存在excel表格中,或者它背后的思想是什么?每个新词是否在新行上,或者它们是如何分开的?例如,在下面的38个单词中,是否有n个唯一的单词是没有重复的单词总数,即30个。हालाँकि सूर के जीवन के बारे में कई जनश्रुतियाँ प्रचलित हैं, पर इन में कितनी सच्चाई है यह कहना कठिन है। कहा जाता है उनका जन्म सन् १४७८ में दिल्ली के पास एक ग़रीब ब्राह्मीण परिवार में हुआ। 预期输出为1。हालाँकि 2.सूर 3.के 4.जीवन 5.बारे 6.में 7.कई 8.ज.नश्रुतियाँ 9प्रचलित 10हैं 11पर 12इन 13कितनी 14सच्चाई 15यह 16कहना 17कठिन 18कहा 19जाता 20उनका 21जन्म word保存在文件中,应忽略它,而不考虑它。