Java 泰米尔电影评论的情感挖掘

Java 泰米尔电影评论的情感挖掘,java,Java,我正在尝试使用netbeans读取java中的泰米尔文本文件。我得到的输出只是空白的小盒子。 我的重点是我需要阅读泰米尔语文本文件,每个句子需要拆分为单词。下面给出了代码,请检查并给我建议如何获得它 package javaapplication6; import java.io.BufferedReader; import java.io.BufferedWriter; import java.io.File; import java.io.FileInputStream; import j

我正在尝试使用netbeans读取java中的泰米尔文本文件。我得到的输出只是空白的小盒子。 我的重点是我需要阅读泰米尔语文本文件,每个句子需要拆分为单词。下面给出了代码,请检查并给我建议如何获得它

package javaapplication6;

import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.FileWriter;
import java.io.IOException;
import java.io.InputStreamReader;
import java.lang.Character.UnicodeBlock;

class words {
    private static String[] words;
    private static String[] word;
    public boolean isTamil(String text){  
        boolean result = true;  
        UnicodeBlock tamilBlock = UnicodeBlock.forName("TAMIL");  
        for(int i=0; i<text.length(); i++){  
            UnicodeBlock charBlock = UnicodeBlock.of(text.charAt(i));  
            if(!tamilBlock.equals(charBlock)){  
               result = false;  
            }  
        }  
        return result;  
    }  
    public static void split (String[] query, String[] words) throws IOException {
    String s = "This is a sample sentence.";
    String[] word = s.split("\\s+");

    for (int i = 0; i < words.length; i++) {
    // You may want to check for a non-word character before blindly
    // performing a replacement
    // It may also be necessary to adjust the character class
       word[i] = word[i].replaceAll("", "");
    }   
}

public static void main(String[] args) throws FileNotFoundException, IOException {
        // TODO code application logic hereString fileName="W:/head.txt";
    FileInputStream fstream = new FileInputStream("W:/first.txt");
    BufferedReader br = new BufferedReader(new InputStreamReader(fstream));

    String strLine;

    //Read File Line By Line
    while ((strLine = br.readLine()) != null)   {
    // Print the content on the console
       split(word,words);
       System.out.println (strLine);
    }
    br.close();
}

}

这是因为这是一个字符编码问题。像IDE这样的Netbeans将使用默认的OS编码,因此它将打印框或其他funcky字符

可能的解决方案是将字符编码设置为UTF-8

如果尚未看到项目窗格,请打开“窗口>项目” 在树状视图中右键单击项目名称,然后单击 属性确保左侧的菜单项sources是 突出显示您应该看到编码:和它旁边的选择框。 单击“确定”


完成。

您遇到了什么问题?你试过什么?我试着把这个句子拼成单词,还试着读泰米尔语文本文件。但它显示多个空白框,并且不会拆分单词。将输入和输出添加到此处输入:அஜீத், தமன்னா, விதார்த், நாசர், சந்தானம், பாலா, அதுல் குல்கர்னி, பிரதீப் ராவத், முனீஷ், சோஹைல் ஒளிப்பதிவு - வெற்றி எடிட்டர் - மு காசி விஸ்வநாதன் வசனம் - சிவா, பரதன் தயாரிப்பு - விஜயா புரொடக்ஷன்ஸ் எழுத்து, இயக்கம் - சிவா தமிழ் சினிமாவின் எவர்கிரீன் வெற்றி ஃபார்முலாவான அண்ணன் - தம்பி பாசம், காதலை கமகம பொங்கல் மசாலாவாகத் தந்திருக்கிறார் இயக்குநர் சிவா.你在哪里定义单词?