斯坦福主题建模工具箱中的读取CSV错误_Csv_Nlp_Stanford Nlp_Topic Modeling

斯坦福主题建模工具箱中的读取CSV错误

csv nlp stanford-nlp

斯坦福主题建模工具箱中的读取CSV错误,csv,nlp,stanford-nlp,topic-modeling,Csv,Nlp,Stanford Nlp,Topic Modeling,我正在尝试使用斯坦福主题建模工具箱（TMT）来尝试主题建模[0]。我是Scala初学者。但是，我似乎无法通过读取CSV文件来准备数据集。这是我的密码 import scalanlp.io._; val source = CSVFile("pubmed-oa-subset.csv") ~> IDColumn(1); println(source.data.size); 这会引发以下错误 Stanford TMT\example-0-test.scala:6: error: not fo

我正在尝试使用斯坦福主题建模工具箱（TMT）来尝试主题建模[0]。我是Scala初学者。但是，我似乎无法通过读取CSV文件来准备数据集。这是我的密码

import scalanlp.io._;

val source = CSVFile("pubmed-oa-subset.csv") ~> IDColumn(1);

println(source.data.size);

这会引发以下错误

Stanford TMT\example-0-test.scala:6: error: not found: value IDColumn
val source = CSVFile("pubmed-oa-subset.csv") ~> IDColumn(1);

类似地，我在其他数据预处理函数（如标记器）上也会出现错误。这是密码

// Stanford TMT Example 0 - Basic data loading
// http://nlp.stanford.edu/software/tmt/0.4/


import scalanlp.io._;
val source = CSVFile("pubmed-oa-subset.csv") ;
println(source.data.size);

val tokenizer = {
  SimpleEnglishTokenizer()
 }

下面是针对上述代码收到的错误

error: not found: value SimpleEnglishTokenizer
  SimpleEnglishTokenizer()

我使用的CSV文件与TMT主页上给出的相同[1]。此外，脚本和数据位于同一文件夹中

问题是什么？我无法从TMT主页运行完全相同的测试示例

[0]

[1]

我在运行演示时遇到了一个问题，但它与您的不同。我的问题是由CSV文件（）中的乱七八糟的字符引起的。我在editer中以UTF-8的形式打开CSV文件，并替换不可读的字符（它们表示为相同的符号），它运行正常

您的问题似乎是缺少类文件或CSV文件格式错误。我不确定。但您可以尝试我的解决方案，我认为从主页下载CSV文件时，乱码是一个常见问题。或者您可以检查可执行jar文件或CSV文件的完整性

如果上述解决方案不起作用，您可以在斯坦福java nlp邮件列表中询问。