斯坦福主题建模工具箱中的读取CSV错误

斯坦福主题建模工具箱中的读取CSV错误,csv,nlp,stanford-nlp,topic-modeling,Csv,Nlp,Stanford Nlp,Topic Modeling,我正在尝试使用斯坦福主题建模工具箱(TMT)来尝试主题建模[0]。我是Scala初学者。但是,我似乎无法通过读取CSV文件来准备数据集。这是我的密码 import scalanlp.io._; val source = CSVFile("pubmed-oa-subset.csv") ~> IDColumn(1); println(source.data.size); 这会引发以下错误 Stanford TMT\example-0-test.scala:6: error: not fo

我正在尝试使用斯坦福主题建模工具箱(TMT)来尝试主题建模[0]。我是Scala初学者。但是,我似乎无法通过读取CSV文件来准备数据集。这是我的密码

import scalanlp.io._;

val source = CSVFile("pubmed-oa-subset.csv") ~> IDColumn(1);

println(source.data.size);
这会引发以下错误

Stanford TMT\example-0-test.scala:6: error: not found: value IDColumn
val source = CSVFile("pubmed-oa-subset.csv") ~> IDColumn(1);
类似地,我在其他数据预处理函数(如标记器)上也会出现错误。这是密码

// Stanford TMT Example 0 - Basic data loading
// http://nlp.stanford.edu/software/tmt/0.4/


import scalanlp.io._;
val source = CSVFile("pubmed-oa-subset.csv") ;
println(source.data.size);

val tokenizer = {
  SimpleEnglishTokenizer()
 }
下面是针对上述代码收到的错误

error: not found: value SimpleEnglishTokenizer
  SimpleEnglishTokenizer()
我使用的CSV文件与TMT主页上给出的相同[1]。此外,脚本和数据位于同一文件夹中

问题是什么?我无法从TMT主页运行完全相同的测试示例

[0]


[1]

我在运行演示时遇到了一个问题,但它与您的不同。我的问题是由CSV文件()中的乱七八糟的字符引起的。我在editer中以UTF-8的形式打开CSV文件,并替换不可读的字符(它们表示为相同的符号),它运行正常

您的问题似乎是缺少类文件或CSV文件格式错误。我不确定。但您可以尝试我的解决方案,我认为从主页下载CSV文件时,乱码是一个常见问题。或者您可以检查可执行jar文件或CSV文件的完整性

如果上述解决方案不起作用,您可以在斯坦福java nlp邮件列表中询问。