无法从R中的XML读取语料库，因为XML文件中存在意外标记_Xml_R_Parsing

无法从R中的XML读取语料库，因为XML文件中存在意外标记

xml r parsing

无法从R中的XML读取语料库，因为XML文件中存在意外标记,xml,r,parsing,Xml,R,Parsing,这是我遇到错误的代码片段： myXMLReader <- readXML( spec = list(Content = list("node", "/DOC/TEXT"), ID = list("node", "/DOC/DOCNO")), doc = PlainTextDocument()) corpusF <- paste(basepath,"corpus",sep="") myCorpus <- Corpus(DirSource(cor

这是我遇到错误的代码片段：

myXMLReader <- readXML(
  spec = list(Content = list("node", "/DOC/TEXT"),
              ID = list("node", "/DOC/DOCNO")),
  doc = PlainTextDocument())
corpusF <- paste(basepath,"corpus",sep="")
myCorpus <- Corpus(DirSource(corpusF),readerControl = list(reader = myXMLReader))

实际上，我在这里尝试读取XML文件。当我在Mac上运行相同的代码时，它运行得非常完美，但我在Ubuntu中遇到了这个错误。到目前为止，我已经了解到：如果我读取导致错误的XML文件并将其转换为文本文件，在很少的地方会出现空白，而不是出现空格M，这就是为什么R告诉我们标记中存在过早结束的数据。

我的问题是，为什么同一个代码能够正确读取XML文件，而另一个不能，以及如何解决这个问题？这是否与环境的语言以及如何在该环境中读取XML文件有关？

听起来可能是与文件编码有关的问题。“M-”很可能表示两个系统之间有一条不同的线路。这真的是一个老苹果吗？由于OSX，Mac和linux机器之间的文件结尾通常很好；通常当你在Windows和Mac/linux之间移动文件时，你会遇到问题。我有一个全新的Mac。为了清楚起见：1）我正在处理一个在线可用的标准数据集（所有XML文件），因此没有移动文件的问题。2）我在mac和两个ubuntu系统上运行了代码。在一个Ubuntu系统中，我得到了上述错误，而在另一个系统中，以及在我的mac中，代码运行良好。我将XML文件转换为文本文件，只是为了检查文件中是否有任何在XML格式中不可见的特殊字符；我读的不是txt文件，而是.xml文件。

Error: 1: Opening and ending tag mismatch: a0 line 5 and TEXT
2: Opening and ending tag mismatch: a0 line 5 and DOC
3: Premature end of data in tag a0 line 5
4: Premature end of data in tag a0 line 5
5: Premature end of data in tag TEXT line 4
6: Premature end of data in tag DOC line 2