无法从R中的XML读取语料库,因为XML文件中存在意外标记

无法从R中的XML读取语料库,因为XML文件中存在意外标记,xml,r,parsing,Xml,R,Parsing,这是我遇到错误的代码片段: myXMLReader <- readXML( spec = list(Content = list("node", "/DOC/TEXT"), ID = list("node", "/DOC/DOCNO")), doc = PlainTextDocument()) corpusF <- paste(basepath,"corpus",sep="") myCorpus <- Corpus(DirSource(cor

这是我遇到错误的代码片段:

myXMLReader <- readXML(
  spec = list(Content = list("node", "/DOC/TEXT"),
              ID = list("node", "/DOC/DOCNO")),
  doc = PlainTextDocument())
corpusF <- paste(basepath,"corpus",sep="")
myCorpus <- Corpus(DirSource(corpusF),readerControl = list(reader = myXMLReader))
实际上,我在这里尝试读取XML文件。当我在Mac上运行相同的代码时,它运行得非常完美,但我在Ubuntu中遇到了这个错误。 到目前为止,我已经了解到:如果我读取导致错误的XML文件并将其转换为文本文件,在很少的地方会出现空白,而不是出现空格M,这就是为什么R告诉我们标记中存在过早结束的数据。
我的问题是,为什么同一个代码能够正确读取XML文件,而另一个不能,以及如何解决这个问题?这是否与环境的语言以及如何在该环境中读取XML文件有关?

听起来可能是与文件编码有关的问题。“M-”很可能表示两个系统之间有一条不同的线路。这真的是一个老苹果吗?由于OSX,Mac和linux机器之间的文件结尾通常很好;通常当你在Windows和Mac/linux之间移动文件时,你会遇到问题。我有一个全新的Mac。为了清楚起见:1)我正在处理一个在线可用的标准数据集(所有XML文件),因此没有移动文件的问题。2) 我在mac和两个ubuntu系统上运行了代码。在一个Ubuntu系统中,我得到了上述错误,而在另一个系统中,以及在我的mac中,代码运行良好。我将XML文件转换为文本文件,只是为了检查文件中是否有任何在XML格式中不可见的特殊字符;我读的不是txt文件,而是.xml文件。
Error: 1: Opening and ending tag mismatch: a0 line 5 and TEXT
2: Opening and ending tag mismatch: a0 line 5 and DOC
3: Premature end of data in tag a0 line 5
4: Premature end of data in tag a0 line 5
5: Premature end of data in tag TEXT line 4
6: Premature end of data in tag DOC line 2