使用R和cSplit()将文本拆分为单词

使用R和cSplit()将文本拆分为单词,r,splitstackshape,R,Splitstackshape,我试着将一系列的句子分割成单独的单词,也就是说,标记文本 我发现一个R包splitstackshape可以做我想做的事情,几乎。。。它将输出截断为第一行和最后5行 无论如何,这就是我需要做的: id text 1 Lorem ipsum dolor sit amet 2 consectetur adipiscing elit 3 Donec euismod enim quis 4 nunc fringilla sodales 5 Etiam tempor ligula vitae 6 pel

我试着将一系列的句子分割成单独的单词,也就是说,标记文本

我发现一个R包
splitstackshape
可以做我想做的事情,几乎。。。它将输出截断为第一行和最后5行

无论如何,这就是我需要做的:

id text
1 Lorem ipsum dolor sit amet
2 consectetur adipiscing elit
3 Donec euismod enim quis 
4 nunc fringilla sodales
5 Etiam tempor ligula vitae 
6 pellentesque dictum
7 Quisque non justo scelerisque 
8 est facilisis congue quis vel
9 Phasellus ex lorem
10 eleifend at magna vel
11 egestas eleifend massa
输出:

id word
1 Lorem
1 ipsum
1 dolor
1 sit
1 amet
2 consectetur
2 adipiscing
...
也就是说,我需要在单独的行中使用单词,但要在它所属的句子ID旁边加上

我正在尝试cSplit(数据,“文本”,“长”),但它会截断



更新。仅供参考,是如何进行反向操作。
cSplit
函数返回一个
数据。表

您所描述的是
data.table
s的默认打印行为。要查看此操作,请尝试以下操作:

library(data.table)
as.data.table(airquality)
print(as.data.table(airquality))

print(as.data.table(airquality), nrows = Inf)
因此,要显示完整的表格,您可以尝试:

library(splitstackshape)
print(cSplit(data, "text", " ", "long"), nrows = Inf)

“它截断”是什么意思?它正是您想要的工作,提醒您它是一个data.table作为输出,如果需要,您可以将其转换为data.frame。这只是“data.table”的显示输出……现在,当我了解到输出是data.table时,我可以轻松地将其转换回data.frame。