在R中编辑CSV列数据

在R中编辑CSV列数据,r,csv,R,Csv,我在CSV上有一个专栏,专门介绍文学作品的作者。它们以国会图书馆的标准格式输入:LastName FirstName birth year death year。但也有例外,尤其是女性姓名和未知日期 因此,“作者”列可能包含如下条目: Pope Alexander 1688-1744 Barbauld Mrs. (Anna Laetitia) 1743-1825 Aylett Robert 1583-1655? Higden Ranulf d. 1364. 我想做的是在向量中只分离出作者的名字

我在CSV上有一个专栏,专门介绍文学作品的作者。它们以国会图书馆的标准格式输入:LastName FirstName birth year death year。但也有例外,尤其是女性姓名和未知日期

因此,“作者”列可能包含如下条目:

Pope Alexander 1688-1744
Barbauld Mrs. (Anna Laetitia) 1743-1825
Aylett Robert 1583-1655?
Higden Ranulf d. 1364.
我想做的是在向量中只分离出作者的名字。作为一名初学者,我对R中数据的预处理/准备阶段仍然有点粗糙,当在a)多个实例和b)有几个必须考虑的例外情况时,当试图减少文本时,我不知所措


如有任何帮助或建议,将不胜感激

因此,逗号将导致
LastName
分隔为一个新列。
FirstName
可以使用
strsplit
从日期中拆分,您将包含
FirstName
和日期的向量交给它,然后根据空格字符进行拆分。例如,strsplit(x,“.”)会在每个空格后分割向量
x
Alexander
和其他名字后真的没有逗号吗?不幸的是,没有。再次访问csv,似乎姓氏之间甚至没有逗号(我相应地编辑了示例)。我想,这是因为CSV不会像Tad Dallas假设的那样将姓氏和名字分开。考虑到人们拥有和允许拥有的姓名数量,人们全名的长度和数量实际上是不可能标准化的,等等。