在R中把一个字符分成多个句子
我提取了一个字符,如下所示:在R中把一个字符分成多个句子,r,text,extract,R,Text,Extract,我提取了一个字符,如下所示: "Grondtrekken van het Nederlandse strafrecht vanaf € 16.95
"Grondtrekken van het Nederlandse strafrecht vanaf € 16.95 Praktisch bestuursrecht vanaf € 22.45 Basisboek bedrijfseconomie vanaf € 24.95 Basisboek Bedrijfseconomie vanaf € 70.90 ... <truncated>
"荷兰施特拉夫雷赫特酒店(Grondtrekken van het Nederlandse strafrecht vanaf)16.95欧元vanaf 22.45欧元巴西伯克贝德里夫经济vanaf 24.95欧元Basisboek Bedrijfseconomie vanaf 70.90欧元。。。
我想提取句子和价格,这样我就可以得到如下形式的data.frame:
Name=“Grondtrekken van het Nederlandse strafrecht”价格=16.95
Name=“Praktisch bestuursrecht”价格=22.45
等等
我在分句方面有问题。我尝试使用gsub,但无法获得所需的结果。下面是一个使用
stringr
包操纵字符串的解决方案
vanaf
)\\d
string[1]“Grondtrekken van het Nederlandse strafrecht vanaf\200 16.95”
#>[2]“Praktisch bestuursrecht vanaf\200 22.45”
#>[3]“Basisboek bedrijfseconomie vanaf\200 24.95”
#>[4]“Basisboek Bedrijfseconomie vanaf\200 70.90”
数据帧(
#提取vanaf之前的内容
Name=str_extract(vec,“.*(=vanaf)”)%>%str_trim(),
#提取价格
Price=str\u extract(vec,“\\d+(\\.\\d+)”)%>%as.numeric()
)
#>标价
#>荷兰斯特拉弗雷赫特格罗德特雷肯湾1号16.95
#>2 Praktisch bestuursrecht 22.45
#>3 Basisboek bedrijfseconomie 24.95
#>4 Basisboek Bedrijfseconomie 70.90
由(v0.2.1)于2018年11月4日创建您的价格数据来源是什么?您提供的示例数据似乎不包含此内容。如果向右滚动,您将看到价格(欧元),问题是它们之间有很大的空间,请格式化您的数据,以便我们可以阅读。我们不必为您这样做。因此,在一句话之后,有一个很大的空白,后面跟着“vanaf€XX,XX”,这几乎可以做到这一点,但现在似乎每行的价格都是相同的。