在R中把一个字符分成多个句子

在R中把一个字符分成多个句子,r,text,extract,R,Text,Extract,我提取了一个字符,如下所示: "Grondtrekken van het Nederlandse strafrecht vanaf € 16.95

我提取了一个字符,如下所示:

"Grondtrekken van het Nederlandse strafrecht                                                                 vanaf € 16.95                                                                                                                                                                        Praktisch bestuursrecht                                                                 vanaf € 22.45                                                                                                                                                                        Basisboek bedrijfseconomie                                                                 vanaf € 24.95                                                                                                                                                                        Basisboek Bedrijfseconomie                                                                 vanaf € 70.90                                                             ... <truncated>
"荷兰施特拉夫雷赫特酒店(Grondtrekken van het Nederlandse strafrecht vanaf)16.95欧元vanaf 22.45欧元巴西伯克贝德里夫经济vanaf 24.95欧元Basisboek Bedrijfseconomie vanaf 70.90欧元。。。
我想提取句子和价格,这样我就可以得到如下形式的data.frame: Name=“Grondtrekken van het Nederlandse strafrecht”价格=16.95

Name=“Praktisch bestuursrecht”价格=22.45

等等


我在分句方面有问题。我尝试使用gsub,但无法获得所需的结果。

下面是一个使用
stringr
包操纵字符串的解决方案

  • 在价格后拆分字符串以创建数据向量
  • 提取价格之前的内容(vanaf之前的
    vanaf
  • 使用带有
    \\d
  • string[1]“Grondtrekken van het Nederlandse strafrecht vanaf\200 16.95”
    #>[2]“Praktisch bestuursrecht vanaf\200 22.45”
    #>[3]“Basisboek bedrijfseconomie vanaf\200 24.95”
    #>[4]“Basisboek Bedrijfseconomie vanaf\200 70.90”
    数据帧(
    #提取vanaf之前的内容
    Name=str_extract(vec,“.*(=vanaf)”)%>%str_trim(),
    #提取价格
    Price=str\u extract(vec,“\\d+(\\.\\d+)”)%>%as.numeric()
    )
    #>标价
    #>荷兰斯特拉弗雷赫特格罗德特雷肯湾1号16.95
    #>2 Praktisch bestuursrecht 22.45
    #>3 Basisboek bedrijfseconomie 24.95
    #>4 Basisboek Bedrijfseconomie 70.90
    

    由(v0.2.1)于2018年11月4日创建

    您的价格数据来源是什么?您提供的示例数据似乎不包含此内容。如果向右滚动,您将看到价格(欧元),问题是它们之间有很大的空间,请格式化您的数据,以便我们可以阅读。我们不必为您这样做。因此,在一句话之后,有一个很大的空白,后面跟着“vanaf€XX,XX”,这几乎可以做到这一点,但现在似乎每行的价格都是相同的。