在R中把一个字符分成多个句子_R_Text_Extract

在R中把一个字符分成多个句子

r text

在R中把一个字符分成多个句子,r,text,extract,R,Text,Extract,我提取了一个字符，如下所示： "Grondtrekken van het Nederlandse strafrecht vanaf € 16.95

我提取了一个字符，如下所示：

"Grondtrekken van het Nederlandse strafrecht                                                                 vanaf € 16.95                                                                                                                                                                        Praktisch bestuursrecht                                                                 vanaf € 22.45                                                                                                                                                                        Basisboek bedrijfseconomie                                                                 vanaf € 24.95                                                                                                                                                                        Basisboek Bedrijfseconomie                                                                 vanaf € 70.90                                                             ... <truncated>

"荷兰施特拉夫雷赫特酒店（Grondtrekken van het Nederlandse strafrecht vanaf）16.95欧元vanaf 22.45欧元巴西伯克贝德里夫经济vanaf 24.95欧元Basisboek Bedrijfseconomie vanaf 70.90欧元。。。

我想提取句子和价格，这样我就可以得到如下形式的data.frame： Name=“Grondtrekken van het Nederlandse strafrecht”价格=16.95

Name=“Praktisch bestuursrecht”价格=22.45

等等

我在分句方面有问题。我尝试使用gsub，但无法获得所需的结果。

下面是一个使用

stringr

包操纵字符串的解决方案

在价格后拆分字符串以创建数据向量

提取价格之前的内容（vanaf之前的

vanaf

）

使用带有

\\d

string[1]“Grondtrekken van het Nederlandse strafrecht vanaf\200 16.95”
#>[2]“Praktisch bestuursrecht vanaf\200 22.45”
#>[3]“Basisboek bedrijfseconomie vanaf\200 24.95”
#>[4]“Basisboek Bedrijfseconomie vanaf\200 70.90”
数据帧(
#提取vanaf之前的内容
Name=str_extract（vec，“.*（=vanaf）”）%>%str_trim（），
#提取价格
Price=str\u extract（vec，“\\d+（\\.\\d+）”）%>%as.numeric（）
)
#>标价
#>荷兰斯特拉弗雷赫特格罗德特雷肯湾1号16.95
#>2 Praktisch bestuursrecht 22.45
#>3 Basisboek bedrijfseconomie 24.95
#>4 Basisboek Bedrijfseconomie 70.90

由（v0.2.1）于2018年11月4日创建

您的价格数据来源是什么？您提供的示例数据似乎不包含此内容。如果向右滚动，您将看到价格（欧元），问题是它们之间有很大的空间，请格式化您的数据，以便我们可以阅读。我们不必为您这样做。因此，在一句话之后，有一个很大的空白，后面跟着“vanaf€XX，XX”，这几乎可以做到这一点，但现在似乎每行的价格都是相同的。