在R中进行文本挖掘时忽略\n 介绍_R_Regex_Text Mining

在R中进行文本挖掘时忽略\n 介绍

r regex

在R中进行文本挖掘时忽略\n 介绍,r,regex,text-mining,R,Regex,Text Mining,我试图从通过webscraping获得的一个大字符串填充一个数据表。我打算使用某种模式作为参考，将大块文本分解为小块。我将从这些较小的位创建变量，这些变量将进入数据表的列中。给你们一些背景：我想了解一下，当每一项法案都受到赞赏时，巴西国会下议院的议员们是如何投票的样本结果每个部分都应该是这样的： “1955年5月5年5月10-10/02/2015年10/02/2015\N\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\

我试图从通过webscraping获得的一个大字符串填充一个数据表。我打算使用某种模式作为参考，将大块文本分解为小块。我将从这些较小的位创建变量，这些变量将进入数据表的列中。给你们一些背景：我想了解一下，当每一项法案都受到赞赏时，巴西国会下议院的议员们是如何投票的

样本结果每个部分都应该是这样的：

为了让您能够理解我将要向您展示的模式，以及我用来传递str_extract_all的模式，大字符串如下所示：

2009年10月-2015年2月10日

方法代码应该使用str_extract_all（html，“SESSÃO.*（？=SESSÃO）”）来提取两个“SESSÃO”之间的文本（html是大字符串）。但是，如果我像那样使用代码，R将返回一个空列表

我知道换行符（\n）是造成问题的原因，因为我可以通过将str\u replace\u all应用于html，并以“\n”作为模式，以“”作为替换，从主文本中删除\n，从而获得与上面所示非常相似的结果。然后我调用了结果html1，并使用x=html1而不是x=html和相同的模式运行str_extract

问题: 所以我的问题是：我能告诉str\u extract\u all忽略\n吗？如果没有，有没有其他方法可以解决这个问题？我不想删除\n，因为当进一步分解更小的字符串时，它们可能会派上用场

附加样本串根据andrew_reece的要求，这是示例字符串的扩展版本：

“1955年5月5年5月10-10/02/2015年10/02/2015\N\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t t\t\t\t\t\t\t\t\t\N\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\N\t\t\t\t\t\t\t\\t\t\t\t\t\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \t\t\t\t\t\t\t\t\ \ \ \ \ \ \ \ \t\t\t\t\t\t\t\t\t\t\t\t\t\t\\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\n\t\t\t\t\t\t\t\t\t\t\t\t\\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \\t\t\t\t\t\t\t\t\t\t\n\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t第009-2015年10月10 10/02/2015年10月10\10\10\10\2015年10\10\10\10\10\10\10\10\10\10\10\10\10\10\10\10\10\10\10\10\10\10\10\15\10\10\10\10\10\10\10\10\10\10\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\\\\n\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\n\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\N\N\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\N\t\t\t\t\t\t\t\t\t\N\t\t\t\t\t\t\t\t\t\t\t\t\tSim\\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \t\t\t\n\t\t\t\t\t\t\t\t\t PEC编号：358/2013\n\t\t\t\t\t\t\t\t\t\t-DVS-PSOL-ART。1:2：1:2：1:2：1:2：1:2：1:2：1:2：1:2：1:2：1:2：1:2：1:2：1:2：1:2：1:2：1:1：1:1：1:3：1:3：1:3：1:3：1:2：2：1:2：1:3：1:3：1:3：1:3：1:3：1：1:3:3：1:3：1:3：1：1:3：1：3：3：3：3：3：3：3：3：3：3：3：3：3：3：3：3：3：3：3：3：3：3：3：3：3：3：3：3：3：3：3：3：3：3：3：3：3：3：3：3：3：3：3：3：3：3：3：3：3：3：3：3\t\t\t\t\t\tSim\\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \\t\t\t\t\t\t\t\t\t\t\n\t\t\t\t\t\t\t\t\t\t\n\t\t\t\t\t\t\t\t\t\t\t

期望结果列表中包含以下元素：

[1]

[2]

塞斯奥

str_extract_all(html, regex("SESSÃO.*?(?=SESSÃO|$)", dotall = TRUE))