Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/heroku/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
String 在R中子集HTML字符串以删除日期_String_R_Date_Subset - Fatal编程技术网

String 在R中子集HTML字符串以删除日期

String 在R中子集HTML字符串以删除日期,string,r,date,subset,String,R,Date,Subset,我试图从一个.txt文件中的字符行中提取日期,这个文件是我从网上抓取的;日期总是在同一行,后跟相同的HTML,但是日期本身会随着每个文本的变化而变化。下面演示两个.txt文件中的代码示例 "17" <div align=\\center\\><br /><font face=\\Times New Roman\\ size=\\3\\><b>Tuesday, 3 February 2009</b></font>

我试图从一个.txt文件中的字符行中提取日期,这个文件是我从网上抓取的;日期总是在同一行,后跟相同的HTML,但是日期本身会随着每个文本的变化而变化。下面演示两个.txt文件中的代码示例

"17"        <div align=\\center\\><br /><font face=\\Times New Roman\\ size=\\3\\><b>Tuesday, 3 February 2009</b></font>
"17"    "<div align=\"center\"><br /><font face=\"Times New Roman\" size=\"3\"><b>Tuesday, 10 February 2009</b></font>"
2009年2月3日,星期二 “17”“2009年2月10日,星期二”
xpathsaply()不起作用,因为我将它们作为一个.txt文件导入R,该文件以字符形式读取;有没有关于如何最好地提取它的想法?谢谢

这有点傻,但是如果标签
在数据中只出现一次,那么它就可以工作

如果不是这样,您可以尝试更改以下下标:

x <- "<div align=\\center\\><br /><font face=\\Times New Roman\\ size=\\3\\><b>Tuesday, 3 February 2009</b></font>"

strsplit(strsplit(x, "<b>")[[1]][2], "</b>")[[1]][1]

x谢谢,这太棒了。我对代码有点不熟悉,但是有没有一种方法可以在不出错的情况下使用引号完整地输入代码;该行以“\”17\“\t\”开头,这对我来说是有效的,
x也有效,应该足够了;我希望使代码更具体一点,这样当它查看一个长文本文档时,它仍然能够通过从“\”17\“\t\”开始的更具体的布局来识别日期
sapply(strsplit(sapply(strsplit(x, "<b>"), function(y) y[2]), "</b>"), function(y) y[1])