如何从r中div类内的锚定标记中提取文本
我正在尝试从锚定标记中提取文本,锚定标记嵌入在div标记中。以下是网站的链接` 我想提取的文本是如何从r中div类内的锚定标记中提取文本,r,R,我正在尝试从锚定标记中提取文本,锚定标记嵌入在div标记中。以下是网站的链接` 我想提取的文本是Mawana Sugars <a href="/forum-topics/stocks/mawana-sugars-245010.html" class="op_bld16 anch_pb7">Mawana Sugars</a> 所以我想提取这个网站上列出的所有股票名称和描述 下面是我在R中的尝试 doc <- htmlParse("http://mmb.money
Mawana Sugars
<a href="/forum-topics/stocks/mawana-sugars-245010.html" class="op_bld16 anch_pb7">Mawana Sugars</a>
所以我想提取这个网站上列出的所有股票名称和描述
下面是我在R中的尝试
doc <- htmlParse("http://mmb.moneycontrol.com/forum-topics/stocks-1.html")
xpathSApply(doc,"//div[@class='clearfix PR PB5']//text()",xmlValue)
doc我的答案与我刚才给出的答案基本相同
数据是动态加载的,不能直接从html中检索。但是,以ChromeDevTools中的“网络”为例,我们可以在
要开始,请执行以下操作:
library(jsonlite)
dat <- fromJSON("http://mmb.moneycontrol.com/index.php?q=topic/ajax_call§ion=get_messages&offset=&lmid=&isp=0&gmt=cat_lm&catid=1&pgno=1")
library(jsonlite)
非常感谢你的回答。只有一个问题,你是如何提取链接的?我打开Chrome DevTools(Ctrl+Shift+I)并查看网络选项卡,然后点击F5并按类型排序以过滤掉图像等。有时,您可以在源代码选项卡中直接找到您要查找的内容。。若我想在那个网站上提取小部件的文本呢?若它是Flash,我不知道简单的方法。如果它是JS,那么如果您可以找到小部件调用的数据源,就“很容易”,如这里所示。否则,有一次我用Selenium编写脚本,因为我在这个网站上找不到更好的方法(而且它又丑又慢)http://mmb.moneycontrol.com/
有一个sentifi小部件,可以在社交媒体上显示印度股票的趋势。如何提取该文本?