R 如何在带有时间戳的数据集中可视化单词出现的上升或下降

R 如何在带有时间戳的数据集中可视化单词出现的上升或下降,r,plot,gnuplot,R,Plot,Gnuplot,我想画一张这样的图表 (为了简单起见,实际上是单行) 给定一个像“M4M”这样的输入字和一个像这样的数据集文件(csv) 1529972216.0,Seeking Black M4M 1529972047.0,Looking for car fun 1529971885.0,armenian M4M 我如何想象给定单词的趋势? 我想用图表标出这个词在整个句子中的出现情况 时间跨度,能够判断单词/主题是否正确 受欢迎程度下降或增加 (数据集是一个csv文件,包含 字段1中为craigslis

我想画一张这样的图表 (为了简单起见,实际上是单行)

给定一个像“M4M”这样的输入字和一个像这样的数据集文件(csv)

1529972216.0,Seeking Black M4M
1529972047.0,Looking for car fun 
1529971885.0,armenian M4M
我如何想象给定单词的趋势? 我想用图表标出这个词在整个句子中的出现情况 时间跨度,能够判断单词/主题是否正确 受欢迎程度下降或增加

(数据集是一个csv文件,包含 字段1中为craigslist的unix历元时间戳 帖子和第2栏中craiglist帖子的标题)

在我的系统中安装了R和gnu绘图(如果有帮助)
在任何一天,都会有数百个Craiglit帖子出现。

gnuplot可以做到这一点。 它基本上就像一个柱状图,gnuplot为此提供了
smooth frequency
选项。 如果
关键字
出现在第二列中,将对其进行计数和汇总。 使代码适应您的需要

守则:

### count occurrence of a word
reset session

$Data <<EOD
1300000000.0,Seeking Green M4M
1300000000.0,Seeking Blue M4M
1310000000.0,Seeking Green M4M
1320000000.0,Seeking Red M4M
1330000000.0,Seeking Black M4M
1340000000.0,Looking for car fun 
1350000000.0,armenian M4M
1360000000.0,english M4M
1370000000.0,german M4M
1380000000.0,french M4M
1390000000.0,italian M4M
1390200000.0,greek M4M
1400000000.0,swiss M4M
1500000000.0,spanish M4M
EOD

set datafile separator ","
set xdata time
set timefmt "%s"
set format x "%Y"

Keyword = "M4M"
Binwidth = 3600.*24*7   # one week

plot $Data u (floor($1/Binwidth)*Binwidth):(strstrt(strcol(2),Keyword)>0) \
    smooth freq w lp pt 7 lc rgb "red" title Keyword
### end of code
###计算单词的出现次数
重置会话
$Data