Javascript 解析非结构化数据

Javascript 解析非结构化数据,javascript,ruby-on-rails,parsing,computer-science,Javascript,Ruby On Rails,Parsing,Computer Science,我正在编写一个bookmarklet,它将从一个站点提取信息,并将其发送到一个用户帐户,以备将来使用。这通常包括获取非结构化信息并使其结构化的问题。举个例子,一个业余爱好者想要保存一个项目以备将来使用。他们需要获得许多零件,并遵循一些说明。在一个博客上,作者可以将这些说明称为说明、食谱或任何数量的同义词。一个人可以列出带有标签的信息以对步骤进行排序,而另一个人可能不这样做 将非结构化数据转换为结构化信息的一般策略是什么?是否有其他策略来确定哪些内容是相关的?(即Instapaper或Readab

我正在编写一个bookmarklet,它将从一个站点提取信息,并将其发送到一个用户帐户,以备将来使用。这通常包括获取非结构化信息并使其结构化的问题。举个例子,一个业余爱好者想要保存一个项目以备将来使用。他们需要获得许多零件,并遵循一些说明。在一个博客上,作者可以将这些说明称为说明、食谱或任何数量的同义词。一个人可以列出带有
  • 标签的信息以对步骤进行排序,而另一个人可能不这样做


    将非结构化数据转换为结构化信息的一般策略是什么?是否有其他策略来确定哪些内容是相关的?(即Instapaper或Readability)

    嗯……也许你可以将其与谷歌一起使用?看看head&meta标签也是个好主意。您还可以列出单词的使用频率。见鬼,你甚至可以弹出一个提示,要求用户输入有关页面的数据。

    这个问题似乎没有一个好的计算机科学答案,因此,我决定改变方法,让用户根据自己的意愿组织数据。

    如果爱好者只使用WordPress或Blogger,而元标记没有意义,那怎么办?@rynmrtn:在这种情况下,他们可能不关心用户从他们的东西中提取结构化数据。我认为没有“总体战略”是这样的。“总体战略”可能是告诉他们构建内容结构。如果这不是一个选项,你可能应该让自己受雇于谷歌,并在未来几十年内利用他们的备份解决这个问题:)