Database 如何有效地存储大量NGRAM?

Database 如何有效地存储大量NGRAM?,database,database-design,machine-learning,data-mining,n-gram,Database,Database Design,Machine Learning,Data Mining,N Gram,我从十六进制形式的二进制项中提取了4克,这意味着每个项最多可以有65535克不同的克 我想把每一项都与它的克数和频率联系起来,但我对如何存储每一项都感到困惑——这是我第一次体验数据挖掘,我对最佳实践和常用工具一无所知 我曾想过在关系数据库中构建一个大表,使用类似于(ITEM-NAME,GRAM1,GRAM2…GRAM65535)的模式,并将频率存储在其中,但我可以看出,由于列数太多,这种方法非常不恰当 我知道一定有更好的解决方案,但我不知道该去哪里看 建议?存储ngram的最佳方式是IMHO。

我从十六进制形式的二进制项中提取了4克,这意味着每个项最多可以有65535克不同的克

我想把每一项都与它的克数和频率联系起来,但我对如何存储每一项都感到困惑——这是我第一次体验数据挖掘,我对最佳实践和常用工具一无所知

我曾想过在关系数据库中构建一个大表,使用类似于
(ITEM-NAME,GRAM1,GRAM2…GRAM65535)
的模式,并将频率存储在其中,但我可以看出,由于列数太多,这种方法非常不恰当

我知道一定有更好的解决方案,但我不知道该去哪里看


建议?

存储ngram的最佳方式是IMHO。 是用来在非常高效的库中使用的管道

树的示例:

 1. gr1
   1. gr2 (item1)
   2. gr3 (item2,item3,item4)
 2. gr3 (item1, tem2)
 3. gr2
  1. g3 (item5,item6)
  2. g4 (item1)
另一种选择是以倒排索引的格式存储: ngramm->item

gr1 (item1, item2)
gr2 (item1, item3)
gr3 (item2, item3)
gr4 (item1, item2)
注意:第二个选项不存储对ngram至关重要的订单信息…

生成的“矩阵”是否稀疏?也就是说,您是否可以预期,平均而言,给定项目的GRAMn…GRAM65535值中至少有一半可以为0?