Database 如何有效地存储大量NGRAM？_Database_Database Design_Machine Learning_Data Mining_N Gram

Database 如何有效地存储大量NGRAM？

database database-design machine-learning

Database 如何有效地存储大量NGRAM？,database,database-design,machine-learning,data-mining,n-gram,Database,Database Design,Machine Learning,Data Mining,N Gram,我从十六进制形式的二进制项中提取了4克，这意味着每个项最多可以有65535克不同的克我想把每一项都与它的克数和频率联系起来，但我对如何存储每一项都感到困惑——这是我第一次体验数据挖掘，我对最佳实践和常用工具一无所知我曾想过在关系数据库中构建一个大表，使用类似于（ITEM-NAME，GRAM1，GRAM2…GRAM65535）的模式，并将频率存储在其中，但我可以看出，由于列数太多，这种方法非常不恰当我知道一定有更好的解决方案，但我不知道该去哪里看建议？存储ngram的最佳方式是IMHO。

我从十六进制形式的二进制项中提取了4克，这意味着每个项最多可以有65535克不同的克

我想把每一项都与它的克数和频率联系起来，但我对如何存储每一项都感到困惑——这是我第一次体验数据挖掘，我对最佳实践和常用工具一无所知

我曾想过在关系数据库中构建一个大表，使用类似于

（ITEM-NAME，GRAM1，GRAM2…GRAM65535）

的模式，并将频率存储在其中，但我可以看出，由于列数太多，这种方法非常不恰当

我知道一定有更好的解决方案，但我不知道该去哪里看

建议？

存储ngram的最佳方式是IMHO。是用来在非常高效的库中使用的管道

树的示例：

 1. gr1
   1. gr2 (item1)
   2. gr3 (item2,item3,item4)
 2. gr3 (item1, tem2)
 3. gr2
  1. g3 (item5,item6)
  2. g4 (item1)

另一种选择是以倒排索引的格式存储： ngramm->item

gr1 (item1, item2)
gr2 (item1, item3)
gr3 (item2, item3)
gr4 (item1, item2)

注意：第二个选项不存储对ngram至关重要的订单信息…

生成的“矩阵”是否稀疏？也就是说，您是否可以预期，平均而言，给定项目的GRAMn…GRAM65535值中至少有一半可以为0？