Clojure 多次添加相同的数据是否不理想?
我目前正在我的一个项目中使用Datomic,有一个问题困扰着我 以下是我的问题的简化版本:Clojure 多次添加相同的数据是否不理想?,clojure,datomic,datalog,Clojure,Datomic,Datalog,我目前正在我的一个项目中使用Datomic,有一个问题困扰着我 以下是我的问题的简化版本: 我需要解析一个英语小句子列表,并将完整的句子及其单词插入Datomic 包含句子列表的文件相当大(>10GB) 同一个句子可以在文件中出现多次,它们的单词也可以跨句子出现多次 在插入过程中,属性将设置为将每个句子与其对应的单词相关联 为了简化插入过程,我尝试多次写入相同的DATOM(即不检查数据库中是否已经存在记录)。但我担心对性能的影响 当多次添加相同的DATOM时,Datomic中会发生什么情况
- 我需要解析一个英语小句子列表,并将完整的句子及其单词插入Datomic
- 包含句子列表的文件相当大(>10GB)
- 同一个句子可以在文件中出现多次,它们的单词也可以跨句子出现多次
- 在插入过程中,属性将设置为将每个句子与其对应的单词相关联
- 当多次添加相同的DATOM时,Datomic中会发生什么情况
- 是否值得检查在事务之前是否已经添加了datom
- 是否有方法防止Datomic覆盖以前的DATOM(即,如果记录已存在,则跳过事务)
感谢您的帮助您现在不需要担心这样的预优化。零售电脑商店的硬盘售价约为0.05美元/GB,所以这里你说的是50美分的存储空间。有了Datomic的内置存储压缩功能,这将变得更小。索引和其他开销会使总开销增加一点,但仍然太小,不值得担心 与任何问题一样,最好以增量方式构建解决方案。所以,也许用你的前1%的数据做一个实验,然后用最简单的算法计时。如果这相当快,试试10%。现在,您可以很好地估计整个问题加载数据所需的时间。我打赌查询数据会比加载更快 如果在第一个1%或10%之后遇到障碍,则可以考虑重新设计。因为你已经建立了一些具体的东西,你不得不更详细地思考问题和解决方案。这比挥手辩论和白板设计要好得多。现在,您对数据和可能的解决方案实现有了更多的了解 如果最简单的解决方案无法在更大范围内工作,那么第二个解决方案将更易于设计和实现,因为它拥有第一个解决方案的经验。最终的解决方案很少从你的头脑中形成。对任何重大问题来说,计划反复完善解决方案都是非常重要的 这本开创性的书中我最喜欢的章节之一 弗雷德·布鲁克斯(Fred Brooks)的《神秘的人月》(The Mythic Man Month)的标题是“计划扔掉一个”
- 当多次添加相同的DATOM时,Datomic中会发生什么情况
- 是否值得检查在事务之前是否已经添加了datom
- 是否有方法防止Datomic覆盖以前的DATOM(即,如果记录已存在,则跳过事务)*
- 当多次添加相同的DATOM时,Datomic中会发生什么情况
- 是否值得检查在事务之前是否已经添加了datom
:db/unique
属性设置为:db.unique/identity
。例如,如果您的架构包含3个属性:word/text
,:句子/text
和:句子/words
,那么:word/text
和:句子/text
应该是:db.unique/identity
,这将产生以下架构安装事务:
[{:db/cardinality :db.cardinality/one,
:db/fulltext true,
:db/index true,
:db.install/_attribute :db.part/db,
:db/id #db/id[:db.part/db -1000777],
:db/ident :sentence/text,
:db/valueType :db.type/string,
:db/unique :db.unique/identity}
{:db/cardinality :db.cardinality/one,
:db/fulltext true,
:db/index true,
:db.install/_attribute :db.part/db,
:db/id #db/id[:db.part/db -1000778],
:db/ident :word/text,
:db/valueType :db.type/string,
:db/unique :db.unique/identity}
{:db/cardinality :db.cardinality/many,
:db/fulltext true,
:db/index true,
:db.install/_attribute :db.part/db,
:db/id #db/id[:db.part/db -1000779],
:db/ident :sentence/words,
:db/valueType :db.type/ref}]
然后,用于插入的事务如下所示:
[{:sentence/text "Hello World!"
:sentence/words [{:word/text "hello"
:db/id (d/tempid :db.part/user)}
{:word/text "world"
:db/id (d/tempid :db.part/user)}]
:db/id (d/tempid :db.part/user)}]
关于绩效:
您可能根本不需要优化,但在我看来,导入过程的潜在性能瓶颈是:
2.
:对插入的数据进行排序后,索引速度更快,因此最好插入排序后的单词和句子。您可以使用Unix工具对大文件进行排序,即使它们不适合内存。因此,这一过程将是:
- 对句子进行排序,插入它们(
):句子/文本
- 提取单词,对它们进行排序,然后插入它们(
):word/text
- 插入单词-句子关系(
):句子/单词
1.
:事实上,对于已经存储的单词而不是整个单词文本(需要索引查找以确保唯一性)使用实体ID,可以减少事务处理人的压力。一种方法是在对等机上执行该查找,或者利用并行性和/或仅对频繁出现的单词执行查找(例如,您可以插入前1000个句子中的单词,然后检索它们的实体ID并将它们保存在哈希映射中)
就我个人而言,在经验证明这些优化是必要的之前,我不会进行这些优化。您也可以使用来浏览Datomic Google Group邮件列表:Intern the words。一句话就是一句话