git-如何同步最初不受控制的拷贝而不重新传输它们?

git-如何同步最初不受控制的拷贝而不重新传输它们?,git,Git,我在不同的站点有一个大数据集(多TB)的单独副本。我原以为它是只读的,但现在团队希望能够共享编辑。所以我想在git中将它们置于版本控制之下,但不需要重新传输数据集本身。然后,我们可以使用git bundle生成小的增量文件来传输更改 理想情况下,我可以独立地“git init”;git add*'在每个站点上添加数据集,由于数据集副本是相同的,初始提交将具有相同的校验和,一切都会很好,但我一直无法实现这一点 如果我可以删除数据集中与文件对应的git blob,而不删除对它们的引用(从而创建一个“

我在不同的站点有一个大数据集(多TB)的单独副本。我原以为它是只读的,但现在团队希望能够共享编辑。所以我想在git中将它们置于版本控制之下,但不需要重新传输数据集本身。然后,我们可以使用git bundle生成小的增量文件来传输更改

理想情况下,我可以独立地“git init”;git add*'在每个站点上添加数据集,由于数据集副本是相同的,初始提交将具有相同的校验和,一切都会很好,但我一直无法实现这一点

如果我可以删除数据集中与文件对应的git blob,而不删除对它们的引用(从而创建一个“损坏的”包)并将它们重新添加到另一端,那就太好了,但我找不到低级别的命令来实现这一点


最好的方法是什么?

git提交在两个站点上不会相同,除非它散列的所有内容都完全相同。这意味着提交的日期、作者、提交中所有文件的内容、父提交(如果有的话)以及我想不起来的其他事情

您可以尝试使用
git commit--date=--author=
修复这些问题,看看这是否足以使提交匹配。我不知道这是否有效,但值得一试


但从长远来看,这听起来确实会很痛苦。Git并不是专门为跟踪多TB文件而设计的。我想你会把自己逼到墙角的。您可以查看git附件或git lfs,看看它们是否更适合您的需要。或者你需要发明一些自己的增量描述方法,只将增量存储在git中。

git提交在两个站点上不会相同,除非它散列的所有内容都完全相同。这意味着提交的日期、作者、提交中所有文件的内容、父提交(如果有的话)以及我想不起来的其他事情

您可以尝试使用
git commit--date=--author=
修复这些问题,看看这是否足以使提交匹配。我不知道这是否有效,但值得一试


但从长远来看,这听起来确实会很痛苦。Git并不是专门为跟踪多TB文件而设计的。我想你会把自己逼到墙角的。您可以查看git附件或git lfs,看看它们是否更适合您的需要。或者您需要发明一些自己的增量描述方法,只将增量存储在git中。

谢谢。在您的建议下,我尝试在提交期间指定日期和作者,在使用cp-pR(保留日期)复制的小目录上进行测试,但没有得到相同(相等校验和)的提交。谢谢。在您的建议下,我尝试在提交期间指定日期和作者,在使用cp-pR复制的小目录上进行测试(以保留日期),但它没有导致相同(相等校验和)的提交。