Text 排序文本是否有标准度量？_Text_Metrics

Text 排序文本是否有标准度量？

text

Text 排序文本是否有标准度量？,text,metrics,Text,Metrics,给定一个数字范围，比如从[80240]，很容易确定该范围有多少在[100105]：（105-100）/（240-80）=5/160=.03125。简单那么现在，一本梅里亚姆·韦伯斯特词典有多少是介于雨伞和天鹅绒之间的呢？即使我们假设文本在语料库中的分布是一致的，是否有一个文本的标准度量？我不认为有一个标准。如果在一个数组中有来自Meriam Webster的所有条目，那么可以使用第一个和最后一个位置作为边界，这样就有一个从1到n的集合。然后，您可以选择“伞”和“天鹅绒”的位置，称它们为x和y，

给定一个数字范围，比如从[80240]，很容易确定该范围有多少在[100105]：（105-100）/（240-80）=5/160=.03125。简单

那么现在，一本梅里亚姆·韦伯斯特词典有多少是介于雨伞和天鹅绒之间的呢？即使我们假设文本在语料库中的分布是一致的，是否有一个文本的标准度量？

我不认为有一个标准。如果在一个数组中有来自Meriam Webster的所有条目，那么可以使用第一个和最后一个位置作为边界，这样就有一个从1到n的集合。然后，您可以选择“伞”和“天鹅绒”的位置，称它们为

和

，并将您的范围计算为

（y-x+1）/（n）

如果您将单词视为有序集的元素，从而使它们表现为实数，那么这一点就行了。基本上就是将集合中两个数字之间的距离除以集合边界之间的距离。有些形式的代数处理它们的方式不同——例如，当计算任意两个给定单词之间的距离时，每个单词都被视为一个向量，其维数与它们的字符数相同

你可以用梅里安·韦伯斯特（Meriam Webster）中最大的一个词来定义你的n维空间的边界（提示：它是“肺炎微镜矽肺孢子虫病”，因此你的空间将有45维）。然而，当考虑任何

A-B

对单词时，中间长度的第三个单词

可能在这些单词之间，也可能不在这些单词之间，这取决于从

到

的转换所涉及的操作

您必须检查长度介于

和

之间的每个单词，以检查它们是否属于

和

之间的范围。。。所以这不是一个简单的微积分问题，我不知道这在现在的普通计算机上是否可行。这只是考虑到Meriam将近50万条参赛作品。

我认为没有一个标准。如果在一个数组中有来自Meriam Webster的所有条目，那么可以使用第一个和最后一个位置作为边界，这样就有一个从1到n的集合。然后，您可以选择“伞”和“天鹅绒”的位置，称它们为

和

，并将您的范围计算为

（y-x+1）/（n）

A-B

对单词时，中间长度的第三个单词

可能在这些单词之间，也可能不在这些单词之间，这取决于从

到

的转换所涉及的操作

您必须检查长度介于

和

之间的每个单词，以检查它们是否属于

和

之间的范围。。。所以这不是一个简单的微积分问题，我不知道这在现在的普通计算机上是否可行。这只是考虑到Meriam的近50万条词条。

“Meriam Webster字典有多少位于伞形和天鹅绒之间”——可以计算的引理数除以总数进行规范化。我正在尝试确定是否使用索引访问基础数据。因此，我不知道有多少字是在这个范围内，而没有实际访问它们。假设单词的分布是均匀的，我能估计出在伞和丝绒之间有多少个单词？假设我知道字典里有1000000个单词（当然是一个虚构的数字），你不能知道，因为字典的顺序。你必须提取所有单词，对它们进行排序，并将你的公式应用到它们的索引中。“Meriam Webster字典有多少位于伞形和丝绒之间”--一些你可以计算的引理数，然后除以总数来规范化它。我正试着确定是否使用索引来访问底层数据。因此，我不知道有多少字是在这个范围内，而没有实际访问它们。假设单词的分布是均匀的，我能估计出在伞和丝绒之间有多少个单词？假设我知道字典里有1000000个单词（当然是一个虚构的数字），你不能知道，因为字典的顺序。你必须提取所有单词，对它们进行排序，并将你的公式应用到它们的索引中。我熟悉莱文施泰因，还有一些其他人（加罗、哈明等等）。我想知道更多关于在按字母顺序排列/排序的单词列表中估计单词位置的信息。假设较大的语料库是均匀分布的。那么，你必须知道这些单词的位置，以及单词的数量/最后一个单词的位置。所以你可以使用你在问题中提供的公式。我熟悉列文施坦，还有其他一些人（加罗、哈明等等）。我想知道更多关于在按字母顺序排列/排序的单词列表中估计单词位置的信息。假设较大的语料库是均匀分布的。那么，你必须知道这些单词的位置，以及单词的数量/最后一个单词的位置。因此，您可以使用您在问题中提供的公式。