Text 排序文本是否有标准度量?

Text 排序文本是否有标准度量?,text,metrics,Text,Metrics,给定一个数字范围,比如从[80240],很容易确定该范围有多少在[100105]:(105-100)/(240-80)=5/160=.03125。简单 那么现在,一本梅里亚姆·韦伯斯特词典有多少是介于雨伞和天鹅绒之间的呢?即使我们假设文本在语料库中的分布是一致的,是否有一个文本的标准度量?我不认为有一个标准。如果在一个数组中有来自Meriam Webster的所有条目,那么可以使用第一个和最后一个位置作为边界,这样就有一个从1到n的集合。然后,您可以选择“伞”和“天鹅绒”的位置,称它们为x和y,

给定一个数字范围,比如从[80240],很容易确定该范围有多少在[100105]:(105-100)/(240-80)=5/160=.03125。简单


那么现在,一本梅里亚姆·韦伯斯特词典有多少是介于雨伞和天鹅绒之间的呢?即使我们假设文本在语料库中的分布是一致的,是否有一个文本的标准度量?

我不认为有一个标准。如果在一个数组中有来自Meriam Webster的所有条目,那么可以使用第一个和最后一个位置作为边界,这样就有一个从1到n的集合。然后,您可以选择“伞”和“天鹅绒”的位置,称它们为
x
y
,并将您的范围计算为
(y-x+1)/(n)

如果您将单词视为有序集的元素,从而使它们表现为实数,那么这一点就行了。基本上就是将集合中两个数字之间的距离除以集合边界之间的距离。有些形式的代数处理它们的方式不同——例如,当计算任意两个给定单词之间的距离时,每个单词都被视为一个向量,其维数与它们的字符数相同

你可以用梅里安·韦伯斯特(Meriam Webster)中最大的一个词来定义你的n维空间的边界(提示:它是“肺炎微镜矽肺孢子虫病”,因此你的空间将有45维)。然而,当考虑任何
A-B
对单词时,中间长度的第三个单词
C
可能在这些单词之间,也可能不在这些单词之间,这取决于从
A
B
的转换所涉及的操作


您必须检查长度介于
a
B
之间的每个单词,以检查它们是否属于
a
B
之间的范围。。。所以这不是一个简单的微积分问题,我不知道这在现在的普通计算机上是否可行。这只是考虑到Meriam将近50万条参赛作品。

我认为没有一个标准。如果在一个数组中有来自Meriam Webster的所有条目,那么可以使用第一个和最后一个位置作为边界,这样就有一个从1到n的集合。然后,您可以选择“伞”和“天鹅绒”的位置,称它们为
x
y
,并将您的范围计算为
(y-x+1)/(n)

如果您将单词视为有序集的元素,从而使它们表现为实数,那么这一点就行了。基本上就是将集合中两个数字之间的距离除以集合边界之间的距离。有些形式的代数处理它们的方式不同——例如,当计算任意两个给定单词之间的距离时,每个单词都被视为一个向量,其维数与它们的字符数相同

你可以用梅里安·韦伯斯特(Meriam Webster)中最大的一个词来定义你的n维空间的边界(提示:它是“肺炎微镜矽肺孢子虫病”,因此你的空间将有45维)。然而,当考虑任何
A-B
对单词时,中间长度的第三个单词
C
可能在这些单词之间,也可能不在这些单词之间,这取决于从
A
B
的转换所涉及的操作


您必须检查长度介于
a
B
之间的每个单词,以检查它们是否属于
a
B
之间的范围。。。所以这不是一个简单的微积分问题,我不知道这在现在的普通计算机上是否可行。这只是考虑到Meriam的近50万条词条。

“Meriam Webster字典有多少位于伞形和天鹅绒之间”——可以计算的引理数除以总数进行规范化。我正在尝试确定是否使用索引访问基础数据。因此,我不知道有多少字是在这个范围内,而没有实际访问它们。假设单词的分布是均匀的,我能估计出在伞和丝绒之间有多少个单词?假设我知道字典里有1000000个单词(当然是一个虚构的数字),你不能知道,因为字典的顺序。你必须提取所有单词,对它们进行排序,并将你的公式应用到它们的索引中。“Meriam Webster字典有多少位于伞形和丝绒之间”--一些你可以计算的引理数,然后除以总数来规范化它。我正试着确定是否使用索引来访问底层数据。因此,我不知道有多少字是在这个范围内,而没有实际访问它们。假设单词的分布是均匀的,我能估计出在伞和丝绒之间有多少个单词?假设我知道字典里有1000000个单词(当然是一个虚构的数字),你不能知道,因为字典的顺序。你必须提取所有单词,对它们进行排序,并将你的公式应用到它们的索引中。我熟悉莱文施泰因,还有一些其他人(加罗、哈明等等)。我想知道更多关于在按字母顺序排列/排序的单词列表中估计单词位置的信息。假设较大的语料库是均匀分布的。那么,你必须知道这些单词的位置,以及单词的数量/最后一个单词的位置。所以你可以使用你在问题中提供的公式。我熟悉列文施坦,还有其他一些人(加罗、哈明等等)。我想知道更多关于在按字母顺序排列/排序的单词列表中估计单词位置的信息。假设较大的语料库是均匀分布的。那么,你必须知道这些单词的位置,以及单词的数量/最后一个单词的位置。因此,您可以使用您在问题中提供的公式。