C# 如何确定单词的唯一性?

C# 如何确定单词的唯一性?,c#,C#,我有一个大约30万字的文本文件。每个单词有5个字母 我希望能够确定每个单词在互联网上的独特性 我的一个想法是用谷歌搜索这个词,看看它能产生多少结果。不幸的是,这违反了他们的TOS 我试着想其他的方法,但这将涉及到查询一些网站很多,我怀疑他们会很感激 有人有其他想法吗?编程语言没那么重要,但我更喜欢C。如果你的单词中没有俚语,我建议你看看。这里的问题是,这些书中的大多数都会比较老,所以你真的会及时了解一个词的流行程度(或者我猜是)。好的一面是,这些书是免费提供的文本文件格式,允许您轻松地挖掘它们的

我有一个大约30万字的文本文件。每个单词有5个字母

我希望能够确定每个单词在互联网上的独特性

我的一个想法是用谷歌搜索这个词,看看它能产生多少结果。不幸的是,这违反了他们的TOS

我试着想其他的方法,但这将涉及到查询一些网站很多,我怀疑他们会很感激


有人有其他想法吗?编程语言没那么重要,但我更喜欢C。

如果你的单词中没有俚语,我建议你看看。这里的问题是,这些书中的大多数都会比较老,所以你真的会及时了解一个词的流行程度(或者我猜是)。好的一面是,这些书是免费提供的文本文件格式,允许您轻松地挖掘它们的数据


需要注意的一点是,如果你在美国,并计划使用来获取这些书籍,他们有一条规则,即该网站仅面向人类用户。如果你的话不包含俚语,我建议你看看。这里的问题是,这些书中的大多数都会比较老,所以你真的会及时了解一个词的流行程度(或者我猜是)。好的一面是,这些书是免费提供的文本文件格式,允许您轻松地挖掘它们的数据


需要注意的一点是,如果你在美国,并计划使用来获取这些书籍,他们有一条规则,即该网站仅面向人类用户。有一个。

来查找“在书中”的频率,你可以使用,但这不是“在互联网上”。如果这是出于学术目的,那么它可能也会起作用,并且是基于互联网频率的。

要在“书籍”中查找频率,您可以使用,但这不是“互联网”。如果这是出于学术目的,那么可能也会起作用,而且这是基于互联网频率的。

好吧,问题是它们不是真正的词语。只是可发音的字符串。它们可能是用户名、域名等,所以我不确定查册是否理想。不过这是一个很好的起点。好吧,问题是它们不是真正的词语。只是可发音的字符串。它们可能是用户名、域名等,所以我不确定查册是否理想。这将是一个很好的起点。