Python，URL NLP：如何计算URL字符串中的所有英语单词？_Python_Json_Url_Nlp

Python，URL NLP：如何计算URL字符串中的所有英语单词？

python json url nlp

Python，URL NLP：如何计算URL字符串中的所有英语单词？,python,json,url,nlp,Python,Json,Url,Nlp,我有一个有趣的问题。我有一个数十亿网址的列表。比如： www.fortune.com www.newyorktimes.com www.asdf.com 我还有一本英文字典作为JSON文件。如何计算在URL中检测到的英语单词数例如，对于上面的URL，计数应该是：1,3,0（财富杂志，纽约时报）。理想的输出是一个包含URL和URL中英语单词计数的数据框这个问题很有挑战性，因为URL中的单词之间没有分隔符。这也是一种蛮力搜索。这可能不是最好的方法，但最有趣的方法是训练seq2seq模型。获取真

我有一个有趣的问题。我有一个数十亿网址的列表。比如：

www.fortune.com
www.newyorktimes.com
www.asdf.com

我还有一本英文字典作为JSON文件。如何计算在URL中检测到的英语单词数

例如，对于上面的URL，计数应该是：1,3,0（财富杂志，纽约时报）。理想的输出是一个包含URL和URL中英语单词计数的数据框

这个问题很有挑战性，因为URL中的单词之间没有分隔符。这也是一种蛮力搜索。

这可能不是最好的方法，但最有趣的方法是训练seq2seq模型。获取真实文本的部分，并使训练数据对为（删除带空格的文本部分，删除带空格的原始文本部分）。确保将组织和产品名称作为培训示例。我认为这可以得到相当好的准确度，但这只是直觉

但是，如果您更喜欢传统的数据结构和算法类型，则可以从词汇表中构建一个新的数据结构。当你读到“www.”和“.com”之间的字符时，你沿着trie旅行。到达结束节点时，插入一个空格，然后遍历其余字符

复合词呢？他们是被当作一个还是两个？例如，

rainbow.com

是一两个词吗？我想我的字典会有：雨、弓和彩虹。因此，它将计为3个单词，这很好。或者，如果找到匹配项，且长度（匹配）=长度（url），则搜索可以继续到下一个url。请注意，“for”、“or”、“tune”、“fort”、“time”、“me”、“as”等也都是英语单词。获取计数并不十分困难（尽管计算量有点大），但您可能希望重新考虑这是否真的是您想要的。对于第一次迭代，这将很好。最糟糕的情况是，我可以手动编辑我的字典以删除无用的单词。以下帖子可能重复：