Python,URL NLP:如何计算URL字符串中的所有英语单词?

Python,URL NLP:如何计算URL字符串中的所有英语单词?,python,json,url,nlp,Python,Json,Url,Nlp,我有一个有趣的问题。我有一个数十亿网址的列表。比如: www.fortune.com www.newyorktimes.com www.asdf.com 我还有一本英文字典作为JSON文件。如何计算在URL中检测到的英语单词数 例如,对于上面的URL,计数应该是:1,3,0(财富杂志,纽约时报)。理想的输出是一个包含URL和URL中英语单词计数的数据框 这个问题很有挑战性,因为URL中的单词之间没有分隔符。这也是一种蛮力搜索。这可能不是最好的方法,但最有趣的方法是训练seq2seq模型。获取真

我有一个有趣的问题。我有一个数十亿网址的列表。比如:

www.fortune.com
www.newyorktimes.com
www.asdf.com
我还有一本英文字典作为JSON文件。如何计算在URL中检测到的英语单词数

例如,对于上面的URL,计数应该是:1,3,0(财富杂志,纽约时报)。理想的输出是一个包含URL和URL中英语单词计数的数据框


这个问题很有挑战性,因为URL中的单词之间没有分隔符。这也是一种蛮力搜索。

这可能不是最好的方法,但最有趣的方法是训练seq2seq模型。获取真实文本的部分,并使训练数据对为(删除带空格的文本部分,删除带空格的原始文本部分)。确保将组织和产品名称作为培训示例。我认为这可以得到相当好的准确度,但这只是直觉


但是,如果您更喜欢传统的数据结构和算法类型,则可以从词汇表中构建一个新的数据结构。当你读到“www.”和“.com”之间的字符时,你沿着trie旅行。到达结束节点时,插入一个空格,然后遍历其余字符

复合词呢?他们是被当作一个还是两个?例如,
rainbow.com
是一两个词吗?我想我的字典会有:雨、弓和彩虹。因此,它将计为3个单词,这很好。或者,如果找到匹配项,且长度(匹配)=长度(url),则搜索可以继续到下一个url。请注意,“for”、“or”、“tune”、“fort”、“time”、“me”、“as”等也都是英语单词。获取计数并不十分困难(尽管计算量有点大),但您可能希望重新考虑这是否真的是您想要的。对于第一次迭代,这将很好。最糟糕的情况是,我可以手动编辑我的字典以删除无用的单词。以下帖子可能重复: