Machine learning gmail如何从文本中提取时间和日期_Machine Learning_Nlp

Machine learning gmail如何从文本中提取时间和日期

machine-learning nlp

Machine learning gmail如何从文本中提取时间和日期,machine-learning,nlp,Machine Learning,Nlp,我正在浏览邮件，看到gmail自动建议我在2月21日的活动中加入周五下午5点左右的？我的意思是，它如何正确地理解这个星期五意味着即将到来的星期五，以及下午5点与星期五的联系我是NLP和机器学习方面的新手，因此如果有人能用外行的术语向我解释，我会非常高兴我认为这不需要大量的机器学习。一点NLP有助于从句子中获取依赖项，但即使这样也不是严格必要的您可以先查看关键字周一，周二等，然后环顾四周，看看上周一，下周一，下周一，下周一，上周一等等。这些被称为窗口功能，因为它们围绕您感兴趣的功能提供了一个

我正在浏览邮件，看到gmail自动建议我在2月21日的活动中加入周五下午5点左右的

？
我的意思是，它如何正确地理解这个星期五意味着即将到来的星期五，以及下午5点与星期五的联系
我是NLP和机器学习方面的新手，因此如果有人能用外行的术语向我解释，我会非常高兴
我认为这不需要大量的机器学习。一点NLP有助于从句子中获取依赖项，但即使这样也不是严格必要的
您可以先查看关键字周一
，周二
等，然后环顾四周，看看上周一

，

下周一

，

下周一

，

下周一

，

上周一

等等。这些被称为窗口功能，因为它们围绕您感兴趣的功能提供了一个窗口

+/-1,2,3…

。下午5点左右的

从理论上讲，你也可以通过查看窗口的功能得到，我没有直觉知道那会有多吵。试着想想在这种情况下表达时间的所有方式，然后想想这些方式可能与其他方式混淆。在我的头顶上，这样做似乎相对容易

无论如何，另一种方法是使用依赖解析器来提取句子中元素的语法关系。这需要您在句子中添加词性（POS）标记（将其拆分为标记后）。POS-tagger需要接受培训，以识别

friday

和

monday

是名词，甚至可能它们是时间表达式，这同样适用于

5pm

和

大约5pm

。这确实需要机器学习，而且需要很多。与其他公司相比，谷歌的优势在于他们拥有大量的数据，这使得他们可以有很多很多不同的例子来表达本质上相同的东西。这给了他们的模型很大的广度。一旦对句子进行了POS标记，就可以将其提供给依赖项解析器（如），该解析器会告诉您句子中所有不同标记之间的关系

同样，谷歌有很多数据可以帮助我们。最重要的是，谷歌花了数年时间来改进模型的输出，这样当模型不能完全确定发生了什么时，它就不会突出显示/提取结果。就在现实世界中实际应用NLP而言，这最后一步非常重要，因为它让人们对系统正在做的事情充满信心。基本上，如果软件不确定发生了什么，就什么也不做，因为做某件事会冒着做错事的风险，这会降低人们对整个系统的信心

发布一个可靠且易于使用的NLP应用程序需要在NLP/机器学习和通用软件工程的质量之间进行权衡，以向用户隐藏NLP失败的所有部分

试着用不同的方式给自己发送电子邮件，看看谷歌得到了哪些，没有得到哪些。比如说

我们下星期五见面好吗
下星期五下午2点喝咖啡怎么样
我星期五不能去，但我可以在星期三下午4点见面

等等，在技术上戳洞总是很有趣的。它还可以揭示很多关于它正在做什么以及它是如何做的。

我认为这不需要很多机器学习。一点NLP有助于从句子中获取依赖项，但即使这样也不是严格必要的

您可以先查看关键字

周一

，

周二

等，然后环顾四周，看看上周一，

下周一

，

下周一

，

下周一

，

上周一

等等。这些被称为窗口功能，因为它们围绕您感兴趣的功能提供了一个窗口

+/-1,2,3…

。下午5点左右的

friday

和

monday

是名词，甚至可能它们是时间表达式，这同样适用于

5pm

和

大约5pm