Machine learning gmail如何从文本中提取时间和日期

Machine learning gmail如何从文本中提取时间和日期,machine-learning,nlp,Machine Learning,Nlp,我正在浏览邮件,看到gmail自动建议我在2月21日的活动中加入周五下午5点左右的? 我的意思是,它如何正确地理解这个星期五意味着即将到来的星期五,以及下午5点与星期五的联系 我是NLP和机器学习方面的新手,因此如果有人能用外行的术语向我解释,我会非常高兴我认为这不需要大量的机器学习。一点NLP有助于从句子中获取依赖项,但即使这样也不是严格必要的 您可以先查看关键字周一,周二等,然后环顾四周,看看上周一,下周一,下周一,下周一,上周一等等。这些被称为窗口功能,因为它们围绕您感兴趣的功能提供了一个

我正在浏览邮件,看到gmail自动建议我在2月21日的活动中加入周五下午5点左右的
?
我的意思是,它如何正确地理解这个星期五意味着即将到来的星期五,以及下午5点与星期五的联系


我是NLP和机器学习方面的新手,因此如果有人能用外行的术语向我解释,我会非常高兴

我认为这不需要大量的机器学习。一点NLP有助于从句子中获取依赖项,但即使这样也不是严格必要的

您可以先查看关键字
周一
周二
等,然后环顾四周,看看上周一
下周一
下周一
下周一
上周一
等等。这些被称为窗口功能,因为它们围绕您感兴趣的功能提供了一个窗口
+/-1,2,3…
。下午5点左右的
从理论上讲,你也可以通过查看窗口的功能得到,我没有直觉知道那会有多吵。试着想想在这种情况下表达时间的所有方式,然后想想这些方式可能与其他方式混淆。在我的头顶上,这样做似乎相对容易

无论如何,另一种方法是使用依赖解析器来提取句子中元素的语法关系。这需要您在句子中添加词性(POS)标记(将其拆分为标记后)。POS-tagger需要接受培训,以识别
friday
monday
是名词,甚至可能它们是时间表达式,这同样适用于
5pm
大约5pm
。这确实需要机器学习,而且需要很多。与其他公司相比,谷歌的优势在于他们拥有大量的数据,这使得他们可以有很多很多不同的例子来表达本质上相同的东西。这给了他们的模型很大的广度。一旦对句子进行了POS标记,就可以将其提供给依赖项解析器(如),该解析器会告诉您句子中所有不同标记之间的关系

同样,谷歌有很多数据可以帮助我们。最重要的是,谷歌花了数年时间来改进模型的输出,这样当模型不能完全确定发生了什么时,它就不会突出显示/提取结果。就在现实世界中实际应用NLP而言,这最后一步非常重要,因为它让人们对系统正在做的事情充满信心。基本上,如果软件不确定发生了什么,就什么也不做,因为做某件事会冒着做错事的风险,这会降低人们对整个系统的信心

发布一个可靠且易于使用的NLP应用程序需要在NLP/机器学习和通用软件工程的质量之间进行权衡,以向用户隐藏NLP失败的所有部分

试着用不同的方式给自己发送电子邮件,看看谷歌得到了哪些,没有得到哪些。比如说

  • 我们下星期五见面好吗
  • 下星期五下午2点喝咖啡怎么样
  • 我星期五不能去,但我可以在星期三下午4点见面

等等,在技术上戳洞总是很有趣的。它还可以揭示很多关于它正在做什么以及它是如何做的。

我认为这不需要很多机器学习。一点NLP有助于从句子中获取依赖项,但即使这样也不是严格必要的

您可以先查看关键字
周一
周二
等,然后环顾四周,看看上周一,
下周一
下周一
下周一
上周一
等等。这些被称为窗口功能,因为它们围绕您感兴趣的功能提供了一个窗口
+/-1,2,3…
。下午5点左右的
从理论上讲,你也可以通过查看窗口的功能得到,我没有直觉知道那会有多吵。试着想想在这种情况下表达时间的所有方式,然后想想这些方式可能与其他方式混淆。在我的头顶上,这样做似乎相对容易

无论如何,另一种方法是使用依赖解析器来提取句子中元素的语法关系。这需要您在句子中添加词性(POS)标记(将其拆分为标记后)。POS-tagger需要接受培训,以识别
friday
monday
是名词,甚至可能它们是时间表达式,这同样适用于
5pm
大约5pm
。这确实需要机器学习,而且需要很多。与其他公司相比,谷歌的优势在于他们拥有大量的数据,这使得他们可以有很多很多不同的例子来表达本质上相同的东西。这给了他们的模型很大的广度。一旦对句子进行了POS标记,就可以将其提供给依赖项解析器(如),该解析器会告诉您句子中所有不同标记之间的关系

同样,谷歌有很多数据可以帮助我们。最重要的是,谷歌花了数年时间来改进模型的输出,这样当模型不能完全确定发生了什么时,它就不会突出显示/提取结果。就在现实世界中实际应用NLP而言,这最后一步非常重要,因为它让人们对系统正在做的事情充满信心。基本上,如果软件不确定发生了什么,就什么也不做,因为做某件事会冒着做错事的风险,这会降低人们对整个系统的信心