从R中的SMS消息中提取用户详细信息

从R中的SMS消息中提取用户详细信息,r,machine-learning,nlp,token,text-mining,R,Machine Learning,Nlp,Token,Text Mining,我有一个移动SMS数据集,特别是我想提取某些细节,如数据余额、使用R的到期日期,我已经使用NLP和regex进行了标记化,但问题是,如果SMS格式如下所示,我无法提取日期: 您的46.35 MB数据将于2017-02-08到期。购买任何数据计划即可继续享受该服务。有关更多信息,请发送文本帮助至229。 请注意,2017-02-08期间(.)和购买之间没有空格,因此,尽管标记化R将其视为单个标记。如果我用空格替换句点,那么提取数据量(46.35MB)将变得困难。 任何人都可以建议,如果我可以使用一

我有一个移动SMS数据集,特别是我想提取某些细节,如数据余额、使用R的到期日期,我已经使用NLP和regex进行了标记化,但问题是,如果SMS格式如下所示,我无法提取日期: 您的46.35 MB数据将于2017-02-08到期。购买任何数据计划即可继续享受该服务。有关更多信息,请发送文本帮助至229。 请注意,2017-02-08期间(.)和购买之间没有空格,因此,尽管标记化R将其视为单个标记。如果我用空格替换句点,那么提取数据量(46.35MB)将变得困难。 任何人都可以建议,如果我可以使用一些文本建模或培训机器提取这些细节,即使短信的格式随时间变化 我的SMSs格式(结构)会有所不同。那么我可以训练数据集吗?如何继续? 我的输出应该是
数据余额、到期日以及将来的其他详细信息。

不要依赖默认标记化。只需为这个特殊的情况定制一个正则表达式。您可以捕获紧跟句点的日期。如果这些东西有一个指定的格式,那么它实际上不是
nlp
。但是我有十几种其他格式,语言(结构)可能会发生变化,比如日期后面可能会跟一些其他字符/单词@johncolmanso,到目前为止,你尝试过哪些格式不起作用?非标准格式是一种痛苦的工作方式(这是日期和电话号码等内容在编程时非常麻烦的主要原因之一)但这并不是一个自然语言处理问题——这是个好消息。像训练一个神经网络来提取相关信息这样的工作要比想出十几个正则表达式困难得多。我已经将文本标记为单位,使用anytime()运行基本正则表达式来查找日期对象,我进一步使用正则表达式操作符提取了剩余的数据平衡,我想知道是否有更好的方法,因为如前所述,某些格式的日期将无法识别。进一步,当我的SMS结构发生变化时,我必须修改整个代码。我如何在这里使用神经网络?因为我对文本挖掘@JohnColemanDon有点陌生不要依赖默认标记化。只需为这种特殊情况创建一个自定义正则表达式。您可以捕获紧跟句点的日期。如果这些内容具有指定的格式,那么它实际上就不是
nlp
。但是我有十几种其他格式,其中包含语言(结构)可能会改变,比如日期后可能会出现其他字符/单词@JohnColemanSo,到目前为止,您尝试了哪些不起作用的字符/单词?非标准格式很难处理(这是日期和电话号码等内容在编程时非常麻烦的主要原因之一)但这并不是一个自然语言处理问题——这是个好消息。像训练一个神经网络来提取相关信息这样的工作要比想出十几个正则表达式困难得多。我已经将文本标记为单位,使用anytime()运行基本正则表达式来查找日期对象,我进一步使用正则表达式操作符提取了剩余的数据平衡,我想知道是否有更好的方法,因为如前所述,某些格式的日期无法识别。此外,当我的SMS结构发生变化时,我必须修改整个代码。我如何在这里使用神经网络?因为我对文本挖掘@JohnColeman有点陌生