Ibm cloud watson特殊字符、重复帖子和url处理

Ibm cloud watson特殊字符、重复帖子和url处理,ibm-cloud,ibm-watson,personality-insights,Ibm Cloud,Ibm Watson,Personality Insights,在使用watson Personal insights API时,我已经注意到一些奇怪的趋势,包括许多维度的平均值得分(例如,与0.27左右的人相处融洽),这让我觉得这是归因于什么 回顾后,我注意到一个语言不一致的问题(即,如果它认为是英语,那么你可能会得到奇怪的结果,比如西班牙语),这导致我提出问题,但没有找到答案: 沃森如何处理: 1) 消息中的URL(例如,许多twitter帖子都有URL) 2) 重复发帖(多个频道多次重复发帖) 3) 特殊字符(许多帖子有大量随机特殊字符) 我的目标是确

在使用watson Personal insights API时,我已经注意到一些奇怪的趋势,包括许多维度的平均值得分(例如,与0.27左右的人相处融洽),这让我觉得这是归因于什么

回顾后,我注意到一个语言不一致的问题(即,如果它认为是英语,那么你可能会得到奇怪的结果,比如西班牙语),这导致我提出问题,但没有找到答案:

沃森如何处理: 1) 消息中的URL(例如,许多twitter帖子都有URL) 2) 重复发帖(多个频道多次重复发帖) 3) 特殊字符(许多帖子有大量随机特殊字符)


我的目标是确定我需要做多少预处理才能使watson最有效。

您是正确的,如果语言不一致,那么您将得到不正确的结果

Pi API首先从内容语言头确定语言。如果缺少,那么如果内容类型是json,那么它会查看json内容中的语言,选择出现次数最多的语言,最后,如果缺少,它将默认为默认语言,即英语

因此,简而言之,建议(在将来的更新中将成为必需的)始终在内容语言头中发送

第二,关于你提出的内容问题: -URL:服务将尝试删除这些URL。我不能保证它会删除所有可能的选项,因为url规范有一些非常深奥的选项,但我们会删除常见的格式。 -重复发帖:如果你在同一个帖子中发送两次,那么它将被计算两次。我们不会对发送到服务中的文本进行重复数据消除。
-特殊字符;我想你指的是表情符号。这些都包括在我们的处理过程中,因为基础模型也是根据包含它们的数据进行训练的,因此它们是服务使用的众多信号之一。

问题,鉴于您有特定的语言,watson是如何处理俚语的?我假设给定您指定的语言,俚语get的参数化是“有条件的”?(也就是说,如果你说文本是西班牙语或英语,那么“dude”或“homie”将以不同的方式参数化,对吗?)。对于提供者所需的语言识别理念更感好奇。关于表情符号,它是utf-8形式,还是通过标点符号的原始生成。这个:)vs☹ 总的来说,问题是我们应该如何预处理数据以优化使用watson。watson Personal Insights服务针对各种twitter数据进行培训,因此您是正确的,俚语将根据指定的语言进行处理。高层次,;每种语言中的每个特征都有自己的模型,因此,如果训练数据包含一些俚语,那么这些俚语就会被该语言的模型所识别。关于表情符号,你不需要做任何预处理。这两种形式都可以被服务使用,如果它发现了相关的信号(也就是说,你可以发送其中的一种,如果模型发现它和特征之间的相关性,它们可能会被使用)。这是一个很好的信息。谢谢你的澄清。这是一个非常有趣的领域,我们应该找时间聊天!