Ibm cloud watson特殊字符、重复帖子和url处理_Ibm Cloud_Ibm Watson_Personality Insights

Ibm cloud watson特殊字符、重复帖子和url处理

ibm-cloud

Ibm cloud watson特殊字符、重复帖子和url处理,ibm-cloud,ibm-watson,personality-insights,Ibm Cloud,Ibm Watson,Personality Insights,在使用watson Personal insights API时，我已经注意到一些奇怪的趋势，包括许多维度的平均值得分（例如，与0.27左右的人相处融洽），这让我觉得这是归因于什么回顾后，我注意到一个语言不一致的问题（即，如果它认为是英语，那么你可能会得到奇怪的结果，比如西班牙语），这导致我提出问题，但没有找到答案：沃森如何处理： 1）消息中的URL（例如，许多twitter帖子都有URL） 2）重复发帖（多个频道多次重复发帖） 3）特殊字符（许多帖子有大量随机特殊字符）我的目标是确

在使用watson Personal insights API时，我已经注意到一些奇怪的趋势，包括许多维度的平均值得分（例如，与0.27左右的人相处融洽），这让我觉得这是归因于什么

回顾后，我注意到一个语言不一致的问题（即，如果它认为是英语，那么你可能会得到奇怪的结果，比如西班牙语），这导致我提出问题，但没有找到答案：

沃森如何处理： 1）消息中的URL（例如，许多twitter帖子都有URL） 2）重复发帖（多个频道多次重复发帖） 3）特殊字符（许多帖子有大量随机特殊字符）

我的目标是确定我需要做多少预处理才能使watson最有效。

您是正确的，如果语言不一致，那么您将得到不正确的结果

Pi API首先从内容语言头确定语言。如果缺少，那么如果内容类型是json，那么它会查看json内容中的语言，选择出现次数最多的语言，最后，如果缺少，它将默认为默认语言，即英语

因此，简而言之，建议（在将来的更新中将成为必需的）始终在内容语言头中发送

第二，关于你提出的内容问题： -URL：服务将尝试删除这些URL。我不能保证它会删除所有可能的选项，因为url规范有一些非常深奥的选项，但我们会删除常见的格式。 -重复发帖：如果你在同一个帖子中发送两次，那么它将被计算两次。我们不会对发送到服务中的文本进行重复数据消除。

-特殊字符；我想你指的是表情符号。这些都包括在我们的处理过程中，因为基础模型也是根据包含它们的数据进行训练的，因此它们是服务使用的众多信号之一。

问题，鉴于您有特定的语言，watson是如何处理俚语的？我假设给定您指定的语言，俚语get的参数化是“有条件的”？（也就是说，如果你说文本是西班牙语或英语，那么“dude”或“homie”将以不同的方式参数化，对吗？）。对于提供者所需的语言识别理念更感好奇。关于表情符号，它是utf-8形式，还是通过标点符号的原始生成。这个：）vs☹ 总的来说，问题是我们应该如何预处理数据以优化使用watson。watson Personal Insights服务针对各种twitter数据进行培训，因此您是正确的，俚语将根据指定的语言进行处理。高层次,；每种语言中的每个特征都有自己的模型，因此，如果训练数据包含一些俚语，那么这些俚语就会被该语言的模型所识别。关于表情符号，你不需要做任何预处理。这两种形式都可以被服务使用，如果它发现了相关的信号（也就是说，你可以发送其中的一种，如果模型发现它和特征之间的相关性，它们可能会被使用）。这是一个很好的信息。谢谢你的澄清。这是一个非常有趣的领域，我们应该找时间聊天！