Language agnostic 有趣的NLP/机器学习风格项目——分析隐私策略

Language agnostic 有趣的NLP/机器学习风格项目——分析隐私策略,language-agnostic,artificial-intelligence,nlp,machine-learning,Language Agnostic,Artificial Intelligence,Nlp,Machine Learning,我想就分配给我的一个有趣的问题提供一些意见。这项任务是分析成百上千的隐私政策,并确定其核心特征。例如,他们是否使用用户的位置?是否与第三方共享/销售?等等 我和一些人谈过,读过很多关于隐私政策的书,我自己也思考过这个问题。以下是我目前的攻击计划: 首先,阅读大量隐私信息,找出满足某一特征的主要“线索”或指标。例如,如果数百条隐私政策都有相同的一行:“我们将获取您的位置”,那么这一行可能是一个100%自信的提示,即隐私政策包括获取用户的位置。其他线索对某一特征的置信度要小得多。。例如,“位置”一词

我想就分配给我的一个有趣的问题提供一些意见。这项任务是分析成百上千的隐私政策,并确定其核心特征。例如,他们是否使用用户的位置?是否与第三方共享/销售?等等

我和一些人谈过,读过很多关于隐私政策的书,我自己也思考过这个问题。以下是我目前的攻击计划:

首先,阅读大量隐私信息,找出满足某一特征的主要“线索”或指标。例如,如果数百条隐私政策都有相同的一行:“我们将获取您的位置”,那么这一行可能是一个100%自信的提示,即隐私政策包括获取用户的位置。其他线索对某一特征的置信度要小得多。。例如,“位置”一词的存在可能会使用户的位置被存储的可能性增加25%

我们的想法是不断开发这些线索,以及它们的适当置信区间,以便我能够以高度的置信度对所有隐私政策进行分类。这里可以类比电子邮件垃圾邮件捕获系统,该系统使用贝叶斯过滤器来识别哪些邮件可能是商业邮件和未经请求的邮件


我想问你们是否认为这是解决这个问题的好方法。你会如何处理这样的问题?此外,您是否建议使用任何特定的工具或框架。欢迎任何意见。这是我第一次做一个涉及人工智能的项目,特别是机器学习和NLP。

这确实是一个非常有趣的问题

在更高的层次上,您需要的是—文档必须简化为几个关键短语。这远远不是一个解决的问题。一个简单的方法是搜索关键字,而不是关键短语。您可以尝试类似LDA的主题建模方法,以找到每个文档的内容。然后,您可以搜索所有文档中的主题-我怀疑接下来会出现的是与许可证、位置、版权等有关的内容。LDA具有易于使用的实现

我们的想法是不断开发这些线索,以及它们的适当置信区间,以便我能够以高度的置信度对所有隐私政策进行分类。这里可以类比电子邮件垃圾邮件捕获系统,该系统使用贝叶斯过滤器来识别哪些邮件可能是商业邮件和未经请求的邮件

这是。考虑到每个文档有多个输出类别,它实际上是。标准方法是使用您想要预测的类/标签创建一组文档,然后根据文档的特征训练分类器;通常为单词或n-gram出现或计数,可能由tf idf加权


流行的文档分类学习算法包括朴素贝叶斯(naivebayes)和线性支持向量机(linearsvms),尽管其他分类器学习器也可以使用。通过(OvR)构造,任何分类器都可以扩展为多标签分类器。

我将把它作为一个机器学习问题来处理,在这个问题中,您尝试以多种方式对事物进行分类-即需要位置、需要ssn等

您需要列举要使用的特征(位置、ssn),然后针对每个文档说明该文档是否使用该信息。选择您的功能,训练您的数据,然后分类和测试

我认为像单词和n-gram这样的简单功能可能会让你走得很远,而一本与ssn或位置相关的单词词典会很好地完成这项工作


使用您选择的机器学习算法-朴素贝叶斯非常容易实现和使用,可以作为解决问题的第一步。

问题不是真正的文档分类。您希望将每个文档拆分为块,然后标记/分类/汇总每个块。天真的方法可以将每个段落或语法句子视为一个块,但可能太粗糙了。不过,只有一些段落实际上对典型用户的隐私很重要。我对“热点”问题很感兴趣,比如抓取位置、向第三方销售等。标准样板文件无关紧要。我试图指出的一点是,对于这样一个系统来说,如果不能区分“我知道这是什么,我可以忽略它”和“我不知道这是什么”,那将是一个相当严重的错误。所以我认为事实上你需要确定你所说的“标准样板”。如果它确实是标准的样板,那么与主要任务相比,它应该是容易的。