Warning: file_get_contents(/data/phpspider/zhask/data//catemap/6/multithreading/4.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Machine learning 将关系表示为监督学习任务的特征_Machine Learning_Nlp - Fatal编程技术网

Machine learning 将关系表示为监督学习任务的特征

Machine learning 将关系表示为监督学习任务的特征,machine-learning,nlp,Machine Learning,Nlp,我试图使用对象之间的关系来完成有监督的学习任务。 例如,给定一个类似“猫吃鱼”的文本,我想使用猫吃鱼的关系作为学习任务的特征(即识别单词的意义)。因此,我想用数字表示这种关系,以便我可以将其用作学习模型的特征。任何关于我如何做到这一点的建议。我想把它散列成一个整数,但这可能会带来挑战,比如两个语义相同的关系可能有两个非常不同的散列值。理想情况下,我希望2个类似的关系(例如生活和居住)散列到相同的值。我想我还需要弄清楚是否可以在散列之前规范化关系 其他可能不使用数字特征的方法也会有用。我还想知道是

我试图使用对象之间的关系来完成有监督的学习任务。 例如,给定一个类似“猫吃鱼”的文本,我想使用猫吃鱼的关系作为学习任务的特征(即识别单词的意义)。因此,我想用数字表示这种关系,以便我可以将其用作学习模型的特征。任何关于我如何做到这一点的建议。我想把它散列成一个整数,但这可能会带来挑战,比如两个语义相同的关系可能有两个非常不同的散列值。理想情况下,我希望2个类似的关系(例如生活和居住)散列到相同的值。我想我还需要弄清楚是否可以在散列之前规范化关系

其他可能不使用数字特征的方法也会有用。我还想知道是否有基于图形的方法来解决这个问题。

我建议为所有可能的关系类型生成(大量)二进制特征,然后可能在生成的(非常稀疏的)特征空间上运行某种形式的降维


另一种减少稀疏性的方法是用实体类型替换裸词,例如[animal]吃[animal],甚至[animate]吃[animate],然后在此空间中使用二进制特征。您希望避免映射到单个维度上的数值,因为如果这样做,将在要素之间强加虚假的顺序关系。

如何通过表示动词前面的典型单词(通常是主语)和动词后面的典型单词(通常是宾语)的要素来表示动词。假设你可以选取500个最常见的单词(或者更好的是,选取最有辨别力的单词),那么每个动词都可以表示为1000维向量。向量中的每个特征可以是二进制(是否存在频率高于某个阈值的单词),也可以是纯计数,或者最好是对数。然后,可以运行PCA将向量降到更小的维度


上面的方法是概率性的,根据您的需要,可能是好的,也可能是坏的。如果您想通过大量手动输入精确地完成此操作,请查看情景语义。

您最终做了什么?我只是使用了一种基于图形的方法,其中关系是两个实体之间的边。