Machine learning 将关系表示为监督学习任务的特征_Machine Learning_Nlp

Machine learning 将关系表示为监督学习任务的特征

machine-learning nlp

Machine learning 将关系表示为监督学习任务的特征,machine-learning,nlp,Machine Learning,Nlp,我试图使用对象之间的关系来完成有监督的学习任务。例如，给定一个类似“猫吃鱼”的文本，我想使用猫吃鱼的关系作为学习任务的特征（即识别单词的意义）。因此，我想用数字表示这种关系，以便我可以将其用作学习模型的特征。任何关于我如何做到这一点的建议。我想把它散列成一个整数，但这可能会带来挑战，比如两个语义相同的关系可能有两个非常不同的散列值。理想情况下，我希望2个类似的关系（例如生活和居住）散列到相同的值。我想我还需要弄清楚是否可以在散列之前规范化关系其他可能不使用数字特征的方法也会有用。我还想知道是

我试图使用对象之间的关系来完成有监督的学习任务。例如，给定一个类似“猫吃鱼”的文本，我想使用猫吃鱼的关系作为学习任务的特征（即识别单词的意义）。因此，我想用数字表示这种关系，以便我可以将其用作学习模型的特征。任何关于我如何做到这一点的建议。我想把它散列成一个整数，但这可能会带来挑战，比如两个语义相同的关系可能有两个非常不同的散列值。理想情况下，我希望2个类似的关系（例如生活和居住）散列到相同的值。我想我还需要弄清楚是否可以在散列之前规范化关系

其他可能不使用数字特征的方法也会有用。我还想知道是否有基于图形的方法来解决这个问题。

我建议为所有可能的关系类型生成（大量）二进制特征，然后可能在生成的（非常稀疏的）特征空间上运行某种形式的降维

另一种减少稀疏性的方法是用实体类型替换裸词，例如[animal]吃[animal]，甚至[animate]吃[animate]，然后在此空间中使用二进制特征。您希望避免映射到单个维度上的数值，因为如果这样做，将在要素之间强加虚假的顺序关系。

如何通过表示动词前面的典型单词（通常是主语）和动词后面的典型单词（通常是宾语）的要素来表示动词。假设你可以选取500个最常见的单词（或者更好的是，选取最有辨别力的单词），那么每个动词都可以表示为1000维向量。向量中的每个特征可以是二进制（是否存在频率高于某个阈值的单词），也可以是纯计数，或者最好是对数。然后，可以运行PCA将向量降到更小的维度

上面的方法是概率性的，根据您的需要，可能是好的，也可能是坏的。如果您想通过大量手动输入精确地完成此操作，请查看情景语义。

您最终做了什么？我只是使用了一种基于图形的方法，其中关系是两个实体之间的边。