Machine learning 斯坦福手套&x27;没有标点符号吗?

Machine learning 斯坦福手套&x27;没有标点符号吗?,machine-learning,nlp,stanford-nlp,Machine Learning,Nlp,Stanford Nlp,我知道,通过注意什么经常同时发生,等等来训练向量,但为什么不包括逗号和句点呢?对于任何NLP,向量表示似乎都是一个重要的特性。我意识到像(king-man=queen)这样的东西对(word-,=?)没有意义,但是有没有一种方法来表示标点符号和数字呢 是否有包含此类内容的预制数据集?这能奏效吗 我试着用我自己的数据集来训练手套,但是我遇到了一个问题,无法在单词之间分离标点符号(用空格),等等。将标点符号作为单词向量生成的单个标记来处理是完全可以的,也是很常见的。另请参见word2vec文件示例。

我知道,通过注意什么经常同时发生,等等来训练向量,但为什么不包括逗号和句点呢?对于任何NLP,向量表示似乎都是一个重要的特性。我意识到像(king-man=queen)这样的东西对(word-,=?)没有意义,但是有没有一种方法来表示标点符号和数字呢

是否有包含此类内容的预制数据集?这能奏效吗


我试着用我自己的数据集来训练手套,但是我遇到了一个问题,无法在单词之间分离标点符号(用空格),等等。

将标点符号作为单词向量生成的单个标记来处理是完全可以的,也是很常见的。另请参见word2vec文件示例。我假设预构建的word2vec数据集有标点符号。而且我确信预先构建的手套向量也有标点符号


有很多标记器将标点符号作为单独的单词分开。我肯定知道的一个是ARK Tweet Tokenizer。

我对Senna使用的单词向量进行了一些研究,我正在查看vocab列表

我肯定看到标点符号的条目

处理数字的技巧是用0替换每个数字,然后学习每个模式的分布。例如,1999年映射到0000,01-01-2015映射到00-00-0000,等等

塞纳有这些模式的条目,比如0000等等


我将查看手套,并尝试尽快更新此答案…

预先训练的手套向量确实有标点符号,您为什么认为它们没有标点符号?至少Wikipedia 2014+Gigaword 5(6B代币)集包含“,”,“-”等的嵌入,只需下载这些单词向量,并自行验证,它们是纯文本格式的,所以很容易做到

我对数字和点阵使用了这种转换。这不是一个好方法,但也可能有用

对于数字,我将所有数字转换为
“NUM”

ex:
178=“NUM”
654=“NUM”

对于点状刺激,我将其转换为“PUNC”。
ex:
苹果、橙色、香蕉=苹果“朋克”橙色“朋克”香蕉


这不是一个好的解决方案,但在某种程度上是有效的。

啊,好吧,我使用的是text8默认训练集