Machine learning 斯坦福手套&x27；没有标点符号吗？_Machine Learning_Nlp_Stanford Nlp

Machine learning 斯坦福手套&x27；没有标点符号吗？

machine-learning nlp stanford-nlp

Machine learning 斯坦福手套&x27；没有标点符号吗？,machine-learning,nlp,stanford-nlp,Machine Learning,Nlp,Stanford Nlp,我知道，通过注意什么经常同时发生，等等来训练向量，但为什么不包括逗号和句点呢？对于任何NLP，向量表示似乎都是一个重要的特性。我意识到像（king-man=queen）这样的东西对（word-，=？）没有意义，但是有没有一种方法来表示标点符号和数字呢是否有包含此类内容的预制数据集？这能奏效吗我试着用我自己的数据集来训练手套，但是我遇到了一个问题，无法在单词之间分离标点符号（用空格），等等。将标点符号作为单词向量生成的单个标记来处理是完全可以的，也是很常见的。另请参见word2vec文件示例。

我知道，通过注意什么经常同时发生，等等来训练向量，但为什么不包括逗号和句点呢？对于任何NLP，向量表示似乎都是一个重要的特性。我意识到像（king-man=queen）这样的东西对（word-，=？）没有意义，但是有没有一种方法来表示标点符号和数字呢

是否有包含此类内容的预制数据集？这能奏效吗

我试着用我自己的数据集来训练手套，但是我遇到了一个问题，无法在单词之间分离标点符号（用空格），等等。

将标点符号作为单词向量生成的单个标记来处理是完全可以的，也是很常见的。另请参见word2vec文件示例。我假设预构建的word2vec数据集有标点符号。而且我确信预先构建的手套向量也有标点符号

有很多标记器将标点符号作为单独的单词分开。我肯定知道的一个是ARK Tweet Tokenizer。

我对Senna使用的单词向量进行了一些研究，我正在查看vocab列表

我肯定看到标点符号的条目

处理数字的技巧是用0替换每个数字，然后学习每个模式的分布。例如，1999年映射到0000，01-01-2015映射到00-00-0000，等等

塞纳有这些模式的条目，比如0000等等

我将查看手套，并尝试尽快更新此答案…

预先训练的手套向量确实有标点符号，您为什么认为它们没有标点符号？至少Wikipedia 2014+Gigaword 5（6B代币）集包含“，”，“-”等的嵌入，只需下载这些单词向量，并自行验证，它们是纯文本格式的，所以很容易做到

我对数字和点阵使用了这种转换。这不是一个好方法，但也可能有用

对于数字，我将所有数字转换为

“NUM”

ex:

178=“NUM”

或

654=“NUM”

对于点状刺激，我将其转换为“PUNC”。
ex:

苹果、橙色、香蕉=苹果“朋克”橙色“朋克”香蕉

这不是一个好的解决方案，但在某种程度上是有效的。

啊，好吧，我使用的是text8默认训练集