Deep learning 使用BERT来检测给定单词的语言_Deep Learning_Nlp_Classification_Bert Language Model

Deep learning 使用BERT来检测给定单词的语言

deep-learning nlp

Deep learning 使用BERT来检测给定单词的语言,deep-learning,nlp,classification,bert-language-model,Deep Learning,Nlp,Classification,Bert Language Model,我有希伯来语的单词。其中一部分原本是英语，另一部分是“希伯来英语”，意思是这些词原本来自英语，但用希伯来语书写。例如：“insulin”在希伯来语中是“אינסו㪡ין”（相同的语音）我有一个简单的二进制数据集。 X：文字（用希伯来文书写） y：如果单词最初是英语，并且是用希伯来语字符书写的，则标签1，否则为0 我尝试过使用分类器，但它的输入是全文，而我的输入只是单词我不希望任何掩蔽发生，我只希望简单的分类有可能用伯特来完成这个任务吗？谢谢BERT的目的是在上下文中处理单词。如果没有上下

我有希伯来语的单词。其中一部分原本是英语，另一部分是“希伯来英语”，意思是这些词原本来自英语，但用希伯来语书写。例如：“insulin”在希伯来语中是“אינסו㪡ין”（相同的语音）

我有一个简单的二进制数据集。 X：文字（用希伯来文书写） y：如果单词最初是英语，并且是用希伯来语字符书写的，则标签1，否则为0

我尝试过使用分类器，但它的输入是全文，而我的输入只是单词

我不希望任何掩蔽发生，我只希望简单的分类

有可能用伯特来完成这个任务吗？谢谢

BERT的目的是在上下文中处理单词。如果没有上下文，类似于BERT的模型相当于简单的word2vec查找（有奇特的标记化，但我不知道它如何处理希伯来语-可能不是很有效）。所以，如果你真的想在分类器中使用分布特征，你可以使用一个预训练的word2vec模型，它比BERT更简单，功能也同样强大

但我不确定它是否会起作用。Word2vec和它的等价物（比如没有上下文的BERT）不太了解单词的内部结构，只知道它所使用的上下文。然而，在你的问题中，单词结构比可能的上下文更重要。例如，单词בלטת（腺体）或דם（血液）或סכר（糖）通常与胰岛素出现在同一上下文中，但ב㪡טת和ד是希伯来语，而סכר是英语（好的，最初是阿拉伯语，但我们可能对太古老的起源不感兴趣）。你不能仅仅从上下文来预测它

那么，为什么不从简单特征（例如字符n-grams）上的一些简单模型（例如logistic回归，甚至是朴素贝叶斯）开始呢？还可以添加分布特征（我的意思是w2v），因为它们说明了主题，主题可能是信息性的（例如，在医学和技术领域，一般来说，英语单词可能比其他领域的更多）

谢谢，我知道字符n-gram是这个问题的经典解决方案，但我想知道我是否可以使用更先进的方法，并使用迁移学习（如BERT、ELMo等）来解决我的问题。谢谢你的评论。