Deep learning 使用BERT来检测给定单词的语言

Deep learning 使用BERT来检测给定单词的语言,deep-learning,nlp,classification,bert-language-model,Deep Learning,Nlp,Classification,Bert Language Model,我有希伯来语的单词。其中一部分原本是英语,另一部分是“希伯来英语”,意思是这些词原本来自英语,但用希伯来语书写。 例如:“insulin”在希伯来语中是“אינסו㪡ין”(相同的语音) 我有一个简单的二进制数据集。 X:文字(用希伯来文书写) y:如果单词最初是英语,并且是用希伯来语字符书写的,则标签1,否则为0 我尝试过使用分类器,但它的输入是全文,而我的输入只是单词 我不希望任何掩蔽发生,我只希望简单的分类 有可能用伯特来完成这个任务吗?谢谢BERT的目的是在上下文中处理单词。如果没有上下

我有希伯来语的单词。其中一部分原本是英语,另一部分是“希伯来英语”,意思是这些词原本来自英语,但用希伯来语书写。 例如:“insulin”在希伯来语中是“אינסו㪡ין”(相同的语音)

我有一个简单的二进制数据集。 X:文字(用希伯来文书写) y:如果单词最初是英语,并且是用希伯来语字符书写的,则标签1,否则为0

我尝试过使用分类器,但它的输入是全文,而我的输入只是单词

我不希望任何掩蔽发生,我只希望简单的分类


有可能用伯特来完成这个任务吗?谢谢

BERT的目的是在上下文中处理单词。如果没有上下文,类似于BERT的模型相当于简单的word2vec查找(有奇特的标记化,但我不知道它如何处理希伯来语-可能不是很有效)。所以,如果你真的想在分类器中使用分布特征,你可以使用一个预训练的word2vec模型,它比BERT更简单,功能也同样强大

但我不确定它是否会起作用。Word2vec和它的等价物(比如没有上下文的BERT)不太了解单词的内部结构,只知道它所使用的上下文。然而,在你的问题中,单词结构比可能的上下文更重要。例如,单词בלטת(腺体)或דם(血液)或סכר(糖)通常与胰岛素出现在同一上下文中,但ב㪡טת和ד是希伯来语,而סכר是英语(好的,最初是阿拉伯语,但我们可能对太古老的起源不感兴趣)。你不能仅仅从上下文来预测它


那么,为什么不从简单特征(例如字符n-grams)上的一些简单模型(例如logistic回归,甚至是朴素贝叶斯)开始呢?还可以添加分布特征(我的意思是w2v),因为它们说明了主题,主题可能是信息性的(例如,在医学和技术领域,一般来说,英语单词可能比其他领域的更多)

谢谢,我知道字符n-gram是这个问题的经典解决方案,但我想知道我是否可以使用更先进的方法,并使用迁移学习(如BERT、ELMo等)来解决我的问题。谢谢你的评论。