Python-如果包含西班牙语单词,如何删除句子

Python-如果包含西班牙语单词,如何删除句子,python,text,nltk,Python,Text,Nltk,正如标题所述,我有一个包含英语或西班牙语字符串的数据集。在预处理之前,我想删除任何包含西班牙语单词的行 我是否应该在整个数据集中使用西班牙语语料库循环来查看句子中是否存在任何西班牙语单词 如果您有任何帮助,我们将不胜感激。我想您想要使用的库是。下面是一些我刚刚编写的示例代码+输出 from langdetect import detect sentences = ["hello, how are you", "Hola cómo estás",

正如标题所述,我有一个包含英语或西班牙语字符串的数据集。在预处理之前,我想删除任何包含西班牙语单词的行

我是否应该在整个数据集中使用西班牙语语料库循环来查看句子中是否存在任何西班牙语单词


如果您有任何帮助,我们将不胜感激。

我想您想要使用的库是。下面是一些我刚刚编写的示例代码+输出

from langdetect import detect

sentences = ["hello, how are you",
             "Hola cómo estás",
             "I've had a great day"]

for sentence in sentences:
    print(detect(sentence)) # outputs 'en', 'es', 'en'

希望这对您有所帮助,欢迎您回答任何后续问题

我想您想要使用的库是。下面是一些我刚刚编写的示例代码+输出

from langdetect import detect

sentences = ["hello, how are you",
             "Hola cómo estás",
             "I've had a great day"]

for sentence in sentences:
    print(detect(sentence)) # outputs 'en', 'es', 'en'

希望这能有所帮助,乐意回答任何后续问题

当您实施您的想法时会发生什么?有什么不起作用?并在这里应用。我还没有实现它。实际上收集西班牙语单词语料库有困难。。。这使得您需要推测性的设计建议——而不仅仅是堆栈溢出。你的直截了当的方法是一个“明显的”可行的解决方案。按预期频率对语料库进行排序,以促进早期发现。如果你的文本只有一个西班牙语单词呢?也许你需要研究英语/西班牙语比率指标。看一看。我自己从来没有尝试过,但听说过一些好东西。当你实现你的想法时会发生什么?有什么不起作用?并在这里应用。我还没有实现它。实际上收集西班牙语单词语料库有困难。。。这使得您需要推测性的设计建议——而不仅仅是堆栈溢出。你的直截了当的方法是一个“明显的”可行的解决方案。按预期频率对语料库进行排序,以促进早期发现。如果你的文本只有一个西班牙语单词呢?也许你需要研究英语/西班牙语比率指标。看一看。我自己从来没有试过,但听说过一些好东西。这很有效,谢谢!它在计算上相当昂贵,但它似乎是我能找到的唯一选择。很高兴听到它!我想这比自己写任何东西都要简单。这很有效,谢谢!它在计算上相当昂贵,但它似乎是我能找到的唯一选择。很高兴听到它!我认为这比自己写任何东西都要简单。