Python 如何检测使用罗马字母书写的印地语句子

Python 如何检测使用罗马字母书写的印地语句子,python,regex,Python,Regex,我有一个csv文件中的YouTube视频评论列表,每行包含一条评论。但问题是这些评论使用不同的语言,前印地语是德夫纳里语,英语是罗马语,印地语是罗马语(有些人称之为Hinglish) 有没有一种方法可以提取具有罗马体印地语注释的行以便进一步处理?如果使用正则表达式来检测这样的模式会很有帮助。在一般情况下,正则表达式不是解决这个问题的好方法。这与--正则表达式非常适合识别不依赖于环境的模式,但这不是人类语言的工作方式。在印度-雅利安语中,有“远距离动作”现象,如连读,很难用正则表达式建模 如果你的

我有一个csv文件中的YouTube视频评论列表,每行包含一条评论。但问题是这些评论使用不同的语言,前印地语是德夫纳里语,英语是罗马语,印地语是罗马语(有些人称之为Hinglish)


有没有一种方法可以提取具有罗马体印地语注释的行以便进一步处理?如果使用正则表达式来检测这样的模式会很有帮助。

在一般情况下,正则表达式不是解决这个问题的好方法。这与--正则表达式非常适合识别不依赖于环境的模式,但这不是人类语言的工作方式。在印度-雅利安语中,有“远距离动作”现象,如连读,很难用正则表达式建模

如果你的目标仅仅是英文或印地语文本,你可能会发现一些启发式方法,这些方法识别它们的准确性有限。例如,注意印地语包含英语中不常见的有向图,如bh、dh和aa。相反,英语中的一些有向图不太可能是印地语


然而,使用相同基本方法的更好解决方案是训练一个简单的语言识别模型,该模型根据整个输入文本的特征计算出统计概率,而不是让正则表达式根据单个字母对做出黑白决定。对实现此功能的Python模块有一些建议。

在一般情况下,正则表达式不是解决此问题的好方法。这与--正则表达式非常适合识别不依赖于环境的模式,但这不是人类语言的工作方式。在印度-雅利安语中,有“远距离动作”现象,如连读,很难用正则表达式建模

如果你的目标仅仅是英文或印地语文本,你可能会发现一些启发式方法,这些方法识别它们的准确性有限。例如,注意印地语包含英语中不常见的有向图,如bh、dh和aa。相反,英语中的一些有向图不太可能是印地语


然而,使用相同基本方法的更好解决方案是训练一个简单的语言识别模型,该模型根据整个输入文本的特征计算出统计概率,而不是让正则表达式根据单个字母对做出黑白决定。对实现此功能的Python模块有一些建议。

欢迎!我总是建议新用户以最能让社区提供指导的方式查看有关提问的提示。在本例中,如果您可以提供一些您试图解析的输入的示例或示例,以及一些所需结果的示例,这将非常有用。祝你好运,快乐!欢迎我总是建议新用户以最能让社区提供指导的方式查看有关提问的提示。在本例中,如果您可以提供一些您试图解析的输入的示例或示例,以及一些所需结果的示例,这将非常有用。祝你好运,快乐!