用印地语将不带标点符号的段落拆分为Python中的句子_Python_Python 3.x_Python Unicode

用印地语将不带标点符号的段落拆分为Python中的句子

python python-3.x

用印地语将不带标点符号的段落拆分为Python中的句子,python,python-3.x,python-unicode,Python,Python 3.x,Python Unicode,我试着把用印地语写的一段话分成几个句子。问题是该段中并非所有句子都以“|”结尾，因此使用split（）的想法失败了。有人能推荐一些解决方案吗以下是一段： विकिपीडिया सभी विषयों पर प्रामाणिक और उपयोग, परिवर्तन व पुनर्वितरण के लिए स्वतन्त्र ज्ञानकोश बनाने का एक बहुभाषीय प्रकल्प है। यह यथासम्भव निष्पक्ष दृष्टिकोण वाली सूचना प्रस

我试着把用印地语写的一段话分成几个句子。问题是该段中并非所有句子都以“|”结尾，因此使用split（）的想法失败了。有人能推荐一些解决方案吗

以下是一段：

विकिपीडिया सभी विषयों पर प्रामाणिक और उपयोग, परिवर्तन व पुनर्वितरण के लिए स्वतन्त्र ज्ञानकोश बनाने का एक बहुभाषीय प्रकल्प है। यह यथासम्भव निष्पक्ष दृष्टिकोण वाली सूचना प्रसारित करने के लिए कृतसंकल्प है। सर्वप्रथम अंग्रेज़ी विकिपीडिया जनवरी 2001में आरम्भ किया गया था, और हिन्दी विकिपीडिया का शुभारम्भ जुलाई 2003में हुआ। सहायता पृष्ठ पर जाएं और प्रयोगस्थल में प्रयोग करके देखें कि आप स्वयं किसी लेख को कैसे परिवर्तित कर सकते हैं।

这是我的密码：

import codecs

class Tokenizer():
def __init__(self,text):
    self.text=text.decode('utf-8')
    self.clean_text()
    self.sentences=[]
    self.final_list=[]
    self.bsentences=[]
    self.asentences=[]
    self.final_sentences=self.bsentences+self.asentences

def readFromFile(self,filename):
    f=codecs.open(filename,encoding='utf-8')
    self.text=f.read()
    self.clean_text()

def print_sentences(self,sentences):
        for i in self.sentences:
            print i.encode('utf-8')

def cleanText(self):
    text=self.text
    text=re.sub(r'(\d+)',r'',text)
    text=text.replace(u',','')
    text=text.replace(u'"','')
    text=text.replace(u'"','')
    text=text.replace(u':','')
    text=text.replace(u"'",'')
    text=text.replace(u"‘‘",'')
    text=text.replace(u"’’",'')
    text=text.replace(u"''",'')
    text=text.replace(u".",'')
    self.text=text

def getSentence(self):
    text=self.text
    self.bsentences=text.split(u"।")
    sw=codecs.open("stopwords.txt",encoding='utf-8')
    stopwords=[x.strip() for x in sw.readlines()]
    sentences=[s for s in sw.readlines() if s in enumerate(stopwords)]
    return self.final_sentences

t=Tokenizer('')
t.readFromFile('sample.txt')
t.getSentences()
t.print_sentences()

def sentencesplit_印地语（段落）：
进口稀土
Sentencenders=re.compile（ur“”）（？：（？pyhton 3或2.7？或者您需要跨版本代码吗？请不要标记。-如果您认为我发了垃圾邮件，请向spamI道歉。但对我来说，我对任何版本都很满意。您好@gagan_soni，您能为您的代码添加一些解释吗？谢谢：）这个答案并不能解决我的问题。不是所有的句子都有句号。有时我们会错误地写没有句号的句子，我想知道这个问题的解决方法。这是与用户相关的问题。任何语言的每个句子都应该以句号结尾。机器无法预测句子的结尾。但是你可以y印地语助动词，用于确定句子结尾。例如：था, थी, थे, है, हैं“等等。这不是一个好的、永久的解决方案。这是我想要的方法。请在否决表决前考虑。希望您理解。您提供的解决方案也可以在一行语句中完成。拆分（“|”）
def sentencesplit_hindi(paragraph):
        import re
        sentenceEnders = re.compile(ur"""(?:(?<=[\|!?])|(?<=[\।]))\s+""",re.MULTILINE |re.UNICODE)
        sentenceList = sentenceEnders.split(paragraph)
        return sentenceList