在Python中分离马来语句子边界?
我有一个unicode编码的马来语文本文件,比如a.txt。我正在将该文本文件中的每个单词存储到一个列表中。因此,该列表包含文本中的每个单词 范例在Python中分离马来语句子边界?,python,nlp,Python,Nlp,我有一个unicode编码的马来语文本文件,比如a.txt。我正在将该文本文件中的每个单词存储到一个列表中。因此,该列表包含文本中的每个单词 范例 text="അവള് പൊട്ടിക്കരഞ്ഞുകൊണ്ട് നൈല് നദീതീരം മുഴുവന് തന്റെ കാമുകന്റെ ശരീരഭാഗങ്ങള്ക്കായി അലഞ്ഞുനടന്നു. ഒരുപക്ഷെ, മറെറാരു പുരാണ-ഐതിഹ്യ കാവ്യങ്ങളിലും ഇത്ര ഹൃദയസ്
text="അവള് പൊട്ടിക്കരഞ്ഞുകൊണ്ട് നൈല് നദീതീരം മുഴുവന് തന്റെ
കാമുകന്റെ ശരീരഭാഗങ്ങള്ക്കായി അലഞ്ഞുനടന്നു. ഒരുപക്ഷെ, മറെറാരു
പുരാണ-ഐതിഹ്യ കാവ്യങ്ങളിലും ഇത്ര ഹൃദയസ്പര്ശിയായ ഒരു തിരച്ചിലിന്റെ
കഥ വിവരിക്കപ്പെട്ടിട്ടുണ്ടാവില്ല."
但是句子的边界也附在句子的最后一个词上。像[അലഞ്ഞുനടന്നു.]代码>
我想让它像[അലഞ്ഞുനടന്നു] [.]
[വിവരിക്കപ്പെട്ടിട്ടുണ്ടാവില്ല] [.]
我是这样做的
with codecs.open(r"C:\Users\cusat\Documents\Python Scripts\test document.txt",encoding="utf-8") as fpnr:
text=fpnr.read()
text_of_sentences=segmentize(text)
fpnr.close()
for sentence in text_of_sentences:
if len(sentence) > 1:
sentences.append(worder(sentence))
#print sentences
for sentence in sentences:
#print sentence
for word in sentence:
#print word
trimdwrds=trim(word)
wordses.append(trimdwrds)
for word in wordses:
if len(word) >= 1:
re.sub(r'([\u0900-\u097F]+)(\.)(\s*)', r'\1 \2', word)
这会将文本
字符串拆分为空格或
,但它会保留
,因为它位于正则表达式中的捕获组中。然后它会从拆分中过滤出空字符串。“我正在将该文本文件中的每个单词存储到列表中。”-您是如何做到这一点的?您是否也可以发布分段
和单词
函数的代码?
import re
words = [word for word in re.split('\s|(\.)', text) if word]
print(words)
['അവള്', 'പൊട്ടിക്കരഞ്ഞുകൊണ്ട്', 'നൈല്', 'നദീതീരം', 'മുഴുവന്', 'തന്റെ', 'കാമുകന്റെ', 'ശരീരഭാഗങ്ങള്ക്കായി', 'അലഞ്ഞുനടന്നു', '.', 'ഒരുപക്ഷെ,', 'മറെറാരു', 'പുരാണ-ഐതിഹ്യ', 'കാവ്യങ്ങളിലും', 'ഇത്ര', 'ഹൃദയസ്പര്ശിയായ', 'ഒരു', 'തിരച്ചിലിന്റെ', 'കഥ', 'വിവരിക്കപ്പെട്ടിട്ടുണ്ടാവില്ല', '.']