如何在python中访问这些标记中的文本？_Python_Nlp_Nltk_Data Science

如何在python中访问这些标记中的文本？

python nlp

如何在python中访问这些标记中的文本？,python,nlp,nltk,data-science,Python,Nlp,Nltk,Data Science,我有一个标记名词短语的数据集。如何找到这些标记并从标记内部提取数据 در همین حال <coref coref_coref_class="set_0" coref_mentiontype="ne" markable_scheme="coref" coref_coreftype="ident"> نجیب الله خواجه عمری </coref> <coref coref_coref_class="set_0" coref_mentiontype="np

我有一个标记名词短语的数据集。如何找到这些标记并从标记内部提取数据

در
همین
حال
<coref coref_coref_class="set_0" coref_mentiontype="ne" markable_scheme="coref" coref_coreftype="ident">
نجیب
الله
خواجه
عمری
</coref>
<coref coref_coref_class="set_0" coref_mentiontype="np" markable_scheme="coref" coref_coreftype="ident">
سرپرست
وزارت
تحصیلات
عالی
افغانستان
</coref>
گفت
که


 def ex_feature(text):
    for w in text:
        if w.startswith("<coref") and w.endswith("</coref>"):
            print(w)


همین
حال
نجیب
الله
خواجه
عمری
سرپرست
وزارت
تحصیلات
عالی
افغانستان
گفت
که
def ex_功能（文本）：
对于文本中的w：
如果w.startswith（“如何
import re
print(re.findall(r'<coref.*?>(.*?)</coref>', text, re.S))

重新导入
打印（关于findall（r'（*？），文本，关于S））
使用beautifulsoup，但它是一个文本文件，而不是使用beautifulsoup的XML或HTML文件。我也可以使用beautifulsoup作为文本文件吗？XML文件是一个带有标记的文本文件，用于组织信息。您有一个使用标记组织信息的文本文件。我觉得它与XML非常接近；）你是对的，你是对的，但我把它转换为另一种格式。目前它是.tt格式。所以在美化的xml解析器中，在美化小组的xml解析器中，没有工作。它看起来很好。它看起来很棒。我试过了，我试过了，它给我这个用“\n”n“n”到每个单词。没错，但我是对的，但我把它转换为另一个格式。但我是对的，但我把我把它转换为另一个格式。但我是对你是对的，但我是对你是对的是对的，但我是对你是对的，但我是对我是对的，但我是对的，但我把它转换为另一个格式。我是对的，但我是对我是对的，但我是对的，但我是对我是对我把它转换到了，但我把它转换为另一个格式。我是对的，但我是对我是对我的，但我是对[中国英语学习网]'如何从输出中删除'\n'。请尝试ans.replace（'\n'，''）
它是一个列表，没有replace属性。list（map（lambda x:x.replace（'\n'，''），ans））