Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/353.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
如何在python中访问这些标记中的文本?_Python_Nlp_Nltk_Data Science - Fatal编程技术网

如何在python中访问这些标记中的文本?

如何在python中访问这些标记中的文本?,python,nlp,nltk,data-science,Python,Nlp,Nltk,Data Science,我有一个标记名词短语的数据集。如何找到这些标记并从标记内部提取数据 در همین حال <coref coref_coref_class="set_0" coref_mentiontype="ne" markable_scheme="coref" coref_coreftype="ident"> نجیب الله خواجه عمری </coref> <coref coref_coref_class="set_0" coref_mentiontype="np

我有一个标记名词短语的数据集。如何找到这些标记并从标记内部提取数据

در
همین
حال
<coref coref_coref_class="set_0" coref_mentiontype="ne" markable_scheme="coref" coref_coreftype="ident">
نجیب
الله
خواجه
عمری
</coref>
<coref coref_coref_class="set_0" coref_mentiontype="np" markable_scheme="coref" coref_coreftype="ident">
سرپرست
وزارت
تحصیلات
عالی
افغانستان
</coref>
گفت
که


 def ex_feature(text):
    for w in text:
        if w.startswith("<coref") and w.endswith("</coref>"):
            print(w)

همین
حال
نجیب
الله
خواجه
عمری
سرپرست
وزارت
تحصیلات
عالی
افغانستان
گفت
که
def ex_功能(文本):
对于文本中的w:
如果w.startswith(“如何

import re
print(re.findall(r'<coref.*?>(.*?)</coref>', text, re.S))
重新导入
打印(关于findall(r'(*?),文本,关于S))

使用beautifulsoup,但它是一个文本文件,而不是使用beautifulsoup的XML或HTML文件。我也可以使用beautifulsoup作为文本文件吗?XML文件是一个带有标记的文本文件,用于组织信息。您有一个使用标记组织信息的文本文件。我觉得它与XML非常接近;)你是对的,你是对的,但我把它转换为另一种格式。目前它是.tt格式。所以在美化的xml解析器中,在美化小组的xml解析器中,没有工作。它看起来很好。它看起来很棒。我试过了,我试过了,它给我这个用“\n”n“n”到每个单词。没错,但我是对的,但我把它转换为另一个格式。但我是对的,但我把我把它转换为另一个格式。但我是对你是对的,但我是对你是对的是对的,但我是对你是对的,但我是对我是对的,但我是对的,但我把它转换为另一个格式。我是对的,但我是对我是对的,但我是对的,但我是对我是对我把它转换到了,但我把它转换为另一个格式。我是对的,但我是对我是对我的,但我是对[中国英语学习网]'如何从输出中删除'\n'。请尝试
ans.replace('\n','')
它是一个列表,没有replace属性。
list(map(lambda x:x.replace('\n',''),ans))