如何在xml文件中搜索单词并在python中打印_Python_Xml_Nlp_Nltk_Tokenize

如何在xml文件中搜索单词并在python中打印

python xml nlp

如何在xml文件中搜索单词并在python中打印,python,xml,nlp,nltk,tokenize,Python,Xml,Nlp,Nltk,Tokenize,我想在.xml文件中搜索一个特定的单词（由用户输入）。这是我的xml文件 <?xml version="1.0" encoding="UTF-8"?> <words> <entry> <word>John</word> <pron>()</pron> <gram>[Noun]</gram> <poem></poem> <meanings> <mea

我想在.xml文件中搜索一个特定的单词（由用户输入）。这是我的xml文件

<?xml version="1.0" encoding="UTF-8"?>
<words>
<entry>
<word>John</word>
<pron>()</pron>
<gram>[Noun]</gram>
<poem></poem>
<meanings>
<meaning>name</meaning>
</meanings>
</entry>
</words>


约翰
()
[名词]
名称

这是我的密码

import nltk
from nltk.tokenize import word_tokenize
import os
import xml.etree.ElementTree as etree


sen = input("Enter Your sentence - ")

print(sen)
print("\n")
print(word_tokenize(sen)[0])

tree = etree.parse('roman.xml')
node=etree.fromstring(tree)

#node=etree.fromstring('<a><word>waya</word><gram>[Noun]</gram> 
<meaning>talking</meaning></a>')
s = node.findtext(word_tokenize(sen)[0])
print(s)

导入nltk
从nltk.tokenize导入单词\u tokenize
导入操作系统
将xml.etree.ElementTree作为etree导入
sen=输入（“输入您的句子-”）
印刷品（sen）
打印（“\n”）
打印（word_标记化（sen）[0]）
tree=etree.parse（'roman.xml'）
node=etree.fromstring（树）
#node=etree.fromstring（'waya[名词]
谈话’）
s=node.findtext（单词\u标记化（sen）[0]）
印刷品

我什么都试过了，但还是犯了错误

需要类似字节的对象，而不是“ElementTree”

我真的不知道如何解决它。

发生错误是因为您正在将elementtree对象传递给fromstring（）方法。这样做：

>>> import os
>>> import xml.etree.ElementTree as etree
>>> a = etree.parse('a.xml')
>>> a
<xml.etree.ElementTree.ElementTree object at 0x10fcabeb8>
>>> b = a.getroot()
>>> b
<Element 'words' at 0x10fb21f48>
>>> b[0][0].text
'John'

导入操作系统 >>>将xml.etree.ElementTree作为etree导入 >>>a=etree.parse（'a.xml'） >>>a >>>b=a.getroot（） >>>b >>>b[0][0]。文本 “约翰” 使用find（）和findall（）方法进行搜索

有关详细信息，请检查库：

简单的例子：

test.xml

<?xml version="1.0" encoding="UTF-8"?>
<words>
  <word value="John"></word>
  <word value="Mike"></word>
  <word value="Scott"></word>
</words>

示例.py

root = ET.parse("test.xml")
>>> search = root.findall(".//word/.[@value='John']")
>>> search
[<Element 'word' at 0x10be9c868>]
>>> search[0].attrib
{'value': 'John'}
>>> search[0].tag
'word'

root=ET.parse（“test.xml”）
>>>search=root.findall（“.//word/[@value='John']”）
>>>搜寻
[]
>>>搜索[0]。属性
{'value'：'John'}
>>>搜索[0]。标记
“单词”

我不知道您为什么要调用

etree.fromstring（tree）

，因为在前一行中，您已经将源文档解析为

ElementTree

对象<代码>树不是字符串，这就是为什么会出现错误。我已经修改了我的代码，它正常工作，但我想我在代码中做错了什么。它没有给我想要的输出。我的xml文件包含第一个标记名“John”，但当我的程序搜索它时，它仍然返回“None”。下面是我的代码：从nltk.tokenize导入word\u tokenize导入os导入xml.etree.ElementTree作为etree sen=input（“输入您的句子-”）打印（sen）打印（word\u tokenize（sen））打印（“\n”)print（word_tokenize（sen）[0]）print（“\n”）roman=etree.parse（'roman.xml'）s=roman.findtext（word_tokenize（sen）[0]）print（s）我用一个简单的例子更新了答案。请查看此页面，它将非常有用：。希望这有帮助