Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/322.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
如何使用Python从中删除HTML、URL_Python_Html_Regex_Xml_Text Classification - Fatal编程技术网

如何使用Python从中删除HTML、URL

如何使用Python从中删除HTML、URL,python,html,regex,xml,text-classification,Python,Html,Regex,Xml,Text Classification,我有这个xml文件列表。现在我必须过滤掉一些标签。问题是文本,里面有很多html标记和URL,我需要纯文本。我想在循环中删除这些元素,然后将清理后的文本附加到我的新列表中。这就是我目前所拥有的 data = [] for conv in root.findall('./conversations/conversation'): pattern = re.compile( r'!\b(((ht|f)tp(s?))\://)?(www.|[a-z].)[a-z0-9\

我有这个xml文件列表。现在我必须过滤掉一些标签。问题是文本,里面有很多html标记和URL,我需要纯文本。我想在循环中删除这些元素,然后将清理后的文本附加到我的新列表中。这就是我目前所拥有的

    data = []
    for conv in root.findall('./conversations/conversation'):
        pattern = re.compile( r'!\b(((ht|f)tp(s?))\://)?(www.|[a-z].)[a-z0-9\-\.]+\.)(\:[0-9]+)*(/($|[a-z0-9\.\,\;\?\\\\\\\+&%\$#\=~_\-]+))*\b!i')
        if pattern.search(conv.text):
           re.sub(pattern, ' ')
           data.append(conv.text)    
我找不到合适的正则表达式来删除这样的东西
br/>
和如下URL:
http://neocash43.blog.com/2011/07/26/psp-sport-assessment-neopets-the-wand-of-wishing/


第二个问题是,对于这个xml根结构,我现在不知道如何将清理过的对话文本附加到新列表中。

python模块有一个HTML到文本的函数,该函数调用。默认情况下,此函数删除所有HTML标记。对于URL,请使用现有的正则表达式。

您可以尝试使用pyparsing库的正则表达式。我刚刚在Python 3.4的机器上使用了这个脚本。

您能提供一个预期的输入输出示例吗?我建议您研究beautifulsoup4,“一个用于从HTML和XML文件中提取数据的Python库。它与您喜爱的解析器配合使用,提供导航、搜索和修改解析树的惯用方法。”你对这个网址有信心吗?当我尝试加载它时,我得到一个502坏网关。为了我的澄清,您是否要删除从某个xml恢复的字符串中的所有HTML标记?@BillBell我很抱歉,Url就是我想要删除的Url的一个示例remove@Szalbolcs输入文本:'\n\t\t\tZafaras在Neopia的其他宠物中确实拥有最好的听力。

;如果你没有听说过尼奥皮斯,那么我会非常好奇你是从哪个星球来的,你肯定不是尼奥皮亚人。“rel=“nofollow“>,输出:Zafaras的听觉在Neopia的任何其他宠物中都是最棒的。如果你没有听说过Neopets,那么我不得不非常好奇你来自哪个星球,你肯定不是来自Neopia。是的,我想试试,但它与Python 3.6不兼容。所以我还是被卡住了。Pyparsing不再托管在wikispaces.com上。去