Python 将unicode（希伯来文字符）与正则表达式一起使用_Python_Regex_Unicode

Python 将unicode（希伯来文字符）与正则表达式一起使用

python regex unicode

Python 将unicode（希伯来文字符）与正则表达式一起使用,python,regex,unicode,Python,Regex,Unicode,我编写了在网页中查找表达式的脚本： import sre, urllib2, sys, BaseHTTPServer # -*- coding: utf-8 -*- address = sys.argv[1] web_handle = urllib2.urlopen(address) website_text = website_handle.read() matches = sre.findall(u"עברית", website_text) for item in matc

我编写了在网页中查找表达式的脚本：

import sre, urllib2, sys, BaseHTTPServer
# -*- coding: utf-8 -*-    
address = sys.argv[1]
web_handle = urllib2.urlopen(address)
website_text = website_handle.read()    
matches = sre.findall(u"עברית", website_text)
for item in matches:
    print iten

如果我使用“正则”正则表达式（不含希伯来文字符），则该脚本可以工作，如果我使用它们，则该脚本与任何内容都不匹配。我做错了什么

编辑例子：

url=

您需要确保输入字符串也是UTF8格式

使用

unicode

函数和

utf-8

作为第二个参数：

website_text = unicode(website_text, "utf-8")

为了让unicode在Python2中工作，一切都应该采用一致的编码。

它怎么不工作？你收到错误信息了吗？它是否完全不匹配？它与不完全相同的东西匹配吗？请提供示例。与您使用的Python版本完全不匹配，您能给我们一个URL进行测试吗？另外，请注意，

nsregularexpression

指的是特定于苹果的regex实现。我把那个标签换成了标准的正则表达式标签。我不知道——这很简单。你能尝试一些简单的例子吗，比如在一个短字符串中找到一个字母（比如，beth或gimel）？你能在自己的副本中找到字符串吗，比如sre.findall（u“עבת”，u“עבׯית”）？@Prune-I将

re.findall（u“עׯת”，u“עבׯת”）粘贴到2.7.9 REPL中，效果很好。如果没有Sanich给我们一个URL来测试，我想我们无法回答这个问题。