Python 将unicode(希伯来文字符)与正则表达式一起使用

Python 将unicode(希伯来文字符)与正则表达式一起使用,python,regex,unicode,Python,Regex,Unicode,我编写了在网页中查找表达式的脚本: import sre, urllib2, sys, BaseHTTPServer # -*- coding: utf-8 -*- address = sys.argv[1] web_handle = urllib2.urlopen(address) website_text = website_handle.read() matches = sre.findall(u"עברית", website_text) for item in matc

我编写了在网页中查找表达式的脚本:

import sre, urllib2, sys, BaseHTTPServer
# -*- coding: utf-8 -*-    
address = sys.argv[1]
web_handle = urllib2.urlopen(address)
website_text = website_handle.read()    
matches = sre.findall(u"עברית", website_text)
for item in matches:
    print iten
如果我使用“正则”正则表达式(不含希伯来文字符),则该脚本可以工作,如果我使用它们,则该脚本与任何内容都不匹配。 我做错了什么

编辑 例子:
url=

您需要确保输入字符串也是UTF8格式

使用
unicode
函数和
utf-8
作为第二个参数:

website_text = unicode(website_text, "utf-8")

为了让unicode在Python2中工作,一切都应该采用一致的编码。

它怎么不工作?你收到错误信息了吗?它是否完全不匹配?它与不完全相同的东西匹配吗?请提供示例。与您使用的Python版本完全不匹配,您能给我们一个URL进行测试吗?另外,请注意,
nsregularexpression
指的是特定于苹果的regex实现。我把那个标签换成了标准的正则表达式标签。我不知道——这很简单。你能尝试一些简单的例子吗,比如在一个短字符串中找到一个字母(比如,beth或gimel)?你能在自己的副本中找到字符串吗,比如sre.findall(u“עבת”,u“עבׯית”)?@Prune-I将
re.findall(u“עׯת”,u“עבׯת”)粘贴到2.7.9 REPL中,效果很好。如果没有Sanich给我们一个URL来测试,我想我们无法回答这个问题。