Javascript 用regexp识别和分离希伯来语单词

Javascript 用regexp识别和分离希伯来语单词,javascript,regex,right-to-left,hebrew,Javascript,Regex,Right To Left,Hebrew,我需要解析一个希伯来语句子来识别和隔离其中的每个单词(这样我就可以用“span”标记将它们包装起来)。 我首先尝试在没有标点的情况下从空格字符中识别非空格字符,但仍然不起作用: var regex = /(\s)*(\S)+(\s)*/g; 有什么想法吗? 谢谢 编辑:我已经有了一个正则表达式,它可以用英语完成这项工作,我想用它来帮助理解我想要实现的目标: var regExp = /\b([^\s']+)\b/g, edit2:添加代码示例 var regex = /(\s)*(\S)+(

我需要解析一个希伯来语句子来识别和隔离其中的每个单词(这样我就可以用“span”标记将它们包装起来)。 我首先尝试在没有标点的情况下从空格字符中识别非空格字符,但仍然不起作用:

var regex = /(\s)*(\S)+(\s)*/g;
有什么想法吗? 谢谢

编辑:我已经有了一个正则表达式,它可以用英语完成这项工作,我想用它来帮助理解我想要实现的目标:

var regExp = /\b([^\s']+)\b/g,
edit2:添加代码示例

var regex = /(\s)*(\S)+(\s)*/g;
var sentence = "שלום מה קורה מהיום";
sentence.replace(regex, function(match, p1, p2, p3){console.log('"' + match + '"', '"' + p1 + '"', '"' + p2 + '"', '"' + p3 + '"');});


// result
"שלום " "undefined" "ם" " " VM1494:2
"מה " "undefined" "ה" " " VM1494:2
"קורה " "undefined" "ה" " " VM1494:2
"היום" "undefined" "ם" "undefined" VM1494:2
"undefinedundefinedundefinedundefined"

edit3:我需要能够在结尾用相同的标点重新组合句子

我会这样做:

yourString.split(' ').map(function(e){ return "<span>"+e+"</span>"; }).join('');
yourString.split(“”).map(函数(e){return”“+e+;}).join(“”);

并确保将
style=“direction:rtl;
添加到包装器元素中以处理标点符号。

好吧,你可能知道网络上的希伯来语是个婊子。 尝试使用此正则表达式:

[\s]*(\S)+[\s]*
例如:

var words = sentence.match(/[\s]*(\S)+[\s]*/g);
它确实会在尾随空格中留下一些空白,以便清除它们。您可以执行以下操作:

words = words.join().split(" ")
我正在尝试一些其他的正则表达式变体,以尝试规避加入-拆分攻击,如果我发现任何东西,我会更新

此外,您还可以采用“替换”方式执行以下操作:

var words = sentence.replace(/[#`~?!#\$%\.;:,]*/g, "").split(" ")
只需确保添加任何可能使用的标点符号即可

然后,要获得一个新的HTML字符串,其中包含用span标记包装的单词,可以执行以下操作:

比如说:

var sentence = "?שלום, מה קורה מהיום"
var words = sentence.replace(/[#`~?!#\$%\.;:,]*/g, "").split(" ")
然后:

var newSentence=encodeURI(句子)
words.forEach(函数(word){
word=encodeURI(word)
newSentence=newSentence.replace(word“+word+”)
})
newSentence=decodeURI(newSentence);

newSentence
将在保留标点符号的同时用span标记将单词包装起来:

只需从空格中省略匹配的组即可

var regex = /[\s,]*([^\s,]+)[\s,]*/g;

var sentence = "שלום, מה קורה מהיום";

var text = sentence.replace(regex, '<span>$1</span>');

console.log(text);  

// <span>שלום</span><span>מה</span><span>קורה</span><span>מהיום</span>
var regex=/[\s,]*([^\s,]+)[\s,]*/g;
var语句=“שלום,מהקההם”;
var text=句子.replace(regex,$1');
console.log(文本);
// שלוםמהקורהמהיום

尝试在字符regexp和希伯来语范围的匹配类型之间使用unicode

"בדיקה, להלהלה".match(/[\u0590-\u05F4\uFB00-\uFB4F]+/g)
标点符号(简单):

所有puntuation的regexp:

"aa bb cc.בדיק'ה, להלהל\"ה .test'da, te\"xt".replace(/[\-=_!"#%&'*{},.\/:;?\(\)\[\]@\\$\^*+<>~`\u00a1\u00a7\u00b6\u00b7\u00bf\u037e\u0387\u055a-\u055f\u0589\u05c0\u05c3\u05c6\u05f3\u05f4\u0609\u060a\u060c\u060d\u061b\u061e\u061f\u066a-\u066d\u06d4\u0700-\u070d\u07f7-\u07f9\u0830-\u083e\u085e\u0964\u0965\u0970\u0af0\u0df4\u0e4f\u0e5a\u0e5b\u0f04-\u0f12\u0f14\u0f85\u0fd0-\u0fd4\u0fd9\u0fda\u104a-\u104f\u10fb\u1360-\u1368\u166d\u166e\u16eb-\u16ed\u1735\u1736\u17d4-\u17d6\u17d8-\u17da\u1800-\u1805\u1807-\u180a\u1944\u1945\u1a1e\u1a1f\u1aa0-\u1aa6\u1aa8-\u1aad\u1b5a-\u1b60\u1bfc-\u1bff\u1c3b-\u1c3f\u1c7e\u1c7f\u1cc0-\u1cc7\u1cd3\u2016\u2017\u2020-\u2027\u2030-\u2038\u203b-\u203e\u2041-\u2043\u2047-\u2051\u2053\u2055-\u205e\u2cf9-\u2cfc\u2cfe\u2cff\u2d70\u2e00\u2e01\u2e06-\u2e08\u2e0b\u2e0e-\u2e16\u2e18\u2e19\u2e1b\u2e1e\u2e1f\u2e2a-\u2e2e\u2e30-\u2e39\u3001-\u3003\u303d\u30fb\ua4fe\ua4ff\ua60d-\ua60f\ua673\ua67e\ua6f2-\ua6f7\ua874-\ua877\ua8ce\ua8cf\ua8f8-\ua8fa\ua92e\ua92f\ua95f\ua9c1-\ua9cd\ua9de\ua9df\uaa5c-\uaa5f\uaade\uaadf\uaaf0\uaaf1\uabeb\ufe10-\ufe16\ufe19\ufe30\ufe45\ufe46\ufe49-\ufe4c\ufe50-\ufe52\ufe54-\ufe57\ufe5f-\ufe61\ufe68\ufe6a\ufe6b\uff01-\uff03\uff05-\uff07\uff0a\uff0c\uff0e\uff0f\uff1a\uff1b\uff1f\uff20\uff3c\uff61\uff64\uff65]+/g," ")
原语

"שלום, מה קורה מהיום".match(/[\u0590-\u05F4\uFB00-\uFB4F][\u0590-\u05F4\uFB00-\uFB4F'"]*/g)
(4) ["שלום", "מה", "קורה", "מהיום"]
用英语

 "aa bb cc.בדיק'ה, להלהל\"ה .test'da, te\"xt".match(/[\u0590-\u05F4\uFB00-\uFB4F][\u0590-\u05F4\uFB00-\uFB4F'"]*/g)
(2) ["בדיק'ה", "להלהל"ה"]
也许还可以加上英语(我决定英语中没有希伯来语风格的缩写)


“不工作”是什么意思?与源字符串不匹配?无法捕获您想要的内容?请提供它应该匹配的字符串示例以及不应该匹配的字符串示例。@David SkyMesh:用示例编辑了我的文章您有一个可变的匹配数。请尝试将
(\s)*
更改为
(\s*)
两次,然后将
(\S)+
更改为
(\S+)
。您希望捕获没有空格和标点的单词,对吗?如果您的regexp现在是
(\S*)(\S+)(\S*)
,并且不匹配,那么您必须认为字符类
\S
与希伯来文字符不匹配(不太可能)。如果字符串包含多个空格或标点符号呢?另外,请注意,问题不是关于html包装实现,而是关于有问题的regex…Lior,您发现了一个大问题,即带有多个标点符号的字符串。这就是难点所在lies@JonathanBensaid你能回答我在评论中提出的问题吗e、 关于你期望的结果格式?谢谢Ilan,但是,我需要在包装后用相同的标点重新组合句子。所以拆分在这里没有帮助。我忘了在我的问题中提到它,现在编辑我更新了我的答案。我希望我理解你的需要。我尝试了你的代码,它可以工作,但也需要用wo的标点也许我们可以这样改进你们的regex:也许我们可以这样改进你们的regex:也许我们可以这样改进你们的regex:也许我们可以这样改进你们的regex:也许我们可以这样改进你们的regex:也许我们可以这样改进你们的regex:也许我们可以这样改进你们的regex:也许我们可以这样改进你们的regex:也许我们可以这样改进你们的regex:也许我们的你们的14月15日日日方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方קרההים“不客气,很高兴能帮上忙。如果你能投票支持我的答案并将其标记为解决方案,我将不胜感激。我已将其标记为解决方案,但由于我是堆栈溢出新手,因此无法投票支持。我需要15分,而我只有8点声誉积分……不用担心,你可以随时回来;)
".בדיק'ה, להלהל\"ה".match(/[\u0590-\u05F4\uFB00-\uFB4F][\u0590-\u05F4\uFB00-\uFB4F'"]*/g)
(2) ["בדיק'ה", "להלהל"ה"]
"שלום, מה קורה מהיום".match(/[\u0590-\u05F4\uFB00-\uFB4F][\u0590-\u05F4\uFB00-\uFB4F'"]*/g)
(4) ["שלום", "מה", "קורה", "מהיום"]
 "aa bb cc.בדיק'ה, להלהל\"ה .test'da, te\"xt".match(/[\u0590-\u05F4\uFB00-\uFB4F][\u0590-\u05F4\uFB00-\uFB4F'"]*/g)
(2) ["בדיק'ה", "להלהל"ה"]
"aa bb cc.בדיק'ה, להלהל\"ה .test'da, te\"xt".match(/[\u0590-\u05F4\uFB00-\uFB4F][\u0590-\u05F4\uFB00-\uFB4F'"]*|[a-zA-Z']+/g)
(8) ["aa", "bb", "cc", "בדיק'ה", "להלהל"ה", "test'da", "te", "xt"]