Javascript 按单词或标记拆分的正则表达式
如何在Javascript中使用正则表达式以按单词(utf8)或标记拆分文本?例如,考虑到以下情况:Javascript 按单词或标记拆分的正则表达式,javascript,regex,Javascript,Regex,如何在Javascript中使用正则表达式以按单词(utf8)或标记拆分文本?例如,考虑到以下情况: Lorem ipsum dolor <b>sid</b> amet et <a href="asdasd">amet et</a> fugit Lorem ipsum dolor sid amet fugit 我想把它像这样分开: Lorem ipsum dolor <b> sid </b> amet et
Lorem ipsum dolor <b>sid</b> amet et <a href="asdasd">amet et</a> fugit
Lorem ipsum dolor sid amet fugit
我想把它像这样分开:
Lorem
ipsum
dolor
<b>
sid
</b>
amet
et
<a href="asdasd">
amet
et
</a>
fugit
Lorem
乱数假文
多洛
希德
艾米特
et
福吉特
使用这个正则表达式|\S+(?=看起来像这样
(?s)(?:<.+?>)|(?:\S+)
(?s)(?:)|(?:\s+)
您将获得一个匹配列表
编辑:
(?s)(?:<.+?>)|(?:\S+(?=<))|(?:\S+)
(?s)(?:)|(?:\s+(?=这应该可以做到:
myString.match(/<[^>]*>|[^\s<]+/g)
myString.match(/]*>|[^\s