Javascript 按单词或标记拆分的正则表达式

Javascript 按单词或标记拆分的正则表达式,javascript,regex,Javascript,Regex,如何在Javascript中使用正则表达式以按单词(utf8)或标记拆分文本?例如,考虑到以下情况: Lorem ipsum dolor <b>sid</b> amet et <a href="asdasd">amet et</a> fugit Lorem ipsum dolor sid amet fugit 我想把它像这样分开: Lorem ipsum dolor <b> sid </b> amet et

如何在Javascript中使用正则表达式以按单词(utf8)或标记拆分文本?例如,考虑到以下情况:

Lorem ipsum dolor <b>sid</b> amet et <a href="asdasd">amet et</a> fugit
Lorem ipsum dolor sid amet fugit
我想把它像这样分开:

Lorem 
ipsum 
dolor 
<b>
sid
</b> 
amet 
et 
<a href="asdasd">
amet
et
</a>
fugit
Lorem
乱数假文
多洛
希德
艾米特
et
福吉特
使用这个正则表达式
|\S+(?=看起来像这样

(?s)(?:<.+?>)|(?:\S+)
(?s)(?:)|(?:\s+)
您将获得一个匹配列表

编辑:

(?s)(?:<.+?>)|(?:\S+(?=<))|(?:\S+)
(?s)(?:)|(?:\s+(?=这应该可以做到:

myString.match(/<[^>]*>|[^\s<]+/g)
myString.match(/]*>|[^\s