Python 拆分包含朝鲜语字符的字符串

Python 拆分包含朝鲜语字符的字符串,python,regex,Python,Regex,我有一个包含韩语字符的字符串: s = '굿모닝, today is 촉촉' 我想将其拆分为: t = ['굿모닝', 'today', 'is', '촉촉'] 请注意,所有韩语字符都放在一起,而不是分开,也就是说,它是굿모닝', 不是굿', '모', '닝'. 问题: 如何拆分该字符串以获得所需的输出 我需要使用正则表达式吗 我认为韩语在这里没有任何关联。。。我能想到的唯一问题是,前3个字符后面有一个讨厌的逗号,它阻止您使用strights.split(),但它非常强大 import r

我有一个包含韩语字符的字符串:

s = '굿모닝, today is 촉촉'
我想将其拆分为:

t = ['굿모닝', 'today', 'is', '촉촉']
请注意,所有韩语字符都放在一起,而不是分开,也就是说,它是굿모닝', 不是굿', '모', '닝'.

问题:

  • 如何拆分该字符串以获得所需的输出
  • 我需要使用正则表达式吗

    • 我认为韩语在这里没有任何关联。。。我能想到的唯一问题是,前3个字符后面有一个讨厌的逗号,它阻止您使用stright
      s.split()
      ,但它非常强大

      import re
      s = '굿모닝, Today is 촉촉'
      re.split(',?\s', s)
      
      输出<代码>['굿모닝', '今天是촉촉']


      只要用一个可选的逗号(
      ),?
      ,后跟一个非可选的白色字符(
      \s
      )来分割字符串,我认为韩语在这里没有任何关联…我能想到的唯一问题是,在前3个字符后面有一个讨厌的逗号,它阻止你直接使用
      s.split()
      ,但它很强大

      import re
      s = '굿모닝, Today is 촉촉'
      re.split(',?\s', s)
      
      输出<代码>['굿모닝', '今天是촉촉']


      只需用可选的逗号(
      )拆分字符串,?
      后跟非可选的白色字符(
      \s

      s.split(“”
      )?可以通过
      s.split()实现所需的功能
      。你能描述一个更复杂的例子,或者你想如何使用正则表达式进行拆分吗?很抱歉,我不熟悉正则表达式。我在网上搜索过,我可能会使用re.findall和类似[\u3131-\ucb4c]的东西,但我不知道该怎么做。
      s.split(“”
      ?你想要的东西可以通过
      s.split()
      。你能描述一个更复杂的例子,或者你想如何使用正则表达式进行拆分吗?很抱歉,我不熟悉正则表达式。我搜索了web,可能会使用re.findall和类似[\u3131-\ucb4c]的东西,但我不知道该怎么做。非常感谢你,BorrajaX。没问题!!:-)那包含朝鲜语、汉语和英语的更复杂字符串呢굿모닝, 今天是촉촉. 小心保重'. 如何获得['굿모닝', '今天是촉촉', '小', '心', '保', '重']?哦,这是一个不同的游戏…不是因为汉字本身,而是因为没有明确的分隔符。我的意思是…你想得到
      촉촉一起,但
      '保
      单独…很难告诉正则表达式(事实上,我不知道怎么做),你可能想看看(特别是关于NLP的)非常感谢你,BorrajaX。没问题!!:-)那包含朝鲜语、汉语和英语的更复杂的字符串呢?s=굿모닝, 今天是촉촉. 小心保重'. 如何获得['굿모닝', '今天是촉촉', '小', '心', '保', '重']?哦,这是一个不同的游戏…不是因为汉字本身,而是因为没有明确的分隔符。我的意思是…你想得到
      촉촉一起,但
      '保
      单独…很难告诉正则表达式这一点(事实上,我不知道如何做),您可能想看看(特别是关于NLP的)