Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/regex/17.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 如何在标点符号上拆分文本,而不是在电子邮件或其他表达式上拆分文本? 我希望在标点符号上拆分文本,而不是在电子邮件上——考虑到Unicode必须使用,因为不是所有的人都会说英语。 import re example = 'My email is John@gmail.com. My name is John. Her email is Anna@gmail.com' print re.split('[.]\s*', example, re.UNICODE) # gives ['My email is John@gmail', 'com', 'My name is John', 'Her email is Anna@gmail', 'com'] # required ['My email is John@gmail.com', 'My name is John', 'Her email is Anna@gmail.com']_Python_Regex_Nlp - Fatal编程技术网

Python 如何在标点符号上拆分文本,而不是在电子邮件或其他表达式上拆分文本? 我希望在标点符号上拆分文本,而不是在电子邮件上——考虑到Unicode必须使用,因为不是所有的人都会说英语。 import re example = 'My email is John@gmail.com. My name is John. Her email is Anna@gmail.com' print re.split('[.]\s*', example, re.UNICODE) # gives ['My email is John@gmail', 'com', 'My name is John', 'Her email is Anna@gmail', 'com'] # required ['My email is John@gmail.com', 'My name is John', 'Her email is Anna@gmail.com']

Python 如何在标点符号上拆分文本,而不是在电子邮件或其他表达式上拆分文本? 我希望在标点符号上拆分文本,而不是在电子邮件上——考虑到Unicode必须使用,因为不是所有的人都会说英语。 import re example = 'My email is John@gmail.com. My name is John. Her email is Anna@gmail.com' print re.split('[.]\s*', example, re.UNICODE) # gives ['My email is John@gmail', 'com', 'My name is John', 'Her email is Anna@gmail', 'com'] # required ['My email is John@gmail.com', 'My name is John', 'Her email is Anna@gmail.com'],python,regex,nlp,Python,Regex,Nlp,如何正确地将其分开-我知道正则表达式,但不知道如何解决-我认为这将不起作用,因为字符数是不固定的 我可以写并行匹配的第一个电子邮件分隔符,并认为电子邮件总是赢得分隔符。 考虑到人类是不完美的,这是自然语言,所以例子可以是-我们应该帮助他们解决简单的错误,但不是全部: 'My email is john@www.mysite.pl.I am teenager.' 'My email is john@www.mysite.pl. I am teenager.' 可以学习并保存在一些字典中,如“.

如何正确地将其分开-我知道正则表达式,但不知道如何解决-我认为这将不起作用,因为字符数是不固定的

我可以写并行匹配的第一个电子邮件分隔符,并认为电子邮件总是赢得分隔符。
考虑到人类是不完美的,这是自然语言,所以例子可以是-我们应该帮助他们解决简单的错误,但不是全部:

'My email is john@www.mysite.pl.I am teenager.'
'My email is john@www.mysite.pl. I am teenager.'

可以学习并保存在一些字典中,如“.com |.pl |…”。

对于您眼前的问题,您是否注意到这可以解决它:

re.split('[.]\s+'
除此之外,人们还做了几件事:

  • 停止模式,字典,像dr.等人的东西。a、 答:你可以查一个例子
  • 机器学习算法。他们会检测所有可能的句子结尾,比如?等等,然后运行分类来猜测哪一个是句子的结尾。请参见python中的示例

  • 对于您眼前的问题,您是否注意到这可以解决它:

    re.split('[.]\s+'
    
    除此之外,人们还做了几件事:

  • 停止模式,字典,像dr.等人的东西。a、 答:你可以查一个例子
  • 机器学习算法。他们会检测所有可能的句子结尾,比如?等等,然后运行分类来猜测哪一个是句子的结尾。请参见python中的示例

  • 对于您眼前的问题,您是否注意到这可以解决它:

    re.split('[.]\s+'
    
    除此之外,人们还做了几件事:

  • 停止模式,字典,像dr.等人的东西。a、 答:你可以查一个例子
  • 机器学习算法。他们会检测所有可能的句子结尾,比如?等等,然后运行分类来猜测哪一个是句子的结尾。请参见python中的示例

  • 对于您眼前的问题,您是否注意到这可以解决它:

    re.split('[.]\s+'
    
    除此之外,人们还做了几件事:

  • 停止模式,字典,像dr.等人的东西。a、 答:你可以查一个例子
  • 机器学习算法。他们会检测所有可能的句子结尾,比如?等等,然后运行分类来猜测哪一个是句子的结尾。请参见python中的示例

  • 这并不是那么容易,但举个例子,它可能与消极的前瞻性有关:

    >>> import re
    >>>
    >>> print re.split('\.(?!com)', example, re.UNICODE)
    ['My email is John@gmail.com', ' My name is John', ' Her email is Anna@gmail.com']
    
    假设只有.com顶级域足以找到解决方案

    更新

    另一个例子是一次失败
    john@www.mysite.pl.I
    ,但您写了:

    我们应该帮助他们解决简单的错误,但不是全部


    ))

    这并不是那么容易,但举个例子,它可能与消极的前瞻性有关:

    >>> import re
    >>>
    >>> print re.split('\.(?!com)', example, re.UNICODE)
    ['My email is John@gmail.com', ' My name is John', ' Her email is Anna@gmail.com']
    
    假设只有.com顶级域足以找到解决方案

    更新

    另一个例子是一次失败
    john@www.mysite.pl.I
    ,但您写了:

    我们应该帮助他们解决简单的错误,但不是全部


    ))

    这并不是那么容易,但举个例子,它可能与消极的前瞻性有关:

    >>> import re
    >>>
    >>> print re.split('\.(?!com)', example, re.UNICODE)
    ['My email is John@gmail.com', ' My name is John', ' Her email is Anna@gmail.com']
    
    假设只有.com顶级域足以找到解决方案

    更新

    另一个例子是一次失败
    john@www.mysite.pl.I
    ,但您写了:

    我们应该帮助他们解决简单的错误,但不是全部


    ))

    这并不是那么容易,但举个例子,它可能与消极的前瞻性有关:

    >>> import re
    >>>
    >>> print re.split('\.(?!com)', example, re.UNICODE)
    ['My email is John@gmail.com', ' My name is John', ' Her email is Anna@gmail.com']
    
    假设只有.com顶级域足以找到解决方案

    更新

    另一个例子是一次失败
    john@www.mysite.pl.I
    ,但您写了:

    我们应该帮助他们解决简单的错误,但不是全部


    ))

    > P>在java和C中这样做的一种常见方法是使用ICU库,它提供了一种称为中断迭代器的机制,它可以由正则表达式文件配置来识别文本中的任意数量的正则模式,您要考虑整个令牌(电子邮件、数字、电话号码等)

    正如我所看到的,有一个Python版本


    也是处理Unicode文本的库。

    < P>在java和C中这样做的一种常见方法是使用ICU库,它提供了一种称为断代迭代器的机制,它可以由正则表达式文件配置,以识别文本中要考虑的整数的任意数量的模式。(电子邮件、号码、电话号码等)

    正如我所看到的,有一个Python版本


    也是处理Unicode文本的库。

    < P>在java和C中这样做的一种常见方法是使用ICU库,它提供了一种称为断代迭代器的机制,它可以由正则表达式文件配置,以识别文本中要考虑的整数的任意数量的模式。(电子邮件、号码、电话号码等)

    正如我所看到的,有一个Python版本


    也是处理Unicode文本的库。

    < P>在java和C中这样做的一种常见方法是使用ICU库,它提供了一种称为断代迭代器的机制,它可以由正则表达式文件配置,以识别文本中要考虑的整数的任意数量的模式。(电子邮件、号码、电话号码等)

    正如我所看到的,有一个Python版本


    它也是处理Unicode文本时应该使用的库。

    你有一些数据可以用来测试这些东西吗?我不认为你能找到一个解决方案来解决所有可能出现的问题……但你可以覆盖大多数情况,包括@之后的顶级lvl域,以及“.”规则和标志不匹配之后的空格,以供审查和我我有足够的数据进行测试(整个互联网)。正如我之前所说,你不会有解决所有问题的解决方案,但我想解决最基本的问题-假设只有
    .com
    顶级域足以找到解决方案。这不是一个e