Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/314.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/xpath/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
在python中将文本拆分为单词_Python_Text - Fatal编程技术网

在python中将文本拆分为单词

在python中将文本拆分为单词,python,text,Python,Text,准备数据(文本文件)进行预处理时。 我无法将文本文件拆分为单词 import io f = io.open("pg5200.txt", mode="r", encoding="utf-8") text = f.read() f.close() import re words = re.split(r'\W+', text) print(words[:100]) 使用上述代码后:问题是我在开始时得到了一个额外的空格(“”) 我可以知道为什么会出现这个额外的空间吗?我如何删除它 谢谢您可以使用条

准备数据(文本文件)进行预处理时。 我无法将文本文件拆分为单词

import io
f = io.open("pg5200.txt", mode="r", encoding="utf-8")
text = f.read()
f.close()

import re
words = re.split(r'\W+', text)
print(words[:100])
使用上述代码后:问题是我在开始时得到了一个额外的空格(“”)

我可以知道为什么会出现这个额外的空间吗?我如何删除它


谢谢

您可以使用
条带
功能

检查这个答案

使用此选项:-它可能会对您有所帮助。您是否可以通过此问题来展示一个重现问题的
pg5200.txt
小示例?您是否尝试过使用
re.findall
?这似乎更适合您的情况:您可以尝试
re.findall(r'\w+',text)