在python中将文本拆分为单词
准备数据(文本文件)进行预处理时。 我无法将文本文件拆分为单词在python中将文本拆分为单词,python,text,Python,Text,准备数据(文本文件)进行预处理时。 我无法将文本文件拆分为单词 import io f = io.open("pg5200.txt", mode="r", encoding="utf-8") text = f.read() f.close() import re words = re.split(r'\W+', text) print(words[:100]) 使用上述代码后:问题是我在开始时得到了一个额外的空格(“”) 我可以知道为什么会出现这个额外的空间吗?我如何删除它 谢谢您可以使用条
import io
f = io.open("pg5200.txt", mode="r", encoding="utf-8")
text = f.read()
f.close()
import re
words = re.split(r'\W+', text)
print(words[:100])
使用上述代码后:问题是我在开始时得到了一个额外的空格(“”)
我可以知道为什么会出现这个额外的空间吗?我如何删除它
谢谢您可以使用
条带
功能
检查这个答案
使用此选项:-它可能会对您有所帮助。您是否可以通过此问题来展示一个重现问题的
pg5200.txt
小示例?您是否尝试过使用re.findall
?这似乎更适合您的情况:您可以尝试re.findall(r'\w+',text)
。