Python请求读取文本
我正在努力学习文本处理。以及使用nltk。 试图跟随NLTK的书。 当我试着读一篇课文时,它读起来有点不同Python请求读取文本,python,Python,我正在努力学习文本处理。以及使用nltk。 试图跟随NLTK的书。 当我试着读一篇课文时,它读起来有点不同 import requests url = "http://www.gutenberg.org/files/2554/2554-0.txt" response = requests.get(url) response.text[:25] 如果没有上传图像中突出显示的部分,我如何阅读文本。简单的答案是打印它,而不是将它放在外壳中: print(response.text[:25]) 应
import requests
url = "http://www.gutenberg.org/files/2554/2554-0.txt"
response = requests.get(url)
response.text[:25]
如果没有上传图像中突出显示的部分,我如何阅读文本。简单的答案是打印它,而不是将它放在外壳中:
print(response.text[:25])
应打印:
The Project Gutenberg E8
shell对值执行repr
,以确定它应该打印什么
print(repr(response.text[25]))
将再次打印:
'\ufeffThe Project Gutenberg E8'
这是您在这里看到的
unicode
格式
您应该做的是,使用ignore
将unicode字符串转换为ascii
,如果不是ascii
例如:
a=u'\uffefHello World'
print(a.encode('ascii', 'ignore'))
"Hello World"
尝试不同的切片方式<代码>[1:25]?您的姓名可能重复。。。。lmao..import requests url=”“response=requests.get(url)raw=response.text.encode('ascii','ignore')print(raw[:25])。打印“古腾堡埃博计划”。开头的b是什么?这是用于
字节的。希望这会有所帮助