Ruby on rails Rails Nokogiri html解析
我有如下编写的Ruby on rails Rails Nokogiri html解析,ruby-on-rails,python-2.7,nokogiri,Ruby On Rails,Python 2.7,Nokogiri,我有如下编写的aws lambda函数,它返回html内容。 导入urllib2 导入json def lambda_handler(event, context): # TODO implement req_url = event['url'] header = {"User-Agent" : 'Mozilla/5.0'} response = "" try: request = urllib2.Request(req_url, hea
aws lambda
函数,它返回html内容。
导入urllib2
导入json
def lambda_handler(event, context):
# TODO implement
req_url = event['url']
header = {"User-Agent" : 'Mozilla/5.0'}
response = ""
try:
request = urllib2.Request(req_url, headers=header)
response = urllib2.urlopen(request).read()
except:
response = "404 called"
return response
我在Rails
resp = lambda.invoke(function_name: 'lambda_crawl', payload: s )
content = resp['payload'].read
content_get = Nokogiri::HTML(content)
然而,在content\u-get
中,存在一些无法理解的编码问题
如果打印内容
则在css或xpath
处显示这样的Nokogiri
方法不合适
我不知道为什么会发生这种事情。我试图去掉斜杠,但内容\u306e\u8a9e
中存在unicode字符,因此这不是解决方案。此外,编码检查还显示其编码为“utf-8”
这个问题的根源是什么 通过在lambda中使用
node.js
处理程序解决了这个问题,从而从html请求中获得准确的内容 通过在lambda中使用node.js
处理程序解决了这个问题,从而从html请求中获得准确的内容 content
是什么样子的?问题是,正如我所提到的,所有的值都与“\”rank01\”重叠。“奇怪”的东西我认为如果你显示content
,让人们了解为什么会发生这种情况,会有帮助。我觉得很奇怪,你会像这样混合使用ruby和python。同样,lambda对于这样的东西来说是一个非常糟糕的选择。content
是什么样子的?问题是,正如我提到的,所有的值都与“\”rank01\”重叠“奇怪”\\'的东西我认为如果你展示内容
,让人们了解为什么会发生这种情况,会有帮助。我觉得这太奇怪了,你会像这样把ruby和python混合在一起。同样,对于这样的事情,lambda是一个非常糟糕的选择。