Ruby on rails Rails Nokogiri html解析

Ruby on rails Rails Nokogiri html解析,ruby-on-rails,python-2.7,nokogiri,Ruby On Rails,Python 2.7,Nokogiri,我有如下编写的aws lambda函数,它返回html内容。 导入urllib2 导入json def lambda_handler(event, context): # TODO implement req_url = event['url'] header = {"User-Agent" : 'Mozilla/5.0'} response = "" try: request = urllib2.Request(req_url, hea

我有如下编写的
aws lambda
函数,它返回html内容。 导入urllib2 导入json

def lambda_handler(event, context):
    # TODO implement

    req_url = event['url']
    header = {"User-Agent" : 'Mozilla/5.0'}
    response = ""
    try:
        request = urllib2.Request(req_url, headers=header)
        response = urllib2.urlopen(request).read()
    except:
        response = "404 called"
    return response
我在
Rails

resp = lambda.invoke(function_name: 'lambda_crawl', payload: s )
content = resp['payload'].read 
content_get = Nokogiri::HTML(content)
然而,在
content\u-get
中,存在一些无法理解的编码问题
  • 如果打印
    内容
    则在css或
    xpath
    处显示这样的
    Nokogiri
    方法不合适

    我不知道为什么会发生这种事情。我试图去掉斜杠,但内容
    \u306e\u8a9e
    中存在unicode字符,因此这不是解决方案。此外,编码检查还显示其编码为“utf-8”


    这个问题的根源是什么

    通过在lambda中使用
    node.js
    处理程序解决了这个问题,从而从html请求中获得准确的内容

    通过在lambda中使用
    node.js
    处理程序解决了这个问题,从而从html请求中获得准确的内容

    content
    是什么样子的?问题是,正如我所提到的,所有的值都与“\”rank01\”重叠。“奇怪”的东西我认为如果你显示
    content
    ,让人们了解为什么会发生这种情况,会有帮助。我觉得很奇怪,你会像这样混合使用ruby和python。同样,lambda对于这样的东西来说是一个非常糟糕的选择。
    content
    是什么样子的?问题是,正如我提到的,所有的值都与“\”rank01\”重叠“奇怪”\\'的东西我认为如果你展示
    内容
    ,让人们了解为什么会发生这种情况,会有帮助。我觉得这太奇怪了,你会像这样把ruby和python混合在一起。同样,对于这样的事情,lambda是一个非常糟糕的选择。