Ruby on rails Rails,从动态URL抓取

Ruby on rails Rails,从动态URL抓取,ruby-on-rails,web-scraping,Ruby On Rails,Web Scraping,在最基本的情况下,我想刮一个网站,并呈现部分代码,如所有的H1或其他东西。我过去使用过Nokogiri和Mechanize,并且熟悉刮削的基础知识。在过去,我会像这样构建一个thor任务 class Scrape < Thor desc "cl_redding","Scrape Craigslist for Rentals" def cl_redding require File.expand_path('config/environment.rb') require

在最基本的情况下,我想刮一个网站,并呈现部分代码,如所有的H1或其他东西。我过去使用过Nokogiri和Mechanize,并且熟悉刮削的基础知识。在过去,我会像这样构建一个thor任务

class Scrape < Thor
desc "cl_redding","Scrape Craigslist for Rentals"
def cl_redding

    require File.expand_path('config/environment.rb')

    require 'rubygems'

    require 'nokogiri'

    require 'open-uri'

    require 'mechanize'

    require 'yaml'

    require 'aws-sdk'

    require 'csv'

    require 'json'

    agent = Mechanize.new

    page = agent.get('http://redding.craigslist.org/search/apa?zoomToPosting=&catAbb=apa&query=&minAsk=&maxAsk=&bedrooms=&housing_type=&hasPic=1&excats=')
class Scrape

这一切都很酷,也很管用,尽管它只会抓取craigslist,而且因为我特别通过page=,所以我要问的是,有人对我如何从网站的输入框中抓取一个名为的网站有什么建议吗?欢迎提供具体的帮助、教程、建议或资源。

我认为您的问题有点过于笼统

  • 你需要启动一个rails应用程序
  • 构建一个表单来接受要刮取的url的输入-可能实现一个页面模型来存储要刮取的页面
  • 按照示例中的方式解析url
  • 可能使用后端处理工具,如sidekiq,以避免前端刮伤
  • 存储结果并将其显示在第#显示页