Hbase Nutch2.x不是像flipkart和jabong这样的爬行网站

Hbase Nutch2.x不是像flipkart和jabong这样的爬行网站,hbase,hdfs,nutch,web-crawler,Hbase,Hdfs,Nutch,Web Crawler,我用nutch做了一些实验来抓取没有任何ajax调用的网站,我得到了所有的数据 我执行了以下步骤来获取数据 user@localhost:~/sample/nutch/runtime/local/bin$。/nutch-inject/path/to/the/seed.txt $:。/nutch生成-批处理ID 321 $:/纳奇取货321 $:/坚果解析321 $:/nutch更新b 我使用hbase作为存储设备,在hdfs上存储文件。如果我执行这5个步骤,它会给我所有的数据,如果url是,但如

我用nutch做了一些实验来抓取没有任何ajax调用的网站,我得到了所有的数据

我执行了以下步骤来获取数据

  • user@localhost:~/sample/nutch/runtime/local/bin$。/nutch-inject/path/to/the/seed.txt
  • $:。/nutch生成-批处理ID 321
  • $:/纳奇取货321
  • $:/坚果解析321
  • $:/nutch更新b
  • 我使用hbase作为存储设备,在hdfs上存储文件。如果我执行这5个步骤,它会给我所有的数据,如果url是,但如果我改变它给我什么

    My nutch-site.xml文件:

    <?xml version="1.0"?>
    <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
    
    <!-- Put site-specific property overrides in this file. -->
    
    <configuration>
            <property>
                    <name>storage.data.store.class</name>
                    <value>org.apache.gora.hbase.store.HBaseStore</value>
                    <description>Default class for storing data</description>
            </property>
            <property>
                    <name>http.agent.name</name>
                    <value>com.datametica.agent</value>
                    <description>this is just an agent name</description>
            </property>
            <property>
                    <name>http.robots.agents</name>
                    <value>datametica_robot</value>
                    <description>this is just a robot</description>
            </property>
            <property>
                    <name>plugin.folders</name>
                    <value>/home/sachin/source_codes/svn/nutch/nutch_2.x/build/plugins</value>
            </property>
    </configuration>
    
    
    storage.data.store.class
    org.apache.gora.hbase.store.HBaseStore
    用于存储数据的默认类
    http.agent.name
    com.datametica.agent
    这只是一个代理名称
    http.robots.agent
    datametica_机器人
    这只是一个机器人
    plugin.folders
    /home/sachin/source_code/svn/nutch/nutch_2.x/build/plugins
    
    正则表达式urlfilter阻止具有查询字符串参数的URL:

    跳过包含某些字符的URL作为可能的查询等。 -[?*!@=]

    修改该文件,以便对具有querystring参数的URL进行爬网:

    跳过包含某些字符的URL作为可能的查询等。 -[*!@]

    Nutch可能缺乏对抓取Ajax页面的支持。看

    你可以看看

    谢谢,伙计,它可以工作,但我在运行nutch时还有一个问题,它获取数据,但不是html,但它提供html内容,如果您知道什么,请告诉我。Sachin,您必须接受其他人给出的答案。你想问多少就问多少。但是,如果你给那些已经回答了你的问题的人一些信任,那将是一件好事。。。。