Ruby on rails 3 使用Rails 3从Wikipedia中提取尽可能干净的数据

Ruby on rails 3 使用Rails 3从Wikipedia中提取尽可能干净的数据,ruby-on-rails-3,wikipedia,Ruby On Rails 3,Wikipedia,我正在开发一个Rails 3应用程序,我希望能够从中提取有关Wikipedia中任何主题的数据(标题和简短文本) 我需要得到的信息非常“干净”,换句话说,从HTML,维基标签和不相关的数据,如参考列表等免费 是否可能只获得标题和一些关于主题的文本 我正在使用gem来获取数据,但它非常难看 {{for|the television series|Solsidan (TV series)}} {{Infobox settlement |official_name = Solsidan |image_

我正在开发一个Rails 3应用程序,我希望能够从中提取有关Wikipedia中任何主题的数据(标题和简短文本)

我需要得到的信息非常“干净”,换句话说,从HTML,维基标签和不相关的数据,如参考列表等免费

是否可能只获得标题和一些关于主题的文本

我正在使用gem来获取数据,但它非常难看

{{for|the television series|Solsidan (TV series)}} {{Infobox settlement |official_name = Solsidan |image_skyline = |image_caption = |pushpin_map = Sweden |pushpin_label_position = |coordinates_region = SE |subdivision_type = [[Country]] |subdivision_name = [[Sweden]] |subdivision_type3 = [[Municipalities of Sweden|Municipality]] |subdivision_name3 = [[Nacka Municipality]] |subdivision_type2 = [[Counties of Sweden|County]] |subdivision_name2 = [[Stockholm County]] |subdivision_type1 = [[Provinces of Sweden|Province]] |subdivision_name1 = [[Uppland]] |area_footnotes = {{cite web | title=Tätorternas landareal, folkmängd och invånare per km2 2000 och 2005 | publisher=[[Statistics Sweden]] | url=http://www.scb.se/statistik/MI/MI0810/2005A01B/T%c3%a4torternami0810tab1.xls | format=xls | language=Swedish | accessdate=2009-05-08}} |area_total_km2 = 0.23 |population_as_of = 2005-12-31 |population_footnotes = |population_total = 209 |population_density_km2 = 895 |timezone = [[Central European Time|CET]] |utc_offset = +1 |timezone_DST = [[Central European Summer Time|CEST]] |utc_offset_DST = +2 |coordinates_display = display=inline,title |latd=59 |latm=17 |lats= |latNS=N |longd=17 |longm=51 |longs= |longEW=E |website = }} '''Solsidan''' is a [[Urban areas in Sweden|locality]] situated in [[Nacka Municipality]], [[Stockholm County]], [[Sweden]] == References == {{Reflist}} {{Stockholm-geo-stub}} {{Localities in Nacka Municipality}} [[Category:Populated places in Stockholm County]] [[no:Solsidan]] [[sv:Solsidan, Nacka kommun]]

Wikipedia在mediawiki使用的模式中以MySQL转储和XML交换格式提供常规图像。您可以将这些文件加载到自己的服务器上(下载约6GiB,所有英文维基百科文章的当前文本未压缩约30GB),然后根据需要进行查询/处理。内容尚未处理为HTML,因此您可以处理wiki标记,并在其周围发布任何您想要的内容。该页面有许多指向处理这些转储的各种语言库的链接,尽管我没有看到Ruby的链接,所以您可能需要自己完成

还提供了各种子集。xml包含标题和摘要,听起来像是您想要的,并且只有3GB


有关重用wikipedia内容所涉及的许可要求的讨论,请参见。

我需要使用他们的API,而不是自己托管。