从R中的.txt文件中提取相关文本
我仍然在一个基本的初级水平与r。我目前正在做一些自然语言的东西,我使用ProQuest报摊数据库。即使数据库允许下载txt文件,我也不需要它们提供的一切。您可以在那里下载的文件如下所示:从R中的.txt文件中提取相关文本,r,text-analysis,R,Text Analysis,我仍然在一个基本的初级水平与r。我目前正在做一些自然语言的东西,我使用ProQuest报摊数据库。即使数据库允许下载txt文件,我也不需要它们提供的一切。您可以在那里下载的文件如下所示: ############################################################################### ____________________________________________________________ Report Informa
###############################################################################
____________________________________________________________
Report Information from ProQuest 16 July 2016 09:58
____________________________________________________________
____________________________________________________________
Inhaltsverzeichnis
1. Savills cracks Granite deal to establish US presence ; COMMERCIAL PROPERTY
____________________________________________________________
Dokument 1 von 1
Savills cracks Granite deal to establish US presence ; COMMERCIAL PROPERTY
http:...
Kurzfassung: Savills said that as part of its plans to build...
Links: ...
Volltext: Property agency Savills yesterday snapped up US real estate banking firm Granite Partners...
Unternehmen/Organisation: Name: Granite Partners LP; NAICS: 525910
Titel: Savills cracks Granite deal to establish US presence; COMMERCIAL PROPERTY: [FIRST Edition]
Autor: Steve Pain Commercial Property Editor
Titel der Publikation: Birmingham Post
Seiten: 30
Seitenanzahl: 0
Erscheinungsjahr: 2007
Publikationsdatum: Aug 2, 2007
Jahr: 2007
Bereich: Business
Herausgeber: Mirror Regional Newspapers
Verlagsort: Birmingham (UK)
Publikationsland: United Kingdom
Publikationsthema: General Interest Periodicals--Great Britain
Quellentyp: Newspapers
Publikationssprache: English
Dokumententyp: NEWSPAPER
ProQuest-Dokument-ID: 324215031
Dokument-URL: ...
Copyright: (Copyright 2007 Birmingham Post and Mail Ltd.)
Zuletzt aktualisiert: 2010-06-19
Datenbank: UK Newsstand
____________________________________________________________
Kontaktieren Sie uns unter: http... Copyright © 2016 ProQuest LLC. Alle Rechte vorbehalten. Allgemeine Geschäftsbedingungen: ...
###############################################################################
我需要的是一种只将全文提取到csv文件的方法。原因是,当我在一个文件中下载数百篇文章时,手动复制和粘贴它们是相当困难的,而且我认为该文件是非常结构化的。但是,文本的长度各不相同。尽管如此,可以使用全文后的下一个标题作为停止标志(我猜)
有没有办法做到这一点
我真的非常感谢你的帮助。
亲切问候,,
Steffen假设您在一个文本文件中拥有所有出版物信息,请先复制一份文件以进行重置。使用记事本++和正则表达式,您将完成以下步骤:
- Ctrl+F
- 选择标记选项卡
- 搜索模式:正则表达式
- 查找内容:
^Volltext:\s
- Alt+M以检查
(仅当未选中时)书签行
- 单击标记全部
- Ctrl+H
- 搜索模式:正则表达式
- 查找内容:
(从下拉列表中选择)^Volltext:\s
- 替换为:无(明文字段)
- 单击“全部替换”
con <- file("./R/sample text.txt")
content <- paste(readLines(con),collapse="\n")
content <- gsub(pattern = "\\n\\n", replacement = "\n", x = content)
close(con)
content.filtered <- sub(pattern = "(.*)(Volltext:.*?)(_{10,}.*)",
replacement = "\\2", x=content)
欢迎来到堆栈溢出!此网站不是代码编写服务。请花一点时间重新阅读中的提问指南。请浏览、和部分,了解本网站的工作原理,并帮助您改进当前和未来的问题,这可以帮助您获得更好的答案。您使用
是什么意思。。。仅将全文复制到csv文件…
?Volltext之后的文本:仅限?为什么要使用R而不是Notepad++和RegEx来满足您的需求?是的,只有“Volltext”后面的部分。我不知道如何在Notepad++中使用正则表达式,这可能吗?太棒了!很抱歉回复晚了,我被其他工作卡住了。但是非常感谢你的帮助。如果这回答了你的问题,当你投票并将其标记为已回答时,我会很高兴。
> cat(content.filtered)
Volltext: Property agency Savills yesterday snapped up US real estate banking firm Granite Partners...
Unternehmen/Organisation: Name: Granite Partners LP; NAICS: 525910
Titel: Savills cracks Granite deal to establish US presence; COMMERCIAL PROPERTY: [FIRST Edition]
Autor: Steve Pain Commercial Property Editor
Titel der Publikation: Birmingham Post
Seiten: 30
Seitenanzahl: 0
Erscheinungsjahr: 2007
Publikationsdatum: Aug 2, 2007
Jahr: 2007
Bereich: Business
Herausgeber: Mirror Regional Newspapers
Verlagsort: Birmingham (UK)
Publikationsland: United Kingdom
Publikationsthema: General Interest Periodicals--Great Britain
Quellentyp: Newspapers
Publikationssprache: English
Dokumententyp: NEWSPAPER
ProQuest-Dokument-ID: 324215031
Dokument-URL: ...
Copyright: (Copyright 2007 Birmingham Post and Mail Ltd.)
Zuletzt aktualisiert: 2010-06-19
Datenbank: UK Newsstand