从R中的.txt文件中提取相关文本

从R中的.txt文件中提取相关文本,r,text-analysis,R,Text Analysis,我仍然在一个基本的初级水平与r。我目前正在做一些自然语言的东西,我使用ProQuest报摊数据库。即使数据库允许下载txt文件,我也不需要它们提供的一切。您可以在那里下载的文件如下所示: ############################################################################### ____________________________________________________________ Report Informa

我仍然在一个基本的初级水平与r。我目前正在做一些自然语言的东西,我使用ProQuest报摊数据库。即使数据库允许下载txt文件,我也不需要它们提供的一切。您可以在那里下载的文件如下所示:

###############################################################################
____________________________________________________________

Report Information from ProQuest 16 July 2016 09:58
____________________________________________________________




____________________________________________________________

Inhaltsverzeichnis

1. Savills cracks Granite deal to establish US presence ; COMMERCIAL PROPERTY

____________________________________________________________

Dokument 1 von 1

Savills cracks Granite deal to establish US presence ; COMMERCIAL PROPERTY

http:...

Kurzfassung: Savills said that as part of its plans to build...

Links: ...

Volltext: Property agency Savills yesterday snapped up US real estate banking firm Granite Partners...

Unternehmen/Organisation: Name: Granite Partners LP; NAICS: 525910

Titel: Savills cracks Granite deal to establish US presence; COMMERCIAL PROPERTY:   [FIRST Edition]

Autor: Steve Pain Commercial Property Editor

Titel der Publikation: Birmingham Post

Seiten: 30

Seitenanzahl: 0

Erscheinungsjahr: 2007

Publikationsdatum: Aug 2, 2007

Jahr: 2007

Bereich: Business

Herausgeber: Mirror Regional Newspapers

Verlagsort: Birmingham (UK)

Publikationsland: United Kingdom

Publikationsthema: General Interest Periodicals--Great Britain

Quellentyp: Newspapers

Publikationssprache: English

Dokumententyp: NEWSPAPER

ProQuest-Dokument-ID: 324215031

Dokument-URL: ...

Copyright: (Copyright 2007 Birmingham Post and Mail Ltd.)

Zuletzt aktualisiert: 2010-06-19

Datenbank: UK Newsstand

____________________________________________________________

Kontaktieren Sie uns unter: http... Copyright © 2016 ProQuest LLC. Alle Rechte vorbehalten. Allgemeine Geschäftsbedingungen:  ...

###############################################################################
我需要的是一种只将全文提取到csv文件的方法。原因是,当我在一个文件中下载数百篇文章时,手动复制和粘贴它们是相当困难的,而且我认为该文件是非常结构化的。但是,文本的长度各不相同。尽管如此,可以使用全文后的下一个标题作为停止标志(我猜)

有没有办法做到这一点

我真的非常感谢你的帮助。 亲切问候,,
Steffen

假设您在一个文本文件中拥有所有出版物信息,请先复制一份文件以进行重置。使用记事本++和正则表达式,您将完成以下步骤:

  • Ctrl+F
  • 选择标记选项卡
  • 搜索模式:正则表达式
  • 查找内容:
    ^Volltext:\s
  • Alt+M以检查
    书签行
    (仅当未选中时)
  • 单击标记全部

从主菜单转到:搜索>书签>删除未标记行

在第三步中,执行以下步骤:

  • Ctrl+H
  • 搜索模式:正则表达式
  • 查找内容:
    ^Volltext:\s
    (从下拉列表中选择)
  • 替换为:无(明文字段)
  • 单击“全部替换”
完成…

尝试一下:

con <- file("./R/sample text.txt")
content <- paste(readLines(con),collapse="\n")
content <- gsub(pattern = "\\n\\n", replacement = "\n", x = content)
close(con)
content.filtered <- sub(pattern = "(.*)(Volltext:.*?)(_{10,}.*)", 
                        replacement = "\\2", x=content)

欢迎来到堆栈溢出!此网站不是代码编写服务。请花一点时间重新阅读中的提问指南。请浏览、和部分,了解本网站的工作原理,并帮助您改进当前和未来的问题,这可以帮助您获得更好的答案。您使用
是什么意思。。。仅将全文复制到csv文件…
?Volltext之后的文本:仅限?为什么要使用R而不是Notepad++和RegEx来满足您的需求?是的,只有“Volltext”后面的部分。我不知道如何在Notepad++中使用正则表达式,这可能吗?太棒了!很抱歉回复晚了,我被其他工作卡住了。但是非常感谢你的帮助。如果这回答了你的问题,当你投票并将其标记为已回答时,我会很高兴。
> cat(content.filtered)
Volltext: Property agency Savills yesterday snapped up US real estate banking firm Granite Partners...
Unternehmen/Organisation: Name: Granite Partners LP; NAICS: 525910
Titel: Savills cracks Granite deal to establish US presence; COMMERCIAL PROPERTY:   [FIRST Edition]
Autor: Steve Pain Commercial Property Editor
Titel der Publikation: Birmingham Post
Seiten: 30
Seitenanzahl: 0
Erscheinungsjahr: 2007
Publikationsdatum: Aug 2, 2007
Jahr: 2007
Bereich: Business
Herausgeber: Mirror Regional Newspapers
Verlagsort: Birmingham (UK)
Publikationsland: United Kingdom
Publikationsthema: General Interest Periodicals--Great Britain
Quellentyp: Newspapers
Publikationssprache: English
Dokumententyp: NEWSPAPER
ProQuest-Dokument-ID: 324215031
Dokument-URL: ...
Copyright: (Copyright 2007 Birmingham Post and Mail Ltd.)
Zuletzt aktualisiert: 2010-06-19
Datenbank: UK Newsstand