文本清理python_Python - Fatal编程技术网

文本清理python

python

文本清理python,python,Python,我写了一个代码，在这里我提取文本，然后使用关键字搜索句子。我得到以下输出： [“许多市场观察家都提到了云的真正价值所在，云正在向上提升。”，“我们并没有放弃我们的系统空间，但我认为我们更具体地说明了哪一点适合增长的哪一部分，以及其中的每一个元素ibm需要证明其立场是“我们继续前进”，我认为这是联想宣布的背景。“这与罗梅蒂在其年度信函中所写的内容产生了强烈的共鸣，罗梅蒂在信中告诉股东，今年的重大挑战将是“将ibm硬件业务转变为新的现实和机遇”y.“ 我不知道这些是什么，打破了文本。下面是我的代码

我写了一个代码，在这里我提取文本，然后使用关键字搜索句子。我得到以下输出：

[“许多市场观察家都提到了云的真正价值所在，云正在向上提升。”，“我们并没有放弃我们的系统空间，但我认为我们更具体地说明了哪一点适合增长的哪一部分，以及其中的每一个元素ibm需要证明其立场是“我们继续前进”，我认为这是联想宣布的背景。“这与罗梅蒂在其年度信函中所写的内容产生了强烈的共鸣，罗梅蒂在信中告诉股东，今年的重大挑战将是“将ibm硬件业务转变为新的现实和机遇”y.“

我不知道这些是什么，打破了文本。下面是我的代码

br = mechanize.Browser()
br.set_handle_robots(False)
br.addheaders = [('User-agent','Chrome')]
html = br.open(url).read()
titles = br.title()
readable_article= Document(html).summary()
readable_title = Document(html).short_title()
soup = bs4.BeautifulSoup(readable_article)
Final_Article = soup.text
final.append(titles)
final.append(url)
final.append(Final_Article)
raw = nltk.clean_html(html)
tokens = nltk.wordpunct_tokenize(raw)
lmtzr = WordNetLemmatizer()
t = [lmtzr.lemmatize(t) for t in tokens]
text = nltk.Text(t)
word = words(n)
find = ' '.join(str(e) for e in word)
search_words = set(find.split(' '))
sents = ' '.join([s.lower() for s in text])
blob = TextBlob(sents.decode('ascii','ignore'))
matches = [map(str, blob.sentences[i-1:i+2])     # from prev to after next
for i, s in enumerate(blob.sentences) # i is index, e is element
    if search_words & set(s.words)]
        print matches,word

&rdquo；

和

&ldquo；

是开引号和闭引号的代码。

rsquo

和lsquo

是单引号（在本文中用作appostraphes），而

ndash`是破折号。如果源文本中存在这些模式，请使用以下代码替换它们

import re
cleaned = re.sub(r'& ?(ld|rd)quo ?[;\]]', '\"', raw)
cleaned = re.sub(r'& ?(ls|rs)quo ?;', '\'', cleaned)
cleaned = re.sub(r'& ?ndash ?;', '-', cleaned)

这将替换原始文本（我称之为

raw

）中的两个代码（带空格或不带空格）使用引号并将其保存到名为

cleaned

的新变量中。将

cleaned

传递到代码的其余部分应该可以使用。

和
是打开和关闭引号的代码。rsquo
和lsquo是单引号（在本文中用作缩写）和
ndash`是一个破折号。如果这些模式出现在源文本中，请使用以下代码替换它们
import re
cleaned = re.sub(r'& ?(ld|rd)quo ?[;\]]', '\"', raw)
cleaned = re.sub(r'& ?(ls|rs)quo ?;', '\'', cleaned)
cleaned = re.sub(r'& ?ndash ?;', '-', cleaned)

这将替换原始文本（我称之为raw
）中的两个代码（带空格或不带空格）使用引号并将其保存到名为cleaned
的新变量中。将cleaned
传递到代码的其余部分应该可以使用。
和
是打开和关闭引号的代码。rsquo
和lsquo是单引号（在本文中用作缩写）和
ndash`是一个破折号。如果这些模式出现在源文本中，请使用以下代码替换它们
import re
cleaned = re.sub(r'& ?(ld|rd)quo ?[;\]]', '\"', raw)
cleaned = re.sub(r'& ?(ls|rs)quo ?;', '\'', cleaned)
cleaned = re.sub(r'& ?ndash ?;', '-', cleaned)

这将替换原始文本（我称之为raw
）中的两个代码（带空格或不带空格）使用引号并将其保存到名为cleaned
的新变量中。将cleaned
传递到代码的其余部分应该可以使用。
和
是打开和关闭引号的代码。rsquo
和lsquo是单引号（在本文中用作缩写）和
ndash`是一个破折号。如果这些模式出现在源文本中，请使用以下代码替换它们
import re
cleaned = re.sub(r'& ?(ld|rd)quo ?[;\]]', '\"', raw)
cleaned = re.sub(r'& ?(ls|rs)quo ?;', '\'', cleaned)
cleaned = re.sub(r'& ?ndash ?;', '-', cleaned)

这将替换原始文本（我称之为raw
）中的两个代码（带空格或不带空格）使用引号并将其保存到名为cleaned
的新变量中。将cleaned
传递到其余的代码中应该可以工作。
Yur代码无效；：
冒号丢失，缩进到处都是。您需要取消浏览html；这涵盖了它Yur代码无效；：
c缺少冒号，缩进到处都是。您需要取消替换html；这涵盖了它。您的代码无效；：
冒号缺失，缩进到处都是。您需要取消替换html；这涵盖了它。您的代码无效；：
冒号缺失，缩进到处都是这个地方。你需要取消你的html；这覆盖了一百万。它像魔术一样工作：）但我仍然有rdquo。，当我在正则表达式中添加它时，它带走了文本的一部分：（编辑为包含ls、ld、rs、rd quote它从文本中转义最后一行。没有正则表达式中的rd，输出不同仔细看，文本中有几个html转义。您应该取消html转义，而不是像我建议的那样逐个替换。我使用了str（匹配项）。替换（'rdquo'，''）。替换（'rsquo'，''）在最终输出中，将使迭代以输出为基础。再次感谢Hanks a mil。它像魔术一样工作：）但我仍然有rdquo。，当我在正则表达式中添加它时，它带走了文本的一部分：（编辑为包含ls、ld、rs、rd quote它从文本中转义最后一行。没有正则表达式中的rd，输出不同仔细看，文本中有几个html转义。您应该取消html转义，而不是像我建议的那样逐个替换。我使用了str（匹配项）。替换（'rdquo'，''）。替换（'rsquo'，''）在最终输出中，将使迭代以输出为基础。再次感谢Hanks a mil。它像魔术一样工作：）但我仍然有rdquo。，当我在正则表达式中添加它时，它带走了文本的一部分：（编辑为包含ls、ld、rs、rd quote它从文本中转义最后一行。没有正则表达式中的rd，输出不同仔细看，文本中有几个html转义。您应该取消html转义，而不是像我建议的那样逐个替换。我使用了str（匹配项）。替换（'rdquo'，''）。替换（'rsquo'，''）在最终输出中，将使迭代以输出为基础。再次感谢Hanks a mil。它像魔术一样工作：）但我仍然有rdquo。，当我在正则表达式中添加它时，它带走了文本的一部分：（编辑为包含ls、ld、rs、rd quote它从文本中转义最后一行。没有正则表达式中的rd，输出不同仔细看，文本中有几个html转义。您应该取消html转义，而不是像我建议的那样逐个替换。我使用了str（匹配项）。替换（'rdquo'，''）。替换（'rsquo'，''）在最终输出中，将根据输出进行迭代。再次感谢