文本清理python

文本清理python,python,Python,我写了一个代码,在这里我提取文本,然后使用关键字搜索句子。我得到以下输出: [“许多市场观察家都提到了云的真正价值所在,云正在向上提升。”,“我们并没有放弃我们的系统空间,但我认为我们更具体地说明了哪一点适合增长的哪一部分,以及其中的每一个元素ibm需要证明其立场是“我们继续前进”,我认为这是联想宣布的背景。“这与罗梅蒂在其年度信函中所写的内容产生了强烈的共鸣,罗梅蒂在信中告诉股东,今年的重大挑战将是“将ibm硬件业务转变为新的现实和机遇”y.“ 我不知道这些是什么,打破了文本。下面是我的代码

我写了一个代码,在这里我提取文本,然后使用关键字搜索句子。我得到以下输出:

[“许多市场观察家都提到了云的真正价值所在,云正在向上提升。”,“我们并没有放弃我们的系统空间,但我认为我们更具体地说明了哪一点适合增长的哪一部分,以及其中的每一个元素ibm需要证明其立场是“我们继续前进”,我认为这是联想宣布的背景。“这与罗梅蒂在其年度信函中所写的内容产生了强烈的共鸣,罗梅蒂在信中告诉股东,今年的重大挑战将是“将ibm硬件业务转变为新的现实和机遇”y.“

我不知道这些是什么,打破了文本。下面是我的代码

br = mechanize.Browser()
br.set_handle_robots(False)
br.addheaders = [('User-agent','Chrome')]
html = br.open(url).read()
titles = br.title()
readable_article= Document(html).summary()
readable_title = Document(html).short_title()
soup = bs4.BeautifulSoup(readable_article)
Final_Article = soup.text
final.append(titles)
final.append(url)
final.append(Final_Article)
raw = nltk.clean_html(html)
tokens = nltk.wordpunct_tokenize(raw)
lmtzr = WordNetLemmatizer()
t = [lmtzr.lemmatize(t) for t in tokens]
text = nltk.Text(t)
word = words(n)
find = ' '.join(str(e) for e in word)
search_words = set(find.split(' '))
sents = ' '.join([s.lower() for s in text])
blob = TextBlob(sents.decode('ascii','ignore'))
matches = [map(str, blob.sentences[i-1:i+2])     # from prev to after next
for i, s in enumerate(blob.sentences) # i is index, e is element
    if search_words & set(s.words)]
        print matches,word

”
“
是开引号和闭引号的代码。
rsquo
和lsquo
是单引号(在本文中用作appostraphes),而
ndash`是破折号。如果源文本中存在这些模式,请使用以下代码替换它们

import re
cleaned = re.sub(r'& ?(ld|rd)quo ?[;\]]', '\"', raw)
cleaned = re.sub(r'& ?(ls|rs)quo ?;', '\'', cleaned)
cleaned = re.sub(r'& ?ndash ?;', '-', cleaned)

这将替换原始文本(我称之为
raw
)中的两个代码(带空格或不带空格)使用引号并将其保存到名为
cleaned
的新变量中。将
cleaned
传递到代码的其余部分应该可以使用。

是打开和关闭引号的代码。
rsquo
和lsquo
是单引号(在本文中用作缩写)和
ndash`是一个破折号。如果这些模式出现在源文本中,请使用以下代码替换它们

import re
cleaned = re.sub(r'& ?(ld|rd)quo ?[;\]]', '\"', raw)
cleaned = re.sub(r'& ?(ls|rs)quo ?;', '\'', cleaned)
cleaned = re.sub(r'& ?ndash ?;', '-', cleaned)

这将替换原始文本(我称之为
raw
)中的两个代码(带空格或不带空格)使用引号并将其保存到名为
cleaned
的新变量中。将
cleaned
传递到代码的其余部分应该可以使用。

是打开和关闭引号的代码。
rsquo
和lsquo
是单引号(在本文中用作缩写)和
ndash`是一个破折号。如果这些模式出现在源文本中,请使用以下代码替换它们

import re
cleaned = re.sub(r'& ?(ld|rd)quo ?[;\]]', '\"', raw)
cleaned = re.sub(r'& ?(ls|rs)quo ?;', '\'', cleaned)
cleaned = re.sub(r'& ?ndash ?;', '-', cleaned)

这将替换原始文本(我称之为
raw
)中的两个代码(带空格或不带空格)使用引号并将其保存到名为
cleaned
的新变量中。将
cleaned
传递到代码的其余部分应该可以使用。

是打开和关闭引号的代码。
rsquo
和lsquo
是单引号(在本文中用作缩写)和
ndash`是一个破折号。如果这些模式出现在源文本中,请使用以下代码替换它们

import re
cleaned = re.sub(r'& ?(ld|rd)quo ?[;\]]', '\"', raw)
cleaned = re.sub(r'& ?(ls|rs)quo ?;', '\'', cleaned)
cleaned = re.sub(r'& ?ndash ?;', '-', cleaned)


这将替换原始文本(我称之为
raw
)中的两个代码(带空格或不带空格)使用引号并将其保存到名为
cleaned
的新变量中。将
cleaned
传递到其余的代码中应该可以工作。

Yur代码无效;
冒号丢失,缩进到处都是。您需要取消浏览html;这涵盖了它Yur代码无效;
c缺少冒号,缩进到处都是。您需要取消替换html;这涵盖了它。您的代码无效;
冒号缺失,缩进到处都是。您需要取消替换html;这涵盖了它。您的代码无效;
冒号缺失,缩进到处都是这个地方。你需要取消你的html;这覆盖了一百万。它像魔术一样工作:)但我仍然有rdquo。,当我在正则表达式中添加它时,它带走了文本的一部分:(编辑为包含ls、ld、rs、rd quote它从文本中转义最后一行。没有正则表达式中的rd,输出不同仔细看,文本中有几个html转义。您应该取消html转义,而不是像我建议的那样逐个替换。我使用了str(匹配项)。替换('rdquo','')。替换('rsquo','')在最终输出中,将使迭代以输出为基础。再次感谢Hanks a mil。它像魔术一样工作:)但我仍然有rdquo。,当我在正则表达式中添加它时,它带走了文本的一部分:(编辑为包含ls、ld、rs、rd quote它从文本中转义最后一行。没有正则表达式中的rd,输出不同仔细看,文本中有几个html转义。您应该取消html转义,而不是像我建议的那样逐个替换。我使用了str(匹配项)。替换('rdquo','')。替换('rsquo','')在最终输出中,将使迭代以输出为基础。再次感谢Hanks a mil。它像魔术一样工作:)但我仍然有rdquo。,当我在正则表达式中添加它时,它带走了文本的一部分:(编辑为包含ls、ld、rs、rd quote它从文本中转义最后一行。没有正则表达式中的rd,输出不同仔细看,文本中有几个html转义。您应该取消html转义,而不是像我建议的那样逐个替换。我使用了str(匹配项)。替换('rdquo','')。替换('rsquo','')在最终输出中,将使迭代以输出为基础。再次感谢Hanks a mil。它像魔术一样工作:)但我仍然有rdquo。,当我在正则表达式中添加它时,它带走了文本的一部分:(编辑为包含ls、ld、rs、rd quote它从文本中转义最后一行。没有正则表达式中的rd,输出不同仔细看,文本中有几个html转义。您应该取消html转义,而不是像我建议的那样逐个替换。我使用了str(匹配项)。替换('rdquo','')。替换('rsquo','')在最终输出中,将根据输出进行迭代。再次感谢