如何使用python从docx文件中提取URL?
像python docx这样的包在这种情况下是无效的,因为它用于创建和更新docx文件。 即使我得到了全文,我也可以做一些算法从中提取链接。如何使用python从docx文件中提取URL?,python,ms-word,docx,Python,Ms Word,Docx,像python docx这样的包在这种情况下是无效的,因为它用于创建和更新docx文件。 即使我得到了全文,我也可以做一些算法从中提取链接。 需要帮助 如果所有链接都以http://或www.开头,则可以使用正则表达式。在这篇文章中,正则表达式将是\b(?:https?://www\)\S+\b 如果您使用的是Python 3,您可以尝试: import re doc = '...' # use PythonDocx to put the text in here matches = re.s
需要帮助 如果所有链接都以
http://
或www.
开头,则可以使用正则表达式。在这篇文章中,正则表达式将是\b(?:https?://www\)\S+\b
如果您使用的是Python 3,您可以尝试:
import re
doc = '...' # use PythonDocx to put the text in here
matches = re.search('\b(?:https?://|www\.)\S+\b',doc)
if matches:
print(matches(0))
来源:Python文档
如果这是正确的,这将在doc
中找到以http://
、https://
或www.
开头的所有文本并打印它们
更新:哎呀,错误的解决方案
从python docx文档中,可以看到一个有效的解决方案:
from docx import Document
document = Document("foobar.docx")
doc = '' # only use if you want the entire document
for paragraph in document.paragraphs
text = paragraph.text
# with text, run your algorithms on it, paragraph by paragraph. if you want the whole thing:
doc += text
# now run your algorithm on text
我的Python有点生锈,所以我可能犯了一个错误。嘿,谢谢你的回答!但是如果你仔细阅读我的问题,实际上我对“把文本放在这里”这部分有问题。之后我可以自己设计一些算法。如果你能在这方面帮助我,我会很高兴的。