如何使用python从docx文件中提取URL?

如何使用python从docx文件中提取URL?,python,ms-word,docx,Python,Ms Word,Docx,像python docx这样的包在这种情况下是无效的,因为它用于创建和更新docx文件。 即使我得到了全文,我也可以做一些算法从中提取链接。 需要帮助 如果所有链接都以http://或www.开头,则可以使用正则表达式。在这篇文章中,正则表达式将是\b(?:https?://www\)\S+\b 如果您使用的是Python 3,您可以尝试: import re doc = '...' # use PythonDocx to put the text in here matches = re.s

python docx这样的包在这种情况下是无效的,因为它用于创建和更新docx文件。 即使我得到了全文,我也可以做一些算法从中提取链接。
需要帮助

如果所有链接都以
http://
www.
开头,则可以使用正则表达式。在这篇文章中,正则表达式将是
\b(?:https?://www\)\S+\b

如果您使用的是Python 3,您可以尝试:

import re

doc = '...' # use PythonDocx to put the text in here
matches = re.search('\b(?:https?://|www\.)\S+\b',doc)
if matches:
   print(matches(0))
来源:Python文档

如果这是正确的,这将在
doc
中找到以
http://
https://
www.
开头的所有文本并打印它们

更新:哎呀,错误的解决方案

从python docx文档中,可以看到一个有效的解决方案:

from docx import Document

document = Document("foobar.docx")
doc = '' # only use if you want the entire document
for paragraph in document.paragraphs
   text = paragraph.text
   # with text, run your algorithms on it, paragraph by paragraph. if you want the whole thing:
   doc += text
# now run your algorithm on text  

我的Python有点生锈,所以我可能犯了一个错误。

嘿,谢谢你的回答!但是如果你仔细阅读我的问题,实际上我对“把文本放在这里”这部分有问题。之后我可以自己设计一些算法。如果你能在这方面帮助我,我会很高兴的。