如何使用python从docx文件中提取URL？_Python_Ms Word_Docx

如何使用python从docx文件中提取URL？

python ms-word

如何使用python从docx文件中提取URL？,python,ms-word,docx,Python,Ms Word,Docx,像python docx这样的包在这种情况下是无效的，因为它用于创建和更新docx文件。即使我得到了全文，我也可以做一些算法从中提取链接。需要帮助如果所有链接都以http://或www.开头，则可以使用正则表达式。在这篇文章中，正则表达式将是\b（？：https？：//www\）\S+\b 如果您使用的是Python 3，您可以尝试： import re doc = '...' # use PythonDocx to put the text in here matches = re.s

像python docx这样的包在这种情况下是无效的，因为它用于创建和更新docx文件。即使我得到了全文，我也可以做一些算法从中提取链接。

需要帮助

如果所有链接都以

http://

或

www.

开头，则可以使用正则表达式。在这篇文章中，正则表达式将是

\b（？：https？：//www\）\S+\b

如果您使用的是Python 3，您可以尝试：

import re

doc = '...' # use PythonDocx to put the text in here
matches = re.search('\b(?:https?://|www\.)\S+\b',doc)
if matches:
   print(matches(0))

来源：Python文档

如果这是正确的，这将在

doc

中找到以

http://

、

https://

或

www.

开头的所有文本并打印它们

更新：哎呀，错误的解决方案

从python docx文档中，可以看到一个有效的解决方案：

from docx import Document

document = Document("foobar.docx")
doc = '' # only use if you want the entire document
for paragraph in document.paragraphs
   text = paragraph.text
   # with text, run your algorithms on it, paragraph by paragraph. if you want the whole thing:
   doc += text
# now run your algorithm on text

我的Python有点生锈，所以我可能犯了一个错误。

嘿，谢谢你的回答！但是如果你仔细阅读我的问题，实际上我对“把文本放在这里”这部分有问题。之后我可以自己设计一些算法。如果你能在这方面帮助我，我会很高兴的。