C# 必须从word文件中提取数据
我有一个特殊的问题,我必须从word文件中提取信息。比如说,我有一份简历,需要提取C# 必须从word文件中提取数据,c#,asp.net,ms-word,C#,Asp.net,Ms Word,我有一个特殊的问题,我必须从word文件中提取信息。比如说,我有一份简历,需要提取姓名,电子邮件地址,电话号码,地址,大学,经验等等 每个人的简历可能都有不同的格式。那么有什么方法可以让我通过编程提取我需要的信息呢 我需要这些信息来填写注册表格。使用aspose.net将word文档转换为html。 然后可以使用正则表达式搜索单词和/或pdf文档。 或者,您可以使用HTMLAgilityPack解析创建的HTML文档,并搜索特定的节/路径 PS: 如果电子邮件的正则表达式小于一页,则正则表达式不
姓名
,电子邮件地址
,电话号码
,地址
,大学
,经验
等等
每个人的简历可能都有不同的格式。那么有什么方法可以让我通过编程提取我需要的信息呢
我需要这些信息来填写注册表格。使用aspose.net将word文档转换为html。
然后可以使用正则表达式搜索单词和/或pdf文档。
或者,您可以使用HTMLAgilityPack解析创建的HTML文档,并搜索特定的节/路径 PS:
如果电子邮件的正则表达式小于一页,则正则表达式不正确。
只要您只支持一个国家/地区,手机就应该易于管理。
至于姓名和地址,祝你好运 编辑:
像这样 VB.NET:
Dim doc As New Aspose.Words.Document("filename.docORdocx")
doc.Save("filename.html", Aspose.Words.SaveFormat.Html)
C#:
组件在这里:要了解什么是有效的电子邮件地址,请阅读RFC 822:
即使一开始您可能会被使用Com互操作和Asp.net的想法所吸引,也不要这样做 也就是说,知道我们谈论的是哪个版本的单词是很重要的。较新的格式允许将它们视为包含xml文件的zip,并且有好的免费库
向下投票者..请解释一下为什么给-1。我如何将word文档转换为html..我正在尝试通过System.IO读取。StreamReader@sangram帕尔马:补充:)
Aspose.Words.Document doc = new Aspose.Words.Document("filename.docORdocx");
doc.Save("filename.html", Aspose.Words.SaveFormat.Html);