Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/csharp/270.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/1/asp.net/37.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
C# 必须从word文件中提取数据_C#_Asp.net_Ms Word - Fatal编程技术网

C# 必须从word文件中提取数据

C# 必须从word文件中提取数据,c#,asp.net,ms-word,C#,Asp.net,Ms Word,我有一个特殊的问题,我必须从word文件中提取信息。比如说,我有一份简历,需要提取姓名,电子邮件地址,电话号码,地址,大学,经验等等 每个人的简历可能都有不同的格式。那么有什么方法可以让我通过编程提取我需要的信息呢 我需要这些信息来填写注册表格。使用aspose.net将word文档转换为html。 然后可以使用正则表达式搜索单词和/或pdf文档。 或者,您可以使用HTMLAgilityPack解析创建的HTML文档,并搜索特定的节/路径 PS: 如果电子邮件的正则表达式小于一页,则正则表达式不

我有一个特殊的问题,我必须从word文件中提取信息。比如说,我有一份简历,需要提取
姓名
电子邮件地址
电话号码
地址
大学
经验
等等

每个人的简历可能都有不同的格式。那么有什么方法可以让我通过编程提取我需要的信息呢


我需要这些信息来填写注册表格。

使用aspose.net将word文档转换为html。
然后可以使用正则表达式搜索单词和/或pdf文档。
或者,您可以使用HTMLAgilityPack解析创建的HTML文档,并搜索特定的节/路径

PS:
如果电子邮件的正则表达式小于一页,则正则表达式不正确。
只要您只支持一个国家/地区,手机就应该易于管理。
至于姓名和地址,祝你好运

编辑:
像这样

VB.NET:

Dim doc As New Aspose.Words.Document("filename.docORdocx")
doc.Save("filename.html", Aspose.Words.SaveFormat.Html)
C#:

组件在这里:

要了解什么是有效的电子邮件地址,请阅读RFC 822:

即使一开始您可能会被使用Com互操作和Asp.net的想法所吸引,也不要这样做

也就是说,知道我们谈论的是哪个版本的单词是很重要的。较新的格式允许将它们视为包含xml文件的zip,并且有好的免费库


向下投票者..请解释一下为什么给-1。我如何将word文档转换为html..我正在尝试通过System.IO读取。StreamReader@sangram帕尔马:补充:)
Aspose.Words.Document doc = new Aspose.Words.Document("filename.docORdocx");
doc.Save("filename.html", Aspose.Words.SaveFormat.Html);