Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/csharp/302.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
C# 从各种文档类型中删除文本_C#_Asp.net Mvc - Fatal编程技术网

C# 从各种文档类型中删除文本

C# 从各种文档类型中删除文本,c#,asp.net-mvc,C#,Asp.net Mvc,我正在编写一个C#asp.net web应用程序,它接收各种格式的简历,如doc、docx、pdf、文本等 我想知道是否有一种简单的方法可以从文档中删除某些信息,而不管它是什么文件类型,然后将编辑过的文件传递给最终用户 要删除的信息将保存在字符串中您需要使用单独的API解析每种文件类型 .docx可通过以下方式进行解析: .pdf可通过以下方式进行解析: 等等 如果您使用streamreader(http://msdn.microsoft.com/en-us/library/system.io

我正在编写一个C#asp.net web应用程序,它接收各种格式的简历,如doc、docx、pdf、文本等

我想知道是否有一种简单的方法可以从文档中删除某些信息,而不管它是什么文件类型,然后将编辑过的文件传递给最终用户


要删除的信息将保存在字符串中

您需要使用单独的API解析每种文件类型

  • .docx可通过以下方式进行解析:
  • .pdf可通过以下方式进行解析:
  • 等等
如果您使用streamreader(http://msdn.microsoft.com/en-us/library/system.io.streamreader.aspx)要通读文档,可以使用ReadToEnd函数将所有内容存储在字符串中,然后使用函数:

 MyString.Replace("Something to replace", "");

删除匹配项。如果无法以字符串形式读取文件格式,则必须考虑不同的选项。但是,考虑到文件格式,可能会有更快的解决方案,而且它可能不会简单地存储。

不,没有简单的方法可以做到这一点。我想这就是您可以创建抽象基类的情况,稍后,将实现处理不同类型文档所需的方法。当然,这是实现这一点的最干净的方法。这是问题。DOC文件可能在搜索的字符串中间有标记。Word中呈现为
要替换的内容
的文本可能不会作为
要替换的内容
存储在.doc文件中。DOCX是一个包含XML的压缩文件。PDF和DOC都是二进制格式。我认为这种方法可能会失败……很公平,我想你可以读入字节数组并尝试从那里解析,但这并不是一个简单的解决方案:p