Warning: file_get_contents(/data/phpspider/zhask/data//catemap/1/asp.net/32.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Asp.net 我的XML文档排名有什么问题?_Asp.net_Xml_Information Retrieval - Fatal编程技术网

Asp.net 我的XML文档排名有什么问题?

Asp.net 我的XML文档排名有什么问题?,asp.net,xml,information-retrieval,Asp.net,Xml,Information Retrieval,我用C编写了一个程序来计算TF-IDF,以便对文档进行排序 我使用以下XML在文档中存储词频。我因使用这种结构而受到严厉批评。尽管我在标签中使用了单词的文本,但据我所知,它的效率很高,占用的空间也更少。而且,我可以很容易地使用XDocument进行搜索,因为它是一个很好的树结构。你能帮我理解为什么我被严厉批评吗 批评:如何在元数据中添加信息?对我来说,它是创新的 <word> <siddhartha> <doc1> 4 </doc4&g

我用C编写了一个程序来计算TF-IDF,以便对文档进行排序

我使用以下XML在文档中存储词频。我因使用这种结构而受到严厉批评。尽管我在标签中使用了单词的文本,但据我所知,它的效率很高,占用的空间也更少。而且,我可以很容易地使用XDocument进行搜索,因为它是一个很好的树结构。你能帮我理解为什么我被严厉批评吗

批评:如何在元数据中添加信息?对我来说,它是创新的

<word>
   <siddhartha>
      <doc1> 4 </doc4>
      <doc2> 5 </doc2>

   <insipration>
      <doc1> 4 </doc1>
      <doc6> 5 </doc6>

   ....
</word>
有人建议我这样做:

   <word>
   <text> siddhartha </text>
   <doc1> 4 </doc1>
   <text> inspiration </text>
   <doc1> 4 </doc1>
   ...
   </word>

以word name作为节点的结构将很难用通用解析器进行解析。没有定义的结构:您需要阅读整个文档才能了解它

我可能做过类似的事情我试着对你的想法保持距离:

<words>
   <word id="siddhartha">
      <freq id="doc1"> 4 </freq>
      <freq id="doc2"> 5 </freq>
   </word>
   ....
</words>

我用C写了一个程序来计算TF-IDF来对文档进行排序。什么是TF-IDF?@Kirk你怎么能在元数据中插入信息@Jeff基于关键字搜索对文档进行排序的算法*谢谢你的建议。要搜索频率,我使用:perdoc.Root.elementsiddharta.Elementdoc1.value。如何用你的结构来替换它?哎哟。。。我并不是每天都解析XML:但这应该很简单,您只需要根据其ID属性选择word节点,然后以相同的方式获取子节点。可能您的API.IEnumerable users=from el中已经有了这样的方法,在XMLDoc.root.element中stringel.Attributeid==Siddharta选择el;首先。