Asp.net 我的XML文档排名有什么问题?
我用C编写了一个程序来计算TF-IDF,以便对文档进行排序 我使用以下XML在文档中存储词频。我因使用这种结构而受到严厉批评。尽管我在标签中使用了单词的文本,但据我所知,它的效率很高,占用的空间也更少。而且,我可以很容易地使用XDocument进行搜索,因为它是一个很好的树结构。你能帮我理解为什么我被严厉批评吗 批评:如何在元数据中添加信息?对我来说,它是创新的Asp.net 我的XML文档排名有什么问题?,asp.net,xml,information-retrieval,Asp.net,Xml,Information Retrieval,我用C编写了一个程序来计算TF-IDF,以便对文档进行排序 我使用以下XML在文档中存储词频。我因使用这种结构而受到严厉批评。尽管我在标签中使用了单词的文本,但据我所知,它的效率很高,占用的空间也更少。而且,我可以很容易地使用XDocument进行搜索,因为它是一个很好的树结构。你能帮我理解为什么我被严厉批评吗 批评:如何在元数据中添加信息?对我来说,它是创新的 <word> <siddhartha> <doc1> 4 </doc4&g
<word>
<siddhartha>
<doc1> 4 </doc4>
<doc2> 5 </doc2>
<insipration>
<doc1> 4 </doc1>
<doc6> 5 </doc6>
....
</word>
有人建议我这样做:
<word>
<text> siddhartha </text>
<doc1> 4 </doc1>
<text> inspiration </text>
<doc1> 4 </doc1>
...
</word>
以word name作为节点的结构将很难用通用解析器进行解析。没有定义的结构:您需要阅读整个文档才能了解它 我可能做过类似的事情我试着对你的想法保持距离:
<words>
<word id="siddhartha">
<freq id="doc1"> 4 </freq>
<freq id="doc2"> 5 </freq>
</word>
....
</words>
我用C写了一个程序来计算TF-IDF来对文档进行排序。什么是TF-IDF?@Kirk你怎么能在元数据中插入信息@Jeff基于关键字搜索对文档进行排序的算法*谢谢你的建议。要搜索频率,我使用:perdoc.Root.elementsiddharta.Elementdoc1.value。如何用你的结构来替换它?哎哟。。。我并不是每天都解析XML:但这应该很简单,您只需要根据其ID属性选择word节点,然后以相同的方式获取子节点。可能您的API.IEnumerable users=from el中已经有了这样的方法,在XMLDoc.root.element中stringel.Attributeid==Siddharta选择el;首先。