推荐设备MORE

微信小程序商城—商城小程序

微信小程序商城—商城小程序

行业新闻

TF-IDF:传统式IR的有关排列技术性(2)

日期:2021-04-24
我要分享

TF-IDF:传统式IR的有关排列技术性(2)


短视頻,自新闻媒体,达人种草1站服务  

既然是2,便是顺着上1篇文章内容《TF-IDF:传统式IR的有关排列技术性》写下来的。因此,有兴趣爱好的同学请先看完第1篇文章内容再来再次。

好,大家再次刚开始2。

有关词频,要是你的分词专用工具够牛逼,就很好了解和完成。有关反文本文档频率,各位亲们,看到时会不容易初时觉得很牛叉,随后细想会很有疑虑?

逆文本文档频率(idf)=log(文本文档总数/包括重要词的文本文档数量)

对,疑虑就在如何得到 文本文档总数 与 包括重要词的文本文档数量 上。

在检索模块上,能够有1个非常好的取代方法,下面听我细细道来。

每篇文章内容每一个网页页面基本上都含有 的 这个字,嗯,你想起了吧。在检索模块中搜这个字,出来的結果数量能够了解为全部的文本文档数量,随后再搜你的总体目标词即为包括这个词的文本文档数量,这1数据信息也就获得掌握决,下面是我弄的1个事例:

 

好了,有了这些数据信息,大家接下看来看可以做些甚么出来。

将网站中每一个网页页面开展分词,去掉语气助词间断词以后依照tf-idf值从大到小开展排列。

网页页面A={a1,b1,c1,d1,e1 z1}

网页页面B={a1,b2,c1,d5,e2 z6}

网页页面C={a2,b1,c2,d1,e2 z2}

明显从{a1,b1,c1,d1,e1 z1}中便可以掌握到网页页面A所表述的意思,B、C亦然。

假如根据1个方式将A、B、C中的词开展比对,那岂并不是便可以算出来 ,你想对了,网页页面之间的类似水平。

这个方式,便是余弦值。实际实际操作,以下:

大家最先从A、B、C选中出前N个能够表述网页页面主题的词,构成1个结合。

{a1,c1,d1,e1,b2,d5,e2,a2,b1,c2}

随后测算A、B、C网页页面对于这个结合中每一个词的词频(如必须,请应用相对性词频),构成对应的空间向量。

A=[2,1,3,5,0,0,0,0,1,0]

B=[ ]

C=[ ]

请记牢这个高中时就学到的公式。

 

OK,历经此公式的测算,不仅是网页页面之间的类似度,一样1个网页页面最有关的强烈推荐文章内容也便可由此造成。

有兴趣爱好的同学们,请实验1下吧。

转载请注明连接详细地址。