注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

hhfighting的博客

以责人之心责己,以恕己之心恕人

 
 
 

日志

 
 
 
 

TF-IDF词频-逆文档频率  

2016-10-09 09:23:53|  分类: 专业知识 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |
TF=Term Frequency描述关键词在当前文档中出现的频率
TF-IDF词频-逆文档频率 - hhfighting - hhfighting的博客

IDF=Inverse Document Frequency描述关键词的普遍程度(越普遍,该值越小)
TF-IDF词频-逆文档频率 - hhfighting - hhfighting的博客注:分母加1是为了避免分母为0
TF-IDF=TF*IDF 

用处:
(1)当一个word在文档中出现的频率越高且新鲜度越高(普遍性低),该值越大
(2)兼顾词频和新鲜度,能够过滤常见词,保留一些有重要意义的词
(3)用于评估一个word的重要程度,是一种常用的加权技术

通俗解释:提取文档关键词
TF-IDF词频-逆文档频率 - hhfighting - hhfighting的博客
 
  评论这张
 
阅读(3)| 评论(0)
推荐 转载

历史上的今天

在LOFTER的更多文章

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017