博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
TF-IDF 学习
阅读量:5090 次
发布时间:2019-06-13

本文共 364 字,大约阅读时间需要 1 分钟。

参考资料, 阮一峰的博客  http://www.ruanyifeng.com/blog/2013/03/tf-idf.html

非常感谢他, 能用如此通俗易懂的文字来阐述概念

 

TF -- Term Frequency -- 词频 = 某词在文档中的出现频率/文档的总词数

IDF -- Inverse Document Frequency -- 逆文档频率 = log(语料库的文档总数/(包含该次的文档数 + 1))  如果词越常见则IDF越接近于0

 

TF-IDF = TF * IDF   与一个词在文档中的出现次数成正比,与该词在整个语料库中的出现次数成反比。

 

打算自己用python写点代码测试一下, 不知道工作量大不大

转载于:https://www.cnblogs.com/stevenczp/p/3930031.html

你可能感兴趣的文章
Weird animal facts True/false
查看>>
Vue学习
查看>>
【hadoop之翊】——CentOS6.5 Linux上面编译Hadoop2.4源代码
查看>>
Mapped Statements collection does not contain value for xxxxxxxxxx
查看>>
教育与社会的关系
查看>>
uinx 学习(3)exec函数族 转载
查看>>
ResultSet的Type
查看>>
.NET程序集(Assembly)
查看>>
mysql 无法退出sql命令行编辑
查看>>
a链接加js和className
查看>>
SQL SERVER登录账户管理的T-SQL 命令
查看>>
深度学习----Xavier初始化方法
查看>>
springmvc 初始化参数绑定(使用属性编辑器) 来处理类型转换问题
查看>>
数论——扩展欧几里得算法与线性同余方程
查看>>
How to unblock Youku
查看>>
测试用例设计方法与举例说明
查看>>
个体工商营业执照PSD素材最新版下载
查看>>
微信的发展演变
查看>>
解决hive交互模式退格键乱码
查看>>
面试题题解
查看>>