参考资料, 阮一峰的博客 http://www.ruanyifeng.com/blog/2013/03/tf-idf.html
非常感谢他, 能用如此通俗易懂的文字来阐述概念
TF -- Term Frequency -- 词频 = 某词在文档中的出现频率/文档的总词数
IDF -- Inverse Document Frequency -- 逆文档频率 = log(语料库的文档总数/(包含该次的文档数 + 1)) 如果词越常见则IDF越接近于0
TF-IDF = TF * IDF 与一个词在文档中的出现次数成正比,与该词在整个语料库中的出现次数成反比。
打算自己用python写点代码测试一下, 不知道工作量大不大