谷歌真的使用 TF-IDF 吗?
阅读时间:5分钟
使用TF-IDF 进行内容优化就像是拿到了季后赛的门票,却发现自己坐在便宜的座位上,视线被挡住了,而温尼伯喷气机队正在比赛。TF-IDF 的支持者就像多伦多枫叶队的球迷。虽然枫叶队偶尔会赢一场比赛,但距离斯坦利杯已经过去了 54 年。然而,球迷们仍然充满希望。
理解人类文本是一项复杂的任务,其中 TF-IDF 只是算法交响曲中的一个小角色。
TF-IDF 并不是一个先进的概念。词频是 20 世纪 50 年代引入的概念,而逆文档频 捷克共和国数字数据 率则出现于 20 世纪 70 年代。那是大约 50 年前的事了!
尽管如此,TF-IDF 确实有其用途。Bill Slawski 搜索了USPTO.gov 网站,发现超过 350 项 Google 专利提到了这一概念。但 TF-IDF 只是算法集合中的一个小角色,大多数人都过分强调了它的作用。
如果您真的想知道冰球要去哪里,请阅读这篇 Google 研究论文《重新思考搜索:让业余爱好者成为专家》,作者是 Metzler、Tay、Bahri 和 Najork,发表于 2021 年 5 月。
在本文中,作者提到了 TF-IDF 与“当系。剧透警告 TF-IDF 粉丝!你可要失望了。
有“三条重要的近期研究路线”,最终形成了当前复杂的文档检索系统。我按复杂程度对它们进行了排序:
表示学习(将查询和文档编码为向量表示)
基于神经的重新排序模型(使用基于神经的模型对文档进行评分或排序
学习排序(基于大量易于获取的用户交互数据)
那么 TF-IDF 在这个结构中处于什么位置呢?
低于最底部。
正如作者所解释的那样,学习排序运动“代表了超越传统基于 TF.IDF 的 IR 系统的转型飞跃”。
金字塔展示了信息检索系统的不同层次。从最复杂到最不复杂依次为:表征学习、基于神经的重新排序模型、基于交互的学习排序模型、TF-IDF、
“当今最先进的系统通常依赖于基于术语(即通过倒排索引进行检索)和语义(即通过密集向量表示索引进行检索)的检索组合来生成一组初始候选集。然后,这组候选集通常会被传递到一个或多个重新排序模型阶段,这些模型很可能是基于神经网络的学习排序模型。 “
TF-IDF 的忠实拥护者可能会抱有希望,因为他们断言使用 TF-IDF 的效果“比使用单个关键词要好一些”。毕竟,任何提升都比没有提升要好,对吧?
我不认为这是暗示。
但是如果正如 Moz 文章所述“许多高级文本分析技术都使用 TF-IDF 的某个版本作为基础”,那么使用它就一定具有一定的有效性,对吗?
这就像说鲸鱼是 Placozoa 的一个变种。是的,两者都是海洋中自由生活的多细胞生物。但将它们视为等同物则有点牵强。