Tag: vsm

在Python中简单实现N-Gram,tf-idf和余弦相似性

我需要比较存储在数据库中的文档,并得出0到1之间的相似性分数。 我需要使用的方法非常简单。 实现n-gram的vanilla版本(可以定义使用多less克),以及tf-idf和Cosine相似度的简单实现。 有没有什么程序可以做到这一点? 还是应该从头开始写这个?