如何使用Doc2vec获取两个文本文档的文档向量? 我对此很陌生,所以如果有人能指出我正确的方向/帮助我一些教程将是有帮助的 我正在使用gensim python库。 doc1=["This is a sentence","This is another sentence"] documents1=[doc.strip().split(" ") for doc in doc1 ] model = doc2vec.Doc2Vec(documents1, size = 100, window = 300, min_count = 10, workers=4) 我得到AttributeError:“列表”对象没有属性的话“每当我运行这个
从word2vec网站,我可以下载GoogleNews-vectors-negative300.bin.gz。 .bin文件(大约3.4GB)是对我无用的二进制格式。 Tomas Mikolov 向我们保证 :“将二进制格式转换为文本格式应该相当简单(尽pipe这会占用更多的磁盘空间)。检查距离工具中的代码,读取二进制文件相当简单。 不幸的是,我不知道C了解http://word2vec.googlecode.com/svn/trunk/distance.c 。 据说gensim也可以做到这一点,但我发现的所有教程似乎是从文本转换,而不是其他方式。 有人可以build议修改C代码或说明gensim发出文字?
根据Gensim的Word2Vec ,我可以使用gensim包中的word2vec模型来计算2个单词之间的相似度。 例如 trained_model.similarity('woman', 'man') 0.73723527 然而,2vec这个单词不能预测句子的相似性。 我发现在gensim中有句子相似的LSI模型,但似乎并不能和word2vec模型结合使用。 我每句话的语料库篇幅都不是很长(不超过10个字)。 那么,有没有简单的方法来实现这个目标?