Tag: nlp

两个文本文件之间的相似性

我正在研究任何语言的NLP项目(尽pipePython将是我的首选)。 我想写一个程序,将采取两个文件,并确定它们有多相似。 由于我对此很新,而且Google的searchfunction并没有太多提示。 您是否知道涵盖此主题的任何参考资料(网站,教科书,期刊文章),对我有帮助? 谢谢

用NLTK创build一个新的语料库

我认为,我的题目的答案往往是去阅读文件,但我跑过NLTK书,但它没有给出答案。 我对python很陌生。 我有一堆.txt文件,我希望能够使用NLTK为语料库nltk_data提供的语料库nltk_data 。 我试过PlaintextCorpusReader但我不能得到比: >>>import nltk >>>from nltk.corpus import PlaintextCorpusReader >>>corpus_root = './' >>>newcorpus = PlaintextCorpusReader(corpus_root, '.*') >>>newcorpus.words() 如何使用punkt分割新的句子句子? 我尝试使用punkt函数,但punkt函数无法读取PlaintextCorpusReader类? 你还可以引导我如何将分段数据写入文本文件? 编辑:这个问题有一次赏金,它现在有第二个赏金。 请参阅赏金箱中的文字。

Google“你的意思是?”algorithm是如何工作的?

我一直在为一个投资组合pipe理工具开发一个内部网站。 有很多的文本数据,公司名称等我一直对一些search引擎能够很快响应查询与“你的意思是:xxxx”印象深刻。 我需要能够智能地采取用户查询,不仅回应原始的search结果,而且与“你的意思是? 有很可能的备选答案等时的回应 [我正在开发ASP.NET (VB – 不要抱着它!)] 更新:好的,我怎样才能模仿这个没有数百万的“无偿用户”? 为每个“已知”或“正确”的字词生成拼写错误并执行查找? 其他一些更优雅的方法?

Python NLTK pos_tag不返回正确的词性标记

拥有这个: text = word_tokenize("The quick brown fox jumps over the lazy dog") 并运行: nltk.pos_tag(text) 我得到: [('The', 'DT'), ('quick', 'NN'), ('brown', 'NN'), ('fox', 'NN'), ('jumps', 'NNS'), ('over', 'IN'), ('the', 'DT'), ('lazy', 'NN'), ('dog', 'NN')] 这是不正确的。 句子中quick brown lazy的标签应该是: ('quick', 'JJ'), ('brown', 'JJ') , ('lazy', 'JJ') 通过他们的在线工具进行testing,结果相同。 quick , brown和fox应该是形容词不是名词。

斯坦福分析器和NLTK

在NLTK中可以使用Stanford Parser吗? (我不是在谈论斯坦福POS。)