Tag: nlp

两个文本文件之间的相似性: 我正在研究任何语言的NLP项目（尽pipePython将是我的首选）。我想写一个程序，将采取两个文件，并确定它们有多相似。由于我对此很新，而且Google的searchfunction并没有太多提示。您是否知道涵盖此主题的任何参考资料（网站，教科书，期刊文章），对我有帮助？谢谢

用NLTK创build一个新的语料库: 我认为，我的题目的答案往往是去阅读文件，但我跑过NLTK书，但它没有给出答案。我对python很陌生。我有一堆.txt文件，我希望能够使用NLTK为语料库nltk_data提供的语料库nltk_data 。我试过PlaintextCorpusReader但我不能得到比： >>>import nltk >>>from nltk.corpus import PlaintextCorpusReader >>>corpus_root = './' >>>newcorpus = PlaintextCorpusReader(corpus_root, '.*') >>>newcorpus.words() 如何使用punkt分割新的句子句子？我尝试使用punkt函数，但punkt函数无法读取PlaintextCorpusReader类？你还可以引导我如何将分段数据写入文本文件？编辑：这个问题有一次赏金，它现在有第二个赏金。请参阅赏金箱中的文字。

Google“你的意思是？”algorithm是如何工作的？: 我一直在为一个投资组合pipe理工具开发一个内部网站。有很多的文本数据，公司名称等我一直对一些search引擎能够很快响应查询与“你的意思是：xxxx”印象深刻。我需要能够智能地采取用户查询，不仅回应原始的search结果，而且与“你的意思是？有很可能的备选答案等时的回应 [我正在开发ASP.NET （VB – 不要抱着它！）] 更新：好的，我怎样才能模仿这个没有数百万的“无偿用户”？为每个“已知”或“正确”的字词生成拼写错误并执行查找？其他一些更优雅的方法？

Python NLTK pos_tag不返回正确的词性标记: 拥有这个： text = word_tokenize("The quick brown fox jumps over the lazy dog") 并运行： nltk.pos_tag(text) 我得到： [('The', 'DT'), ('quick', 'NN'), ('brown', 'NN'), ('fox', 'NN'), ('jumps', 'NNS'), ('over', 'IN'), ('the', 'DT'), ('lazy', 'NN'), ('dog', 'NN')] 这是不正确的。句子中quick brown lazy的标签应该是： ('quick', 'JJ'), ('brown', 'JJ') , ('lazy', 'JJ') 通过他们的在线工具进行testing，结果相同。 quick ， brown和fox应该是形容词不是名词。