Tag: nlp

如何做词干或词形化？: 我已经尝试了PorterStemmer和Snowball，但都不适用于所有的单词，缺less一些非常常见的单词。我的testing词是：“ 跑仙人掌仙人掌仙人掌社区社区 ”，都得到不到一半的权利。也可以看看：产生真实词汇的词干algorithm 梗阻 – 代码示例或开源项目？

Java或Python的自然语言处理: 我想知道哪种编程语言对于自然语言处理更好。 Java还是Python ？我发现了很多关于它的问题和答案。但是我仍然迷失在select使用哪一个。我想知道哪个NLP库用于Java，因为有很多库（LingPipe，GATE，OpenNLP，StandfordNLP）。对于Python，大多数程序员推荐NLTK。但是如果我要做一些文本处理或者从非结构化数据中提取信息（只是免费形成简单的英文文本）来获取一些有用的信息，那么最好的select是什么？ Java还是Python？合适的库？更新我想要做的是从非结构化数据中提取有用的产品信息（例如，用户使用不是很标准的英语语言对手机或笔记本电脑进行不同forms的广告）

你如何实现“你的意思”？: 可能重复： Google“你的意思是？”algorithm是如何工作的？假设你的网站已经有一个search系统。你怎么能像Google在某些search查询中那样实现“你的意思是： <spell_checked_word> ”？

在NLTK / Python中使用电影评论语料库进行分类: 我期待在NLTK第6章中做一些分类。这本书似乎跳过了创build类别的一步，我不知道我做错了什么。我有我的脚本在这里的回应如下。我的问题主要来自第一部分 – 基于目录名称的类别创build。这里的一些其他问题已经使用了文件名（即pos_1.txt和neg_1.txt ），但我更喜欢创build可以转储文件的目录。 from nltk.corpus import movie_reviews reviews = CategorizedPlaintextCorpusReader('./nltk_data/corpora/movie_reviews', r'(\w+)/*.txt', cat_pattern=r'/(\w+)/.txt') reviews.categories() ['pos', 'neg'] documents = [(list(movie_reviews.words(fileid)), category) for category in movie_reviews.categories() for fileid in movie_reviews.fileids(category)] all_words=nltk.FreqDist( w.lower() for w in movie_reviews.words() if w.lower() not in nltk.corpus.stopwords.words('english') and w.lower() not in string.punctuation) word_features = all_words.keys()[:100] def document_features(document): document_words = […]

Java中的模糊stringsearch库: 我正在寻找一个高性能的Java库进行模糊stringsearch。有许多algorithm可以find相似的string，Levenshtein距离，Daitch-Mokotoff Soundex，n-grams等。什么Java实现存在？对他们有利有弊吗？我知道Lucene，任何其他解决scheme或Lucene是最好的？我发现这些，有没有人有与他们的经验？ SimMetrics NGramJ

用一个词来检测音节: 我需要find一个相当有效的方法来检测一个字的音节。例如，不可见 – > in-vi-sib-le 有一些可以使用的音节规则： V CV VC CVC CCV CCCV CVCC * V是元音，C是辅音。例如，发音（5 Pro-nun-ci-tion; CV-CVC-CV-V-CVC）我已经尝试了几种方法，其中使用正则expression式（这有助于只计算音节）或硬编码的规则定义（一种被certificate是非常低效的蛮力方法），最后使用有限状态自动机不带任何有用的结果）。我的应用程序的目的是创build一个给定语言的所有音节字典。此字典稍后将用于拼写检查应用程序（使用贝叶斯分类器）和文本到语音合成。我很感激，如果能给我一个替代的方法来解决这个问题，除了我以前的做法。我在Java中工作，但是C / C ++，C＃，Python，Perl中的任何提示都适用于我。

我怎样才能拆分多个连接的单词？: 我有一个数组1000个左右的条目，下面的例子： wickedweather liquidweather driveourtrucks gocompact slimprojector 我希望能够将这些分成他们各自的单词，如： wicked weather liquid weather drive our trucks go compact slim projector 我希望能有个正则expression式，但是，既然没有边界可以停下来，也没有任何我可能关注的资本化，我想，对字典的某种提及可能是必要的。我想这可以通过手工完成，但为什么 – 当它可以用代码完成！ =）但是这一直困扰着我。有任何想法吗？

如何计算两个句子的余弦相似度？ – Python: 从Python：tf-idf-cosine：查找文档相似度，可以使用tf-idf余弦计算文档相似度。如果不导入外部库，是否有任何方法来计算2个string之间的余弦相似度？ s1 = "This is a foo bar sentence ." s2 = "This sentence is similar to a foo bar sentence ." s3 = "What is this string ? Totally not related to the other two lines ." cosine_sim(s1, s2) # Should give high cosine similarity cosine_sim(s1, s3) # Shouldn't give high cosine […]

有没有一个很好的自然语言处理库: 我需要在当前模块中实现一些NLP。我正在寻找一些可以帮助我的好图书馆。我遇到了“LingPipe”，但不能完全遵循如何使用它。基本上，我们需要实现一个function，应用程序可以破译用英文input的客户指令（交付指令）。例如：明天中午12点起床 6月10日以后要求发货请不要在星期三之前发送在订单中再增加10个XYZ单位