Tag: nlp

如何做词干或词形化?

我已经尝试了PorterStemmer和Snowball,但都不适用于所有的单词,缺less一些非常常见的单词。 我的testing词是:“ 跑仙人掌仙人掌仙人掌社区社区 ”,都得到不到一半的权利。 也可以看看: 产生真实词汇的词干algorithm 梗阻 – 代码示例或开源项目?

Java或Python的自然语言处理

我想知道哪种编程语言对于自然语言处理更好。 Java还是Python ? 我发现了很多关于它的问题和答案。 但是我仍然迷失在select使用哪一个。 我想知道哪个NLP库用于Java,因为有很多库(LingPipe,GATE,OpenNLP,StandfordNLP)。 对于Python,大多数程序员推荐NLTK。 但是如果我要做一些文本处理或者从非结构化数据中提取信息 (只是免费形成简单的英文文本)来获取一些有用的信息,那么最好的select是什么? Java还是Python? 合适的库? 更新 我想要做的是从非结构化数据中提取有用的产品信息(例如,用户使用不是很标准的英语语言对手机或笔记本电脑进行不同forms的广告)

如何从代码configurationnltk数据目录?

如何从代码configurationnltk数据目录?

你如何实现“你的意思”?

可能重复: Google“你的意思是?”algorithm是如何工作的? 假设你的网站已经有一个search系统。 你怎么能像Google在某些search查询中那样实现“你的意思是: <spell_checked_word> ”?

在NLTK / Python中使用电影评论语料库进行分类

我期待在NLTK第6章中做一些分类。 这本书似乎跳过了创build类别的一步,我不知道我做错了什么。 我有我的脚本在这里的回应如下。 我的问题主要来自第一部分 – 基于目录名称的类别创build。 这里的一些其他问题已经使用了文件名(即pos_1.txt和neg_1.txt ),但我更喜欢创build可以转储文件的目录。 from nltk.corpus import movie_reviews reviews = CategorizedPlaintextCorpusReader('./nltk_data/corpora/movie_reviews', r'(\w+)/*.txt', cat_pattern=r'/(\w+)/.txt') reviews.categories() ['pos', 'neg'] documents = [(list(movie_reviews.words(fileid)), category) for category in movie_reviews.categories() for fileid in movie_reviews.fileids(category)] all_words=nltk.FreqDist( w.lower() for w in movie_reviews.words() if w.lower() not in nltk.corpus.stopwords.words('english') and w.lower() not in string.punctuation) word_features = all_words.keys()[:100] def document_features(document): document_words = […]

Java中的模糊stringsearch库

我正在寻找一个高性能的Java库进行模糊stringsearch。 有许多algorithm可以find相似的string,Levenshtein距离,Daitch-Mokotoff Soundex,n-grams等。 什么Java实现存在? 对他们有利有弊吗? 我知道Lucene,任何其他解决scheme或Lucene是最好的? 我发现这些,有没有人有与他们的经验? SimMetrics NGramJ

用一个词来检测音节

我需要find一个相当有效的方法来检测一个字的音节。 例如, 不可见 – > in-vi-sib-le 有一些可以使用的音节规则: V CV VC CVC CCV CCCV CVCC * V是元音,C是辅音。 例如, 发音(5 Pro-nun-ci-tion; CV-CVC-CV-V-CVC) 我已经尝试了几种方法,其中使用正则expression式(这有助于只计算音节)或硬编码的规则定义(一种被certificate是非常低效的蛮力方法),最后使用有限状态自动机不带任何有用的结果)。 我的应用程序的目的是创build一个给定语言的所有音节字典。 此字典稍后将用于拼写检查应用程序(使用贝叶斯分类器)和文本到语音合成。 我很感激,如果能给我一个替代的方法来解决这个问题,除了我以前的做法。 我在Java中工作,但是C / C ++,C#,Python,Perl中的任何提示都适用于我。

我怎样才能拆分多个连接的单词?

我有一个数组1000个左右的条目,下面的例子: wickedweather liquidweather driveourtrucks gocompact slimprojector 我希望能够将这些分成他们各自的单词,如: wicked weather liquid weather drive our trucks go compact slim projector 我希望能有个正则expression式, 但是,既然没有边界可以停下来,也没有任何我可能关注的资本化,我想,对字典的某种提及可能是必要的。 我想这可以通过手工完成,但为什么 – 当它可以用代码完成! =)但是这一直困扰着我。 有任何想法吗?

如何计算两个句子的余弦相似度? – Python

从Python:tf-idf-cosine:查找文档相似度 ,可以使用tf-idf余弦计算文档相似度。 如果不导入外部库,是否有任何方法来计算2个string之间的余弦相似度? s1 = "This is a foo bar sentence ." s2 = "This sentence is similar to a foo bar sentence ." s3 = "What is this string ? Totally not related to the other two lines ." cosine_sim(s1, s2) # Should give high cosine similarity cosine_sim(s1, s3) # Shouldn't give high cosine […]

有没有一个很好的自然语言处理库

我需要在当前模块中实现一些NLP。 我正在寻找一些可以帮助我的好图书馆。 我遇到了“LingPipe”,但不能完全遵循如何使用它。 基本上,我们需要实现一个function,应用程序可以破译用英文input的客户指令(交付指令)。 例如: 明天中午12点起床 6月10日以后要求发货 请不要在星期三之前发送 在订单中再增加10个XYZ单位