Tag: nlp

如何使用斯坦福分析器将文本分成几个句子？: 如何使用斯坦福分析器将文本或段落分解成句子？有什么方法可以提取句子，如为Ruby提供的getSentencesFromString() ？

从一个句子生成N-gram: 如何生成一个string的n元组，如： String Input="This is my car." 我想用这个input生成n-gram： Input Ngram size = 3 输出应该是： This is my car This is is my my car This is my is my car 在Java中给出一些想法，如何实现它，或者是否有可用的库。我正在尝试使用这个NGramTokenizer，但它给出了n-gram的字符序列，我想要n-gram的字序列。

如何从数字中读取值作为单词？: 众所周知，数字可以用数字来表示，也可以用名字来表示。虽然有很多例子可以把123转换为123，但是我找不到如何将其转换成另一种方式的好例子。一些注意事项：基数/名义或序数：“一”和“第一” 常见的拼写错误：“四十”/“四十” 数百/数千：2100 – >“二百”，还有“二千一百” 分隔符：“十一五二”，还有“一百五十二”或“十一五二”，还有什么 colloqialisms：“三十多岁” 片段：“三分之一”，“五分之二” 俗名：“一打”，“一半” 还有可能有更多的警告，可能还没有列出。假设algorithm需要非常强大，甚至可以理解拼写错误。我应该阅读哪些字段/论文/研究/algorithm来学习如何编写这些内容？信息在哪里？ PS：我最后的parsing器实际上应该理解3种不同的语言，英语，俄语和希伯来语。也许在稍后的阶段会增加更多的语言。希伯来文也有男/女数字，像“一个男人”和“一个女人”有不同的“一”，“ehad”和“ahat”。俄罗斯也有其自身的一些复杂性。 Google在这方面做得很好，例如： http://www.google.com/search?q=two+thousand+and+one+hundred+plus+five+dozen+and+four+fifths+in+decimal （反过来也是http://www.google.com/search?q=999999999999+in+english ）

在动词/名词/形容词forms之间转换单词: 我想要一个能够翻译/转换不同词类的python库函数。有时它应该输出多个单词（例如，“编码器”和“编码”都是从动词“代码”的名词，一个是另一个的对象的主题） # :: String => List of String print verbify('writer') # => ['write'] print nounize('written') # => ['writer'] print adjectivate('write') # => ['written'] 我主要关心动词<=>名词，我要写一个记笔记的程序。即我可以写“咖啡因拮抗A1”或“咖啡因是一个A1拮抗剂”，并与一些NLP它可以发现他们的意思是同样的事情。（我知道这并不容易，而且需要parsingNLP，而不是只是标记，但是我想破解一个原型）。类似的问题…把形容词和副词转换成它们的名词forms （这个答案只是源于POS，我想要在POS之间） ps在语言学中称为转换http://en.wikipedia.org/wiki/Conversion_%28linguistics%29

如何检测用户input文字的语言？: 我正在处理一个正在接受不同语言的用户input的应用程序（目前固定为3种语言）。要求是用户可以input文本，而不用麻烦通过UI中提供的checkbox来select语言。是否有一个现有的Java库来检测文本的语言？我想要这样的东西： text = "To be or not to be thats the question." // returns ISO 639 Alpha-2 code language = detect(text); print(language); 结果： EN 我不想知道如何创build自己的语言检测器（我已经看到很多博客试图做到这一点）。图书馆应提供一个简单的APi，并完全离线工作。开源或商业closures并不重要。我也发现了这个问题（还有几个）：如何检测语言如何检测文字的语言？

有没有一种algorithm能够说明两个短语的语义相似性: input：短语1，短语2 输出：语义相似度值（在0和1之间），或者这两个短语谈论同一事物的概率

词形化java: 我正在寻找Java中英语的lemmatisation实现。我已经find了一些，但我需要一些不需要太多内存来运行（1 GB的顶部）。谢谢。我不需要一个词干。

php语句边界检测: 我想在PHP中将文本分成句子。我目前正在使用一个正则expression式，它带来了〜95％的准确度，并希望通过使用更好的方法来改善。我已经看到了在Perl，Java和C中执行这些工具的NLP工具，但没有看到符合PHP的任何东西。你知道这样的工具吗？

用于情感分析的NaiveBayesClassifier培训: 我正在Python中使用句子来训练NaiveBayesClassifier ，它给了我下面的错误。我不明白这个错误是什么，任何帮助都是好的。我已经尝试了许多其他input格式，但错误仍然存在。代码如下： from text.classifiers import NaiveBayesClassifier from text.blob import TextBlob train = [('I love this sandwich.', 'pos'), ('This is an amazing place!', 'pos'), ('I feel very good about these beers.', 'pos'), ('This is my best work.', 'pos'), ("What an awesome view", 'pos'), ('I do not like this restaurant', 'neg'), ('I am tired […]