我需要一段文字,并从中提取“标签”列表。 这大部分是非常简单的。 不过,我现在需要一些帮助来阻止结果的单词列表,以避免重复。 示例:社区/社区 我已经使用了一个Porter Stemmeralgorithm的实现(我正在用PHP编写): http://tartarus.org/~martin/PorterStemmer/php.txt 这有效,但不返回“真实”的话。 上面的例子是“通信”。 我试过“雪球”(在另一个堆栈溢出线程内build议)。 http://snowball.tartarus.org/demo.php 对于我的例子(社区/社区)来说,雪球起源于“communiti”。 题 有没有其他的干扰algorithm可以做到这一点? 有没有人解决了这个问题? 我目前的想法是,我可以使用干扰algorithm来避免重复,然后select我遇到的最短的单词作为显示的实际单词。
自然语言处理(NLP),特别是英语的自然语言处理已经发展到如果存在“完美”的问题,词干将成为一个古老的技术的阶段。 这是因为词干改变词汇/标记的表面forms变成一些毫无意义的词干。 然后,“完美”的lemmatizer的定义是有问题的,因为不同的NLP任务将需要不同程度的lemmatization。 例如在动词/名词/形容词forms之间转换单词 。 词干 [in]: having [out]: hav Lemmatizers [in]: having [out]: have 所以现在的问题是,英文词干今天有用吗? 因为我们有大量的英语推理工具 如果不是,那么我们应该如何build立强大的可以接受nounify , verbify , adjectify和adverbify预处理的adverbify ? 如何将词形化任务轻松地缩放到与英语具有相似形态结构的其他语言?