我有一些问题要为斯坦福大学parsing器创build一个新的模型。 我也下载了斯坦福大学的最新版本: http : //nlp.stanford.edu/software/lex-parser.shtml 在这里,Genia语料库有两种格式,xml和ptb(Penn Treebank)。 斯坦福德parsing器可以训练与ptd文件; 然后我下载了Genia语料库,因为我想用生物医学文本工作: http://categorizer.tmit.bme.hu/~illes/genia_ptb/ (链接不再可用) (genia_ptb.tar.gz) 然后,我有一个简短的Main类来获得一个生物医学句子的依赖表示: String treebankPath = "/stanford-parser-2012-05-22/genia_ptb/GENIA_treebank_v1/ptb"; Treebank tr = op.tlpParams.diskTreebank(); tr.loadPath(treebankPath); LexicalizedParser lpc=LexicalizedParser.trainFromTreebank(tr,op); 我尝试了不同的方式,但总是得到相同的结果。 我在最后一行有一个错误。 这是我的输出: Currently Fri Jun 01 15:02:57 CEST 2012 Options parameters: useUnknownWordSignatures 2 smoothInUnknownsThreshold 100 smartMutation false useUnicodeType false unknownSuffixSize 1 unknownPrefixSize 1 flexiTag true useSignatureForKnownSmoothing false parserParams edu.stanford.nlp.parser.lexparser.EnglishTreebankParserParams forceCNF […]
这里演示的斯坦福大学的NLP给出了这样的输出结果: Colorless/JJ green/JJ ideas/NNS sleep/VBP furiously/RB ./. 词性标签是什么意思? 我无法find正式名单。 是斯坦福自己的系统,还是使用通用标签? (例如JJ是什么?) 而且,当我遍历句子,例如寻找名词时,我最终做了一些事情,比如检查标签是否.contains('N') 。 这感觉很弱。 有没有更好的方式来以编程方式search某个词类?
如何使用斯坦福分析器将文本或段落分解成句子? 有什么方法可以提取句子,如为Ruby提供的getSentencesFromString() ?
在NLTK中可以使用Stanford Parser吗? (我不是在谈论斯坦福POS。)