我目前正在研究从文本(网上很多文章)中提取人名,位置,技术词汇和类别的选项,然后将这些文本导入到Lucene / ElasticSearch索引中。 附加信息将作为元数据添加,并应提高search精度。 例如,当有人询问“wicket”时,他应该能够决定他是指板球运动还是Apache项目。 我试图自己实现这一点,迄今取得了微小的成功。 现在我发现了很多工具,但是我不确定它们是否适合这个任务,哪些与Lucene集成,或者实体提取的精度是否足够高。 Dbpedia聚光灯 , 演示看起来非常有前途 OpenNLP需要培训 。 使用哪些训练数据? OpenNLP工具 Stanbol NLTK balie UIMA GATE – > 示例代码 Apache Mahout 斯坦福CRF-NER 毛伊岛,索引 槌 伊利诺伊州命名实体标记不开源,但免费 维基百科数据 我的问题: 有没有人有上述的一些列出的工具和精度/召回经验? 或者如果有需要的培训数据+可用。 是否有文章或教程,我可以开始实体提取(NER)每个工具? 他们如何可以与Lucene集成? 以下是与该主题相关的一些问题: algorithm是否存在帮助检测英语句子的“主要话题”? 用于Java的命名实体识别库 用Java命名实体识别
我已经听说了很多有关语义networking的知识,但是我仍然不确定它是什么。 这与现在我们所知道的networking有什么不同?