代码高尔夫系列似乎相当受欢迎。 我遇到了一些代码,将数字转换为单词表示。 一些例子是(编程乐趣2的幂): 2 – >二 1024 – >一二四 1048576 – >一百四十八万五千七十六 我的同事提出的algorithm差不多是二百行。 似乎有一个更简洁的方法来做到这一点。 目前的准则: 用任何编程语言提交的意见都表示欢迎(对于PhiLho最初缺乏清晰度,我向他们道歉) 最大input2 ^ 64(请参阅以下链接,谢谢mmeyers) 英文输出的规模较小,但任何algorithm是受欢迎的。 只是就使用的方法评论编程语言。
我正在试验elasticsearch作为search服务器,我的任务是构build一个“语义”searchfunction。 从一个简短的短语如“我有爆pipe”系统应该推断用户正在search一个水pipe工,并返回在elasticsearch索引的所有pipe道工。 这可以直接在像elasticsearch这样的search服务器上完成,还是必须使用像Maui Indexer这样的自然语言处理(NLP)工具。 我手边的任务,文本分类的确切术语是什么? 虽然给定的文字很短,因为它是一个search短语。
我很好奇,如果有一个algorithm/方法存在从给定的文本生成关键字/标签,通过使用一些重量计算,发生率或其他工具。 另外,如果你指出任何基于Python的解决scheme/库,我将不胜感激。 谢谢
题 所以我最近想出了一些新的可能的项目,这些项目将不得不从用户提交和生成的文本中获取“含义”。 自然语言处理是处理这类问题的领域,经过一些初步的研究,我发现OpenNLP Hub和大学合作项目就像这个尝试项目 。 和stackoverflow有这个 。 如果有人能把我和一些很好的资源联系起来,从研究论文和介绍文本到apis,我会比一个6岁的小孩打开圣诞礼物更开心! 更新 通过你的一个build议,我发现了opencyc ( '世界上最大,最完整的通用知识库和常识推理引擎' )。 更令人吃惊的是,还有一个项目叫做UMBEL的开放循环的蒸馏版本。 它以rdf / owl / skos n3语法为特色的语义数据。 我也偶然发现了antlr ,一个parsing器生成器,用于“从语法描述中构build识别器,解释器,编译器和翻译器” 。 这里有个问题,列出了大量的免费和开放的数据 。 感谢stackoverflow社区!
我目前正在研究从文本(网上很多文章)中提取人名,位置,技术词汇和类别的选项,然后将这些文本导入到Lucene / ElasticSearch索引中。 附加信息将作为元数据添加,并应提高search精度。 例如,当有人询问“wicket”时,他应该能够决定他是指板球运动还是Apache项目。 我试图自己实现这一点,迄今取得了微小的成功。 现在我发现了很多工具,但是我不确定它们是否适合这个任务,哪些与Lucene集成,或者实体提取的精度是否足够高。 Dbpedia聚光灯 , 演示看起来非常有前途 OpenNLP需要培训 。 使用哪些训练数据? OpenNLP工具 Stanbol NLTK balie UIMA GATE – > 示例代码 Apache Mahout 斯坦福CRF-NER 毛伊岛,索引 槌 伊利诺伊州命名实体标记不开源,但免费 维基百科数据 我的问题: 有没有人有上述的一些列出的工具和精度/召回经验? 或者如果有需要的培训数据+可用。 是否有文章或教程,我可以开始实体提取(NER)每个工具? 他们如何可以与Lucene集成? 以下是与该主题相关的一些问题: algorithm是否存在帮助检测英语句子的“主要话题”? 用于Java的命名实体识别库 用Java命名实体识别
我在哪里可以得到一个在企业领域已被归类为正面/负面情绪的文件? 我想要一大批为公司提供评论的文件,比如分析师和媒体提供的评论。 我发现有产品和电影评论的语料库。 是否有商业领域的语料库,包括与企业语言相匹配的公司评论?
我正在阅读下面的文章,我有一些麻烦,理解负面抽样的概念。 http://arxiv.org/pdf/1402.3722v1.pdf 任何人都可以帮忙吗?
我正在一个情绪分析问题的数据看起来像这样: label instances 5 1190 4 838 3 239 1 204 2 127 所以我的数据是不平衡的,因为1190个instances被标记为5 。 对于使用scikit的SVC进行分类。 问题是我不知道如何以正确的方式来平衡我的数据,以准确计算多类别案例的精确度,回忆率,准确度和f1分数。 所以我尝试了以下方法: 第一: wclf = SVC(kernel='linear', C= 1, class_weight={1: 10}) wclf.fit(X, y) weighted_prediction = wclf.predict(X_test) print 'Accuracy:', accuracy_score(y_test, weighted_prediction) print 'F1 score:', f1_score(y_test, weighted_prediction,average='weighted') print 'Recall:', recall_score(y_test, weighted_prediction, average='weighted') print 'Precision:', precision_score(y_test, weighted_prediction, average='weighted') print '\n clasification report:\n', classification_report(y_test, […]
有没有一个现成的英语语法,我可以加载它并在NLTK中使用? 我已经search了parsingNLTK的例子,但似乎我必须在parsing一个句子之前手动指定语法。 非常感谢!
我试图通过使用nltk工具包删除停用词来处理用户input的文本,但与停止词删除像'和','或','不''被删除。 我希望这些词在停用词删除过程后出现,因为它们是以后处理文本作为查询所需的运算符。 我不知道在文本查询中哪些是可以作为操作符的词,我也想从我的文本中删除不必要的词。