产生真实词汇的词干algorithm

我需要一段文字,并从中提取“标签”列表。 这大部分是非常简单的。 不过,我现在需要一些帮助来阻止结果的单词列表,以避免重复。 示例:社区/社区 我已经使用了一个Porter Stemmeralgorithm的实现(我正在用PHP编写): http://tartarus.org/~martin/PorterStemmer/php.txt 这有效,但不返回“真实”的话。 上面的例子是“通信”。 我试过“雪球”(在另一个堆栈溢出线程内build议)。 http://snowball.tartarus.org/demo.php 对于我的例子(社区/社区)来说,雪球起源于“communiti”。 题 有没有其他的干扰algorithm可以做到这一点? 有没有人解决了这个问题? 我目前的想法是,我可以使用干扰algorithm来避免重复,然后select我遇到的最短的单词作为显示的实际单词。

什么是FLOP / s,这是一个很好的衡量performance?

我被要求测量一个fortran程序的性能,这个程序可以在多CPU系统上求解微分方程。 我的雇主坚持我测量FLOP / s(浮动操作每秒),并将结果与​​基准( LINPACK )进行比较,但我不相信这是一条路,因为没有人能向我解释FLOP是什么。 我做了一些关于FLOP的研究,得到了一些相当矛盾的答案。 我得到的最受欢迎的答案之一是“1 FLOP =加法和乘法运算”。 真的吗? 如果是这样,身体上又是什么意思呢? 无论我最终使用什么方法,它必须是可扩展的。 一些版本的代码解决了数百万未知数的系统,需要数天的时间来执行。 在我的情况下,还有哪些其他有效的衡量性能的方法(我的情况摘要是fortran代码,在几百个CPU上一遍又一遍地进行大量的算术运算)?

如何重新定位Visual Studio项目(.sln)文件

我想将Visual Studio解决scheme(myProject.sln)文件移动到一个文件夹中。 这样做的问题是项目中的所有相对path都会中断,如何在不更新项目内所有相对path的情况下重新定位项目? 谢谢。

Eclipse指标插件build议

我正在寻找一个工具来给我一些代码度量(总LOC,LOC /类,#外部引用/类,等等…)。 有谁知道一个好的Eclipse插件,可以提供一些代码指标?

OSGI – 处理捆绑软件所需的第三方JAR

我刚刚开始使用OSGI开发,并且正在努力理解如何最好地处理依赖JAR。 即如果我正在创build一个捆绑包,可能性是我需要使用一些第三方JAR。 当我创build我的捆绑JAR部署到OSGI,显然这些第三方JAR不包括在内,因此捆绑将不会运行。 我明白,有一个select是将这些JAR打包,并将它们部署到OSGI容器。 但是,如果他们只需要使用一捆,这似乎并不理想。 什么是最好的解决scheme? JAR是否可以embedded到捆绑JAR中?如果是的话,这是一个合理的方法吗?

比较char忽略大小写的正确方法是什么?

我想知道什么是正确的方式比较两个字符忽略案件,将适用于所有文化。 另外, Comparer<char>.Default是testing两个字符而不忽略大小写的最佳方法吗? 这是否适用于代理对? 编辑 :添加示例IComparer<char>实现 如果这有助于任何人,这是我决定使用的 public class CaseInsensitiveCharComparer : IComparer<char> { private readonly System.Globalization.CultureInfo ci; public CaseInsensitiveCharComparer(System.Globalization.CultureInfo ci) { this.ci = ci; } public CaseInsensitiveCharComparer() : this(System.Globalization.CultureInfo.CurrentCulture) { } public int Compare(char x, char y) { return Char.ToUpper(x, ci) – Char.ToUpper(y, ci); } } // Prints 3 Console.WriteLine("This is a test".CountChars('t', new CaseInsensitiveCharComparer()));

是否有可能链接SVN库文件,以便文件实际上是另一个库文件的引用?

我可以看到这个概念有一些潜在的困难,但是这个想法是: 我修改了Repository A中的一个文件并提交,Repository B有一个链接到Repository A中的文件的文件,我单击了我的工作副本中的文件B的更新,然后从库A中接收到更新的文件。

Surefire并没有selectJunit 4testing

出于某种原因,我无法获得Maven 2 Surefire插件来执行JUnit 4testing课程。 public class SimpleTest { @org.junit.Test public void simple() { System.out.println("foo"); } } 不过如果我把这个类改成JUnit-3之类的,比如 public class SimpleTest extends junit.framework.TestCase { public void testBar() { System.out.println("bar"); } @org.junit.Test public void simple() { System.out.println("foo"); } } 然后它被执行。 以下是我所做的: 已validationMaven版本:Apache Maven 2.2.1(r801777; 2009-08-06 20:16:01 + 0100) 经过validation的Surefire版本:遵循这个build议 经过validation的Surefire版本:在我的~/.m2/repository/org/apache/maven/surefire检查了Surefire jar,它们都是版本2.4.2或2.4.3 做了一个mvn dependency:tree | grep junit mvn […]

在MySQL中使用正确的或者更好的不相等的运算符

哪两种(语义上相同的)方法更适合testing不平等? 'foo' != 'bar' (感叹号和等号) 'foo' <> 'bar' (小于和大于V形符号) MySQL的文档清楚地表明,他们之间没有任何区别,但是有些人似乎只是以某种方式来做这件事。 也许这只是另一个无意义的vi与emacs的辩论,但是当其他人正在阅读你的代码(以及你的查询)时,保持一定的一致性是有用的。 <>看起来很像<=>这是一个非常不被使用的操作符,但可能会导致混淆,因为两者几乎相反(除了明显的NULL情况)。

如何获取事务插入的行数

我必须pipe理一个日志,我必须看到事务插入的行数。 有没有办法dynamic地做到这一点?