如何find相似的结果并按相似性sorting?

如何查询按相似性sorting的logging?

例如。 search“股票溢出”将返回

  1. 堆栈溢出
  2. SharePoint溢出
  3. math溢出
  4. 政治溢出
  5. VFX溢出

例如。 search“LO”将返回:

  1. 巴勃罗毕加索
  2. 米开朗基罗
  3. jacksonpollock

我需要帮助的是:

  1. 使用search引擎来索引和searchMySQL表,以获得更好的结果

    • 使用Sphinxsearch引擎,使用PHP

    • 使用PHP的Lucene引擎

  2. 使用全文索引查找类似/包含的string


什么工作不好

  • Levenshtein距离是非常不稳定的。 ( UDF , 查询 )
    寻找“狗”给我:
    1. 沼泽
    2. 回声
  • LIKE返回更好的结果,但是对于长查询返回任何内容,尽pipe类似的string确实存在
    1. dogid
    2. dogaral
    3. 教条

我发现Levenshtein距离可能是好的,当你正在search一个完整的string对另一个完整的string,但是当你正在寻找一个string内的关键字,这种方法不会返回(有时)通缉的结果。 而且,SOUNDEXfunction不适用于英文以外的语言,所以它非常有限。 你可以用LIKE逃脱,但这是真正的基本search。 您可能想要查看其他search方法,以获得您想要的内容。 例如:

您可以使用Lucene作为您的项目的search基地。 它在大多数主stream编程语言中都有实现,而且速度非常快,而且function多样。 这种方法可能是最好的,因为它不仅search子string,而且字母转换,前缀和后缀(全部组合)。 但是,您需要保留一个单独的索引(使用CRON从一个独立的脚本中更新一次,虽然有效)。

或者,如果你想要一个MySQL解决scheme,全文function是相当不错的,而且肯定比存储过程更快。 如果您的表不是MyISAM,您可以创build一个临时表,然后执行全文search:

 CREATE TABLE IF NOT EXISTS `tests`.`data_table` ( `id` int(10) unsigned NOT NULL AUTO_INCREMENT, `title` varchar(2000) CHARACTER SET latin1 NOT NULL, `description` text CHARACTER SET latin1 NOT NULL, PRIMARY KEY (`id`) ) ENGINE=InnoDB DEFAULT CHARSET=utf8 COLLATE=utf8_bin AUTO_INCREMENT=1 ; 

如果您不想自己创build它,请使用数据生成器生成一些随机数据…

** 注意 **:列types应该是latin1_bin来执行区分大小写的search,而不是使用latin1不区分大小写。 对于unicodestring,我会build议utf8_bin区分大小写, utf8_general_ci区分大小写的search。

 DROP TABLE IF EXISTS `tests`.`data_table_temp`; CREATE TEMPORARY TABLE `tests`.`data_table_temp` SELECT * FROM `tests`.`data_table`; ALTER TABLE `tests`.`data_table_temp` ENGINE = MYISAM; ALTER TABLE `tests`.`data_table_temp` ADD FULLTEXT `FTK_title_description` ( `title` , `description` ); SELECT *, MATCH (`title`,`description`) AGAINST ('+so* +nullam lorem' IN BOOLEAN MODE) as `score` FROM `tests`.`data_table_temp` WHERE MATCH (`title`,`description`) AGAINST ('+so* +nullam lorem' IN BOOLEAN MODE) ORDER BY `score` DESC; DROP TABLE `tests`.`data_table_temp`; 

从MySQL API参考页面阅读更多关于它的信息

这样做的缺点是它不会寻找字母换位或“相似,听起来像”字样。

** 更新 **

使用Lucene进行search,只需要创build一个cron作业(所有web主机都有这个“特性”),这个作业只需要执行一个PHP脚本(ig“cd / path / to / script; php searchindexer.php” )将更新索引。 原因在于索引数千个“文档”(行,数据等)可能需要几秒钟,甚至几分钟,但这是为了确保所有search都尽可能快地执行。 因此,您可能需要创build一个由服务器运行的延迟作业。 这可能是在一夜之间,或在接下来的一小时内,这取决于你。 PHP脚本应该看起来像这样:

 $indexer = Zend_Search_Lucene::create('/path/to/lucene/data'); Zend_Search_Lucene_Analysis_Analyzer::setDefault( // change this option for your need new Zend_Search_Lucene_Analysis_Analyzer_Common_Utf8Num_CaseInsensitive() ); $rowSet = getDataRowSet(); // perform your SQL query to fetch whatever you need to index foreach ($rowSet as $row) { $doc = new Zend_Search_Lucene_Document(); $doc->addField(Zend_Search_Lucene_Field::text('field1', $row->field1, 'utf-8')) ->addField(Zend_Search_Lucene_Field::text('field2', $row->field2, 'utf-8')) ->addField(Zend_Search_Lucene_Field::unIndexed('someValue', $someVariable)) ->addField(Zend_Search_Lucene_Field::unIndexed('someObj', serialize($obj), 'utf-8')) ; $indexer->addDocument($doc); } // ... you can get as many $rowSet as you want and create as many documents // as you wish... each document doesn't necessarily need the same fields... // Lucene is pretty flexible on this $indexer->optimize(); // do this every time you add more data to you indexer... $indexer->commit(); // finalize the process 

那么,这基本上是你如何search(基本search):

 $index = Zend_Search_Lucene::open('/path/to/lucene/data'); // same search options Zend_Search_Lucene_Analysis_Analyzer::setDefault( new Zend_Search_Lucene_Analysis_Analyzer_Common_Utf8Num_CaseInsensitive() ); Zend_Search_Lucene_Search_QueryParser::setDefaultEncoding('utf-8'); $query = 'php +field1:foo'; // search for the word 'php' in any field, // +search for 'foo' in field 'field1' $hits = $index->find($query); $numHits = count($hits); foreach ($hits as $hit) { $score = $hit->score; // the hit weight $field1 = $hit->field1; // etc. } 

这里有关于Java , PHP和.Net的 Lucene的很棒的网站。

总之,每种search方法都有其优点和缺点:

  • 你提到狮身人面像的search ,它看起来非常好,只要你可以让你的虚拟主机上运行deamon。
  • Zend Lucene需要一个cron作业来重新索引数据库。 虽然这对用户来说是相当透明的,但这意味着任何新的数据(或删除的数据!)并不总是与数据库中的数据同步,因此不会立即显示在用户search中。
  • MySQL FULLTEXTsearch是好的,而且快速,但不会给你所有的前两个权力和灵活性。

如果我忘记/遗漏了任何东西,请随时发表评论。

1.相似性

对于MySQL中的Levenshtein,我发现这是从http://www.codejanitor.com/wp/2007/02/10/levenshtein-distance-as-a-mysql-stored-function

 SELECT column, LEVENSHTEIN(column, 'search_string') AS distance FROM table WHERE LEVENSHTEIN(column, 'search_string') < distance_limit ORDER BY distance DESC 

2.包含,不区分大小写

使用MySQL的LIKE语句,默认情况下不区分大小写。 %是通配符,所以在search_string之前和之后可能有任何string。

 SELECT * FROM table WHERE column_name LIKE "%search_string%" 

3.包含,区分大小写

MySQL手册有助于:

缺省字符集和sorting规则是latin1和latin1_swedish_ci,因此非二进制string比较默认情况下不区分大小写。 这意味着如果使用col_name LIKE'a%'进行search,则会获得以A或a开头的所有列值。 要使search区分大小写,请确保其中一个操作数具有区分大小写或二进制sorting规则。 例如,如果您要比较同时具有latin1字符集的列和string,则可以使用COLLATE运算符使任一操作数具有latin1_general_cs或latin1_bin归类…

我的MySQL安装程序不支持latin1_general_cslatin1_bin ,但对于我使用sortingutf8_bin作为二进制utf8是区分大小写的:

 SELECT * FROM table WHERE column_name LIKE "%search_string%" COLLATE utf8_bin 

2. / 3.按Levenshtein距离sorting

 SELECT column, LEVENSHTEIN(column, 'search_string') AS distance // for sorting FROM table WHERE column_name LIKE "%search_string%" COLLATE utf8_bin // for case sensitivity, just leave out for CI ORDER BY distance DESC 

似乎你的相似性的定义是语义相似性。 所以为了build立这样的相似度函数,你应该使用语义相似性度量。 请注意,关于这个问题的工作范围可能会从几小时到几年不等,所以build议在开始工作之前确定范围。 我没有弄清楚你有哪些数据来build立相似关系。 我假设你已经访问了一个文档数据集和一个查询数据集。 你可以从单词的同现开始(例如,条件概率)。 你会很快发现,由于它们非常受欢迎,所以你会得到与大多数单词相关的停用词表。 使用条件概率的提升将关注停用词,但是会使关系在less数(大部分情况下)中容易出错。 你可能会尝试加卡德,但由于它是对称的,会有很多关系,它不会find。 那么你可能会考虑只与基本词相距很近的关系。 您可以(也应该)考虑基于一般语料库(例如维基百科)和用户特定(例如他的电子邮件)的关系。

所有的措施都很好,相对而言,很快就会有很多类似的措施。

为了把这些措施结合起来,我想把这个问题归结为一个分类问题。

你应该build立一个单词的数据集,并将它们标记为“相关的”。 为了build立一个大的标签数据集,你可以:

  • 使用已知相关词汇的来源(例如,旧的维基百科分类)获得肯定
  • 大多数不相关的词是不相关的。

然后使用所有的措施作为配对的function。 现在你处于监督分类问题的领域。 在数据集上构build分类器,根据您的需求进行评估,并获得适合您需求的相似性度量。