程序師世界是廣大編程愛好者互助、分享、學習的平台,程序師世界有你更精彩!
首頁
編程語言
C語言|JAVA編程
Python編程
網頁編程
ASP編程|PHP編程
JSP編程
數據庫知識
MYSQL數據庫|SqlServer數據庫
Oracle數據庫|DB2數據庫
 程式師世界 >> 數據庫知識 >> MYSQL數據庫 >> MySQL綜合教程 >> mysql中使用sphinx搜索子域名需注意的問題

mysql中使用sphinx搜索子域名需注意的問題

編輯:MySQL綜合教程

搜索子域名

比如搜索jb51.net會把www.jb51.net、jb51.net、host.jb51.net等都搜索出來。

如果使用mysql用like的話效率是非常低的,幾百萬甚至上千萬的數據那是沒有辦法使用的,於是采取sphinx來做。

在使用的過程中發現了諸多問題,這裡將其總結起來,也讓不知道的朋友注意下這些字符。

分析:
sphinx是全文索引,它搜索的是包含的記錄。

首先如果我們不做任何設置的話,搜索jb51.net會出現把aajb51.net、jb51.a.cn、jb51.net.com(當然這個域名後綴不存在,但是會有符合相應規則的域名,這裡只舉例)等等。

為什麼會出現這種情況呢?

我們使用./search -c 配置文件 -i 索引名 'jb51.net' 搜索的時候會發現下面words部分被分成了兩部分'jb51'和'cn',默認以.作為分隔符,如果我們不想讓它做為分隔符,就需要把.添加到charset_table裡面,這裡需要說的是我們搜索域名只需要有字母、數字、"-"等字符,其他的不需要。設置如下:
charset_table = 0..9,A..Z->a..z, a..z,U+002e,U+002d,U+0040,U+0060  #其中U+002e代表".",U+002d代表"-",U+0040代表"@",U+0060代表"`",這裡為ascii碼值。
這樣會解決掉搜出jb51.a.cn這類域名。

那麼jb51.net.com這類呢?我們可以在索引的字段中增加惟一後綴比如“XXXXX”,concat(search,'XXXXX')這樣,就不會出來了。

現在就剩下aajb51.net這類域名,我們使用關鍵字“ '".jb51.net"' ”(注意是單引號裡面套雙引號)這樣來搜索,主域名單獨加上,但是使用的過程中發現這樣搜出了與這個域名無關的域名,比如aa.bb.cn這樣,經後來研究是"."的問題,後來把"."替換成"@",來搜索又出現12306等好多域名無法讀取到的問題,後來經研究估計這些特殊字符在sphinx中都有特殊的意義,於是找到了"`"這個字符,換成這個以後一切才算正常了。

注意:將"."替換成"`"等相應字符後需在charset_table裡增加這個字符,不然是被忽略的。

所以在搜索的過程中我們需要注意下這些特殊字符。

  1. 上一頁:
  2. 下一頁:
Copyright © 程式師世界 All Rights Reserved