程序師世界是廣大編程愛好者互助、分享、學習的平台,程序師世界有你更精彩!
首頁
編程語言
C語言|JAVA編程
Python編程
網頁編程
ASP編程|PHP編程
JSP編程
數據庫知識
MYSQL數據庫|SqlServer數據庫
Oracle數據庫|DB2數據庫
 程式師世界 >> 數據庫知識 >> MYSQL數據庫 >> MySQL綜合教程 >> PHP+MYSQL 簡單實現中文分詞全文索引

PHP+MYSQL 簡單實現中文分詞全文索引

編輯:MySQL綜合教程

相信很多人都研究過MYSQL的中文全文索引問題,目前MYSQL不支持中文全文索引,無奈~~~

  網上找了N多關於PHP+MYSQL中文全文索引的文章都沒有一個好用的,對於一般的菜鳥根本不知道怎麼使用,PHP中文分詞有DDEDE的,DEDE的詞庫不是很強大,還算可以用吧!

  還有一個是《SCWS - 簡易中文分詞系統》這個目前對於一般菜鳥根本不知道怎麼用,雖然有人編譯了Windows版的,但安裝還是挺麻煩的,我尚未測試過!

  //==========================

  廢話不多說了,首先去DEDE下載分詞算法函數和詞庫;下載地址:http://www.dedecms.com/html/chanpinxiazai/20061229/3.html

  裡面有詳細的使用說明,我在這裡舉一個使用的例子;

  MYSQL表名:music

  字段:title,tag

  

  require("lib_splitword_full.php");

  $str = "這裡是你要分詞的內容,一般不要超過1024KB會好一點,否則會很慢!";

  $sp = new SplitWord();//實例化

  $dd = explode(" ",$sp->SplitRMM($str));

  $i=0;

  foreach ($dd as $key=>$var) {

  if (strlen($var)>2)//UTF8編碼的請設置為3,因為UTF8編碼的中文一般為3個字節以上,過濾單個字不保存!

  {

  $str.=base64_encode($var)." ";//由於MYSQL不支持中文全文索引,所以在分詞中我們必須把詞轉換成字母或者數字,這裡我選擇了base64編碼

  //當然大家還可以把中文轉成區碼,但我測試過區碼的方法,感覺很一般,所以在這樣我推薦大家使用base64

  $i++;

  }

  if ($i>=50) break;//這裡是設置你要存儲多少個詞組,如果是文章可能會有N多詞組,你可以設置大一點,但如果你對標題分詞的話,50個已經足夠了!

  //這樣運行未編碼得出來的結果:這裡 分詞 內容 一般 不要 超過 1024KB 一點 否則

  //base64編碼後的結果:1eLA7w== t9a0yg== xNrI3Q== 0ruw4w== srvSqg== s6y5/Q== MTAyNEtC 0ru14w== t/HU8g==

  }

  ?>

  這樣我們就可以把分好詞而且轉換成編碼的分詞存進 tag 字段了,當然tag字段必須設置成全文索引 full text 而且數據表類型必須為MyISAM。

  tag字段數據類型為CHAR和VARCHAR、text,有關如何創建MYSQL全文索引,大家可以搜索一下《mysql創建索引》遍地開花,到處都是!

  下面的例子是根據TAG字段的內容進行全文索引查詢:

  

  include("Mysql.class.php");

  $rs = $DB->get_one("select title,tag from music where id=$id");//根據ID讀取title和tag字段內容

  $title = $rs['title'];

  $sql = $DB->query("select title,MATCH(tag) AGAINST('".trim($rs['tag'])."' IN BOOLEAN MODE) AS score from music where MATCH(tag) AGAINST('".trim($rs['tag'])."' IN BOOLEAN MODE) ORDER BY score DESC limit 21");//這裡是查詢20條相似的內容,而且按相似的排序,21是因為同一條記錄都會匹配出來!

  while ($rs = $DB->fetch_array($sql))

  {

  if ($rs['title']!=$title)

  {

  echo $rs['title']."
";

  }

  }

  $DB->close();

  ?>

  如果大家想看效果可以到我的小站看演示:http://www.dj965.com

  以上的例子就實現了PHP+MYSQL簡單的中文分詞全文索引!

  希望對跟我一樣的菜鳥有一定的幫助吧!

  本人BLOG:http://hi.baidu.com/web20/

文章來自:http://www.admin5.com/article/20080717/94313.shtml

  1. 上一頁:
  2. 下一頁:
Copyright © 程式師世界 All Rights Reserved