程序師世界是廣大編程愛好者互助、分享、學習的平台,程序師世界有你更精彩!
首頁
編程語言
C語言|JAVA編程
Python編程
網頁編程
ASP編程|PHP編程
JSP編程
數據庫知識
MYSQL數據庫|SqlServer數據庫
Oracle數據庫|DB2數據庫
 程式師世界 >> 數據庫知識 >> MYSQL數據庫 >> 關於MYSQL數據庫 >> 利用MySQL內置函數實現全文搜索功能

利用MySQL內置函數實現全文搜索功能

編輯:關於MYSQL數據庫

  MATCH (col1,col2,...) AGAINST (expr [IN BOOLEAN MODE | WITH QUERY EXPANSION])

  MySQL支持全文索引和搜索功能。MySQL中的全文索引類型FULLTEXT的索引。  FULLTEXT 索引僅可用於 MyISAM 表;他們可以從CHAR、VARCHAR或TEXT列中作為CREATE TABLE語句的一部分被創建,或是隨後使用ALTER TABLE 或 CREATE INDEX被添加。對於較大的數據集,將你的資料輸入一個沒有FULLTEXT索引的表中,然後創建索引,其速度比把資料輸入現有FULLTEXT索引的速度更為快。

  全文搜索同MATCH()函數一起執行。

MySQL> CREATE TABLE articles (
  ->  id INT UNSIGNED AUTO_INCREMENT NOT NULL PRIMARY KEY,
  ->  title VARCHAR(200),
  ->  body TEXT,
  ->  FULLTEXT (title,body)
  -> );
Query OK, 0 rows affected (0.00 sec)
 
MySQL> INSERT INTO articles (title,body) VALUES
  -> ('MySQL Tutorial','DBMS stands for DataBase ...'),
  -> ('How To Use MySQL Well','After you went through a ...'),
  -> ('Optimizing MySQL','In this tutorial we will show ...'),
  -> ('1001 MySQL Tricks','1. Never run MySQLd as root. 2. ...'),
  -> ('MySQL vs. YourSQL','In the following database comparison ...'),
  -> ('MySQL Security','When configured properly, MySQL ...');
Query OK, 6 rows affected (0.00 sec)
Records: 6 Duplicates: 0 Warnings: 0
 
MySQL> SELECT * FROM articles
  -> WHERE MATCH (title,body) AGAINST ('database');
+----+-------------------+------------------------------------------+
| id | title       | body                   |
+----+-------------------+------------------------------------------+
| 5 | MySQL vs. YourSQL | In the following database comparison ... |
| 1 | MySQL Tutorial  | DBMS stands for DataBase ...       |
+----+-------------------+------------------------------------------+
2 rows in set (0.00 sec)

  MATCH()函數對於一個字符串執行資料庫內的自然語言搜索。一個資料庫就是1套1個或2個包含在FULLTEXT內的列。搜索字符串作為對AGAINST()的參數而被給定。對於表中的每一行, MATCH() 返回一個相關值,即, 搜索字符串和 MATCH()表中指定列中該行文字之間的一個相似性度量。

  在默認狀態下, 搜索的執行方式為不區分大小寫方式。然而,你可以通過對編入索引的列使用二進制排序方式執行區分大小寫的全文搜索。 例如,可以向一個使用latin1字符集的列給定latin1_bin 的排序方式,對於全文搜索區分大小寫。

  如上述所舉例子,當MATCH()被用在一個 WHERE 語句中時,相關值是非負浮點數。零相關的意思是沒有相似性。相關性的計算是基於該行中單詞的數目, 該行中獨特子的數目,資料庫中單詞的總數,以及包含特殊詞的文件(行)數目。

  對於自然語言全文搜索,要求MATCH() 函數中命名的列和你的表中一些FULLTEXT索引中包含的列相同。對於前述問訊, 注意,MATCH()函數(題目及全文)中所命名的列和文章表的FULLTEXT索引中的列相同。若要分別搜索題目和全文,應該對每個列創建FULLTEXT索引。

  或者也可以運行布爾搜索或使用查詢擴展進行搜索。

  上面的例子基本上展示了怎樣使用返回行的相關性順序漸弱的MATCH()函數。而下面的例子則展示了怎樣明確地檢索相關值。返回行的順序是不定的,原因是  SELECT 語句不包含 WHERE或ORDER BY 子句:

MySQL> SELECT id, MATCH (title,body) AGAINST ('Tutorial')
-> FROM articles;
+----+-----------------------------------------+
| id | MATCH (title,body) AGAINST ('Tutorial') |
+----+-----------------------------------------+
|  1 |                        0.65545833110809 |
|  2 |                                       0 |
|  3 |                        0.66266459226608 |
|  4 |                                       0 |
|  5 |                                       0 |
|  6 |                                       0 |
+----+-----------------------------------------+
6 rows in set (0.00 sec)

  下面的例子則更加復雜。詢問返回相關值,同時對行按照相關性漸弱的順序進行排序。為實現這個結果,你應該兩次指定 MATCH(): 一次在 SELECT 列表中而另一次在 WHERE子句中。這不會引起額外的內務操作,原因是MySQL 優化程序注意到兩個MATCH()調用是相同的,從而只會激活一次全文搜索代碼。

MySQL> SELECT id, body, MATCH (title,body) AGAINST
-> ('Security implications of running MySQL as root') AS score
-> FROM articles WHERE MATCH (title,body) AGAINST
-> ('Security implications of running MySQL as root');
+----+-------------------------------------+-----------------+
| id | body                                | score           |
+----+-------------------------------------+-----------------+
|  4 | 1. Never run MySQLd as root. 2. ... | 1.5219271183014 |
|  6 | When configured properly, MySQL ... | 1.3114095926285 |
+----+-------------------------------------+-----------------+
2 rows in set (0.00 sec)

  表中有2行(0.00 秒)

  MySQL FULLTEXT 執行將任何單字字符原形 (字母、數字和下劃線部分)的序列視為一個單詞。這個序列或許也包含單引號 ('),但在一行中不會超過一個。 這意味著 aaa'bbb 會被視為一個單詞,而 aaa''bbb則被視為2個單詞。位於單詞之前或其後的單引號會被FULLTEXT分析程序去掉; 'aaa'bbb' 會變成   aaa'bbb。

  FULLTEXT分析程序會通過尋找某些分隔符來確定單詞的起始位置和結束位置,例如' ' (間隔符號)、 , (逗號)以及 . (句號 )。假如單詞沒有被分隔符分開,(例如在中文裡 ), 則 FULLTEXT 分析程序不能確定一個詞的起始位置和結束位置。為了能夠在這樣的語言中向FULLTEXT 索引添加單詞或其它編入索引的術語,你必須對它們進行預處理,使其被一些諸如"之類的任意分隔符分隔開。

  一些詞在全文搜索中會被忽略:

  ◆ 任何過於短的詞都會被忽略。 全文搜索所能找到的詞的默認最小長度為 4個字符。

  ◆ 停止字中的詞會被忽略。禁用詞就是一個像“the” 或“some” 這樣過於平常而被認為是不具語義的詞。存在一個內置的停止字, 但它可以通過用戶自定義列表被改寫。

  詞庫和詢問中每一個正確的單詞根據其在詞庫和詢問中的重要性而被衡量。  通過這種方式,一個出現在許多文件中的單詞具有較低的重要性(而且甚至很多單詞的重要性為零),原因是在這個特別詞庫中其語義價值較低。反之,假如這個單詞比較少見,那麼它會得到一個較高的重要性。然後單詞的重要性被組合,從而用來計算該行的相關性。

  這項技術最適合同大型詞庫一起使用 (事實上, 此時它經過仔細的調整 )。對於很小的表,單詞分布並不能充分反映它們的語義價值, 而這個模式有時可能會產生奇特的結果。例如, 雖然單詞 “MySQL” 出現在文章表中的每一行,但對這個詞的搜索可能得不到任何結果:

MySQL> SELECT * FROM articles
-> WHERE MATCH (title,body) AGAINST ('MySQL');

  找不到搜索的詞(0.00 秒)

  這個搜索的結果為空,原因是單詞 “MySQL” 出現在至少全文的50%的行中。 因此, 它被列入停止字。對於大型數據集,使用這個操作最合適不過了----一個自然語言問詢不會從一個1GB 的表每隔一行返回一次。對於小型數據集,它的用處可能比較小。

  一個符合表中所有行的內容的一半的單詞查找相關文檔的可能性較小。事實上, 它更容易找到很多不相關的內容。我們都知道,當我們在因特網上試圖使用搜索引擎尋找資料的時候,這種情況發生的頻率頗高。可以推論,包含該單詞的行因其所在特別數據集 而被賦予較低的語義價值。 一個給定的詞有可能在一個數據集中擁有超過其50%的域值,而在另一個數據集卻不然。

  當你第一次嘗試使用全文搜索以了解其工作過程時,這個50% 的域值提供重要的蘊涵操作:若你創建了一個表,並且只將文章的1、2行插入其中, 而文中的每個單詞在所有行中出現的機率至少為  50% 。那麼結果是你什麼也不會搜索到。一定要插入至少3行,並且多多益善。需要繞過該50% 限制的用戶可使用布爾搜索代碼。

  1. 上一頁:
  2. 下一頁:
Copyright © 程式師世界 All Rights Reserved