oracle全文索引之FILTER_3_FORMAT_COLUMN

jolly10發表於2009-05-18

這篇文章繼續介紹全文索引的FILTER屬性,介紹對不同型別的資料採用不同型別的FILTER屬性的方法。

如果Oracle索引的文件包括多種型別,比如doc檔案、html檔案、pdf檔案、純文字檔案等等。由於Oracle不建議對HTML、XML和純文字檔案使用INSO_FILTER,因此沒有一個統一適用的FILTER屬性適合所有的文件。

[@more@]Oracle提供了一種FORMAT列的方法,透過設定FORMAT列的內容可以通知Oracle建立何種FILTER甚至是不建立索引。

下面看一個簡單的例子:

[oracle@rhel140 ~]$ sqlplus myuser/myuser

SQL*Plus: Release 10.2.0.1.0 - Production on Sun May 17 21:35:01 2009

Copyright (c) 1982, 2005, Oracle. All rights reserved.


Connected to:
Oracle Database 10g Enterprise Edition Release 10.2.0.1.0 - Production
With the Partitioning, OLAP and Data Mining options

SQL> CREATE TABLE T (ID NUMBER, TYPE VARCHAR2(6), DOCS VARCHAR2(100));

Table created.

SQL> INSERT INTO T VALUES (1, 'BINARY', 'pdf.pdf');

1 row created.

SQL> INSERT INTO T VALUES (2, 'TEXT', 'OUTPUT.TXT');

1 row created.

SQL> INSERT INTO T VALUES (3, 'IGNORE', 'doc1.doc');

1 row created.

SQL> COMMIT;

Commit complete.

SQL> BEGIN
2 CTX_DDL.CREATE_PREFERENCE('TEST_FILE', 'FILE_DATASTORE');
3 CTX_DDL.SET_ATTRIBUTE('TEST_FILE', 'PATH', '/home/oracle');
4 END;
5 /

PL/SQL procedure successfully completed.

SQL> CREATE INDEX IND_T_DOCS ON T (DOCS) INDEXTYPE IS CTXSYS.CONTEXT
2 PARAMETERS ('DATASTORE TEST_FILE FILTER CTXSYS.INSO_FILTER FORMAT COLUMN TYPE');

Index created.

SQL> SELECT * FROM T WHERE CONTAINS(DOCS, 'ORACLE') > 0;

ID TYPE
---------- ------
DOCS
--------------------------------------------------------------------------------
2 TEXT
OUTPUT.TXT

1 BINARY
pdf.pdf


'doc1.doc'文件中有'ORACLE'字串沒有被查到,是因為'IGNORE'起了作用。
發現表T的列TYPE的值很重要,是因為FORMAT COLUMN指定為“TYPE”列,設定為BINARY的文件使用INST_FILTER,設定為TEXT的文件使用NULL_FILTER,設定為IGNORE的文件不進行索引。


SQL> update t set type='BINARY' where id=3;

1 row updated.

SQL> commit;

Commit complete.

SQL> exec ctx_ddl.sync_index('IND_T_DOCS');

PL/SQL procedure successfully completed.

SQL> SELECT * FROM T WHERE CONTAINS(DOCS, 'ORACLE') > 0;

ID TYPE
---------- ------
DOCS
--------------------------------------------------------------------------------
2 TEXT
OUTPUT.TXT

1 BINARY
pdf.pdf

sync過還是查詢不到,需要做rebuild

SQL> alter index IND_T_DOCS rebuild;

Index altered.

SQL> SELECT * FROM T WHERE CONTAINS(DOCS, 'ORACLE') > 0;

ID TYPE
---------- ------
DOCS
--------------------------------------------------------------------------------
1 BINARY
pdf.pdf

2 TEXT
OUTPUT.TXT

3 BINARY
doc1.doc

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/271283/viewspace-1022213/,如需轉載,請註明出處,否則將追究法律責任。

相關文章