Oracle Secure Enterprise Search 爬蟲介紹

zhulch發表於2009-04-29

最近老聽說Oracle ses ,自己也簡單研究了一下,聽到不少好聽的,也有人不太好用的,

找了一些資料,方便自己學習,如果對你也有幫助,那是最好不過的事了。。

詳細請看下面

[@more@]

基本搜尋

使用此頁可以使用單個查詢框執行搜尋。搜尋不區分大小寫。使用分組方式排序方式列表可以重排結果的顯示方式。

Oracle SES 對查詢詞應用詞根還原。這會將詞語擴充套件到共享同一詞根的其他詞語。例如,查詢 [banks] 返回包含 banks、banking 或 bank 等詞的文件。Oracle SES 基於查詢語言使用詞根還原。隱式詞根還原擴充套件適用於單個詞語搜尋、鄰近搜尋和 STRING 屬性的屬性快捷方式搜尋。它不適用於短語搜尋,透過將詞語引在雙引號中可以關閉該功能。

Oracle SES 還執行隱式替代字擴充套件。擴充套件替代字對時,Oracle SES 顯示“您是否要...”訊息。替代字擴充套件僅適用於單個詞語和可能的短語。例如,查詢 [enterprise search] 可能具有詞語 enterprise、search 和短語“enterprise search”(與已註冊的最長替代字匹配的任何一個) 的隱式替代字擴充套件。

結果可能包含已快取記憶體的文件 HTML 版本和指向連結到和連結自該結果的頁面的連結。搜尋文字框上的任何連結都是源組。源組是由搜尋管理員建立的可以一起搜尋的文件組。單擊源組可以將搜尋限於該組。

下表描述搜尋規則。方括號中的文字表示在搜尋中輸入的字元。

規則說明
單個詞語搜尋輸入詞語可查詢包含該詞語的文件。例如,[oracle] 查詢在文件中的任何位置包含詞語 Oracle 的所有文件。

AND 運算子適用於查詢中用空格分隔的任何兩個可搜尋項。例如,[oracle text] 具有兩個可搜尋項,它返回包含 oracle 和 text 的文件。

運算子 [&] 顯式表示 AND 關係。查詢 [oracle & text] 也返回包含 oracle 和 text 的文件。

短語搜尋 ["..."]

將一組詞用引號括起來可以查詢包含該準確短語的文件。

Oracle SES 不對查詢短語應用隱式詞根還原擴充套件,但它可以對短語中的詞語應用顯式詞語擴充套件。短語中除詞語擴充套件運算子之外的所有運算子都不會被視為有效的運算子,而是被視為普通的特殊字元。

例如,[oracle "RAC performance"] 返回包含 oracle 和短語“RAC performance”的文件,而不會返回包含詞根還原形式“RAC performances”的文件。查詢 ["sec^re search"] 返回具有短語“sec re search”的文件。

屬性快捷方式搜尋

依次輸入屬性名、冒號 (:) 和要搜尋的值來搜尋屬性。隱式詞根還原將應用到屬性值詞語。可以將運算子作為選項指定。未指定運算子時,Oracle SES 對 STRING 屬性使用“包含”,對 NUMBER 和 DATE 屬性使用“等於”。

例如,[DocVersion:>1] 返回具有數字屬性 DocVersion 並且其中的屬性值大於 1 的文件。查詢 [title:"oracle text"] 返回標題屬性中具有短語“oracle text”的文件。查詢 [oracle | title:S*S] 返回具有詞語 oracle 或標題屬性中具有 SES 的文件。查詢 [title:^oracle][title:oracle] 具有相同的效果。包含 [^] 運算子僅適用於 STRING 屬性。

  • 等於 [=] 返回屬性與查詢相同 (不區分大小寫) 的文件。例如,[title:="oracle text"] 返回標題為“oracle text”的文件。它適用於所有三種屬性。
  • 小於和狹義詞 [ 返回屬性值小於或早於查詢值的文件。例如,[DocVersion:<2] 返回具有數字屬性 Docversion 並且其中的屬性值小於 2 的文件。它們適用於所有三種屬性。
  • 小於等於 [<=] 適用於 NUMBER 和 DATE 屬性。
  • 大於和廣義詞 [>] 返回屬性值大於或晚於查詢值的文件。它們適用於所有三種屬性。
  • 大於等於 [>=] 適用於 NUMBER 和 DATE 屬性。例如,[price:>=10] 返回價格屬性值大於或等於 10 的文件。查詢 [lastmodifieddate:>=12/23/2006] 返回 lastmodifieddate 屬性值為 2006 年 12 月 23 日或以後的文件。
鄰近搜尋 ["..."~]

使用鄰近搜尋指定多個詞語在其間出現的最大距離。鄰近搜尋必須將搜尋詞括在雙引號中。未指定最大跨距時,Oracle SES 應用 100 個詞語的預設視窗。最大數量是 100。指定大於 100 的值時,Oracle SES 將其視為 100。

例如,["ses performance"~10] 返回在任何 10 個詞語跨度的視窗中具有詞語 SES 和 performance 的文件。查詢 ["ses performance"~] 返回在任何 100 個詞語跨度的視窗中包含 SES 和 performance 的文件。

模糊 [...~] 搜尋

將運算子 (~) 放在單個詞語的末尾可以返回包含與查詢詞的拼寫類似的詞語的文件。

例如,[hallo~] 返回包含詞語 hello 的文件。查詢 [spacifi*tion~] 返回包含詞語 specification 的文件。

如果括在雙引號中的單個詞語後跟 ~,則該查詢不是鄰近搜尋而是模糊搜尋。查詢 ["parformance"~] 返回包含詞語 performance 的文件。

詞典搜尋:

同義詞 [~...] 搜尋

狹義詞 [

廣義詞 [>] 搜尋

基於詞典的運算子需要將詞典載入到 Oracle SES 中。

將運算子 [~] 放在某個詞語的開頭可以返回包含原始查詢詞或其同義詞的文件。例如,[~"RAC"] 返回包含 RAC 或詞典定義的同義詞 real application clusters 的文件。同義詞關係是對稱的:real application clusters 是 RAC 的同義詞,RAC 是 real application clusters 的同義詞。在屬性搜尋中,它僅適用於 STRING 屬性。

查詢 [ 返回包含詞典定義的狹義詞 San Francisco 或原始短語 Northern California 的文件。查詢 [product:>chair] 返回產品屬性包含廣義詞 furniture 或原始詞 chair 的文件。指定 furniture 是 chair 的廣義詞也隱式指定了 chair 是 furniture 的狹義詞。

OR [ | ] 搜尋

使用 OR [ | ] 運算子可以連線任何兩個可搜尋項。

例如,[oracle | "RAC performance"~ ] 返回具有詞語 oracle 或在任何 100 個詞語跨度的視窗中具有詞語 RAC 和 performance 的文件。查詢 [oracle | title:SES] 返回具有詞語 oracle 或在標題屬性中具有 SES 的文件。

分組 ( ) 搜尋

使用括號 [( )] 可以將搜尋元件組合在一起以更改 AND 和 OR 運算子的優先順序。分組的查詢元件必須構成有效的查詢。如果括號內的查詢字串不是有效的查詢,則 Oracle SES 會將其隱式重寫為最接近的有效查詢。

例如,[(oracle | database) sales] 返回包含 sales 幷包含 oracle 或 database 的文件。查詢 [(oracle |) sales] 返回包含 oracle 和 sales 的文件,因為 [oracle |] 不是有效查詢。

運算子的優先順序順序如下 (從最高到最低):[()][+][-][&,包括隱式 AND][ | ]。其他運算子沒有優先順序。運算子 [+][-] 具有相同的優先順序。這些運算子按查詢中從左到右的順序應用。

多個字元的萬用字元匹配 [*]

在詞語的中間或末尾新增運算子 [*] 可以進行萬用字元匹配搜尋。在一個詞語中可以多次應用該運算子。位於搜尋詞開頭的萬用字元運算子被忽略。

例如,[ora*] 查詢包含以 ora 開頭的所有詞的文件,如 Oracle 和 Orator。查詢 [title:a*e] 返回標題中包含 apple 或 ape 等詞的文件。

多個字元萬用字元擴充套件可能導致詞語過多。例如,[a*] 可能找到以 a 開頭的太多詞語。Oracle SES 會引發錯誤以細化查詢。

前面帶有轉義符 [] 時,萬用字元運算子 [*] 無效。例如 [Pro*c]

萬用字元匹配不能與中文或日文字地字元一起使用。

單個字元的萬用字元匹配 [?]

在詞語的中間或末尾新增運算子 (?) 可以進行單個字元的萬用字元匹配搜尋。在一個詞語中可以多次應用該運算子。位於搜尋詞開頭的萬用字元運算子被忽略。

例如,[orac?e][or?CL?] 都返回包含用單個字元替換 ? 的詞語 (如 Oracle) 的文件。

前面帶有轉義符 [] 時,萬用字元運算子 [?] 無效。

萬用字元匹配不能與中文或日文字地字元一起使用。

強制包含 [+] 搜尋將運算子 [+] 放在任何可搜尋項 (詞語、短語、屬性快捷方式或鄰近搜尋) 之前,可以要求在所有匹配文件中出現該詞。

例如,[oracle +applications] 僅查詢包含詞 Oracle 和 applications 的文件。+ 運算子和搜尋詞之間不應有空格。

將強制包含與 OR [ | ] 運算子一起使用時,強制包含運算子無效。例如,查詢 [text | +database] 返回包含詞語 text 或 database 的文件。

強制排除 [-] 搜尋

將運算子 [-] 放在任何可搜尋項 (包括詞語、短語、屬性快捷方式和鄰近搜尋) 的開頭,可以要求在所有匹配文件中出現該可搜尋項。[-] 和搜尋詞之間不應有空格。

例如,[oracle –applications] 返回包含 oracle 但不包含 applications 的文件。查詢 [oracle –"application server"] 返回包含 oracle 但不包含短語“application server”的文件。查詢 [oracle –title:oracle] 返回包含 oracle 但標題中不包含 oracle 的文件。查詢 [oracle –"application server"~] 返回包含 oracle 但在任何 100 個詞語跨度的視窗中不包含 application 和 server 的文件。

強制排除查詢不能是唯一查詢。例如,[-oracle] 會引發錯誤。此外,強制排除查詢不能用 OR [ | ] 運算子連線。例如,[oracle | -database] 會引發錯誤。

檔案型別過濾 [filetype:filetype]

在搜尋詞後附加 [filetype:filetype] 可將結果限於該特定檔案型別。例如,[documentation filetype:pdf] 返回詞語 documentation 的 PDF 格式文件。“filetype”快捷方式必須小寫,但是檔案型別名不區分大小寫,也就是說,[documentation filetype:PDF] 將返回相同的文件。

查詢只能包含一個檔案型別。支援下列檔案型別副檔名:doc、htm、html、xml、ps、pdf、txt、rtf、ppt 和 xls。

站點搜尋 [site:host]

附加 [site:host] 可將結果限於該特定站點。例如,[site: filetype:pdf] 返回 中格式為 PDF 的文件。“site”快捷方式必須小寫,但是主機名不區分大小寫,也就是說,[site: filetype:pdf] 將返回相同的文件。

查詢只能包含一個站點以獲得準確的主機匹配。查詢 [site:*.oracle.com] 無效。

組搜尋 [SG:source group]

附加 [SG:source group] 可將結果限於該特定源組。

例如,[sg:intranet] 返回 intranet 源組中的文件。“SG”快捷方式必須小寫,但是源組名不區分大小寫,也就是說,[SG:IntraNet] 將返回相同的文件。

在聯合搜尋中,源組名是本地 (中介) 節點中的源組。如果本地源組包含聯合源,則 Oracle SES 會透過更改查詢將本地源組名翻譯為聯合源組名,然後將該名稱傳送到聯合源以獲得結果。

注:

  • Oracle 在搜尋結果中併入 KWIC (上下文內關鍵字)。其大小限制為 4k。也就是說,如果搜尋到的關鍵字出現在文件的前 4k 中,則搜尋結果中將顯示 KWIC。如果關鍵字出現在前 4k 之後,則不顯示 KWIC。
  • 查詢中的非字母數字字元被視為詞語分隔符;例如 #、%、/ 等。國際字元不會被視為特殊字元。

瀏覽

單擊瀏覽按鈕可開啟單獨的搜尋視窗以在源組中搜尋。源組是由搜尋管理員建立的可以一起搜尋的源的組。

單擊源組名可以檢視其下的子組。透過單擊子組名可以進一步細化到層次。選擇樹中的一個或多個組,然後單擊搜尋可以將結果限於該組。

要檢視特定組下的所有文件,請單擊該源組名旁邊的編號。這是組中的文件編號。您也可在此頁執行源組範圍下的帶限制條件的搜尋。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/7318139/viewspace-1021496/,如需轉載,請註明出處,否則將追究法律責任。

相關文章