コンテンツにスキップ

Toàn văn kiểm tác

Xuất điển: フリー bách khoa sự điển 『ウィキペディア ( Wikipedia ) 』

Toàn văn kiểm tác( ぜんぶんけんさく,Anh:Full text search) とは,コンピュータにおいて, phục sổ の văn thư (ファイル) から đặc định のVăn tự liệtKiểm tácすること. “ファイル danh kiểm tác” や “単 nhất ファイル nội の văn tự liệt kiểm tác” と dị なり, “Phục sổ văn thư にまたがって, văn thư に hàm まれる toàn văn を đối tượng とした kiểm tác” という ý vị で sử dụng される.

Toàn văn kiểm tác kỹ thuật[Biên tập]

grep hình[Biên tập]

Thuận thứ tẩu tra kiểm tác, trục thứ kiểm tác ともいう. “grep”とはUNIXにおけるVăn tự liệt kiểm tácコマンドであり, phục sổ のテキストファイルの nội dung を thuận thứ tẩu tra していくことで, kiểm tác đối tượng となる văn tự liệt を tham し xuất す. Nhất bàn に “grep hình” と hô ばれる kiểm tác thủ pháp は, sự tiền に tác dẫn ファイル ( インデックス ) を tác thành せず, ファイルを thuận thứ tẩu tra していくために, kiểm tác đối tượng の tăng gia に bạn って kiểm tác tốc độ が đê hạ するのが đặc trưng である. ちなみに “grep hình” とは thật tế にgrepコマンドを sử っているという ý vị ではない.

Tác dẫn ( インデックス ) hình[Biên tập]

インデックス tác thành hình toàn văn kiểm tác システム

Kiểm tác đối tượng となる văn thư sổ が bành đại な tràng hợp, grep hình では kiểm tác を hành うたびに1つ1つの văn thư にアクセスし, cai đương データを trục thứ kiểm tác するので, kiểm tác đối tượng văn thư の tăng gia に bỉ lệ して, kiểm tác にかかる thời gian も trường くなっていってしまう. そこであらかじめ kiểm tác đối tượng となる văn thư quần を tẩu tra しておき, cao tốc な kiểm tác が khả năng になるような tác dẫn データを chuẩn bị することで, kiểm tác thời のパフォーマンスを hướng thượng させる thủ pháp が thủ られている. Sự tiền に tác dẫn ファイルを tác thành することをインデクシング (Anh:indexing) と hô ぶ. インデクシングにより sinh thành されるデータはインデックス( インデクス ) と hô ばれ, その cấu tạo は đa くの tràng hợp, “Văn tự liệt | ファイルの tràng sở | ファイルの canh tân nhật | xuất hiện tần độ…” といったようなリスト hình thức (テーブル cấu tạo) を thủ り, văn tự liệt が kiểm tác キーとなっている. Kiểm tác thời にはこのインデックスにアクセスすることで, kịch đích に cao tốc な kiểm tác が khả năng となる.

Tác dẫn văn tự liệt の trừu xuất thủ pháp[Biên tập]

Hình thái tố giải tích[Biên tập]

Anh văn の tràng hợp は単 ngữ と単 ngữ の gian にスペースが nhập るため, tự nhiên, スペースで khu thiết られた văn tự liệt を trừu xuất していけば, tác dẫn データの tác thành は dung dịch となる. しかし nhật bổn ngữ の tràng hợp は, 単 ngữ をスペースで khu thiết る “わかち thư き”の tập quán がないため,Hình thái tố giải tíchKỹ thuật を dụng いて, văn mạch の giải tích, 単 ngữ phân giải を hành い, それをもとにインデックスを tác thành する tất yếu がある. Hình thái tố giải tích を hành うためには giải tích dụng のTừ thưが tất tu であり, kiểm tác kết quả は từ thư の phẩm chất に thiếu なからず ảnh hưởng を thụ ける. また, từ thư に đăng lục されていないひらがな単 ngữ の trừu xuất に nan があるなど, kỹ thuật đích chướng bích も đa く, kiểm tác lậu れが sinh じることが khiếm điểm とされる.

N-Gram[Biên tập]

“N văn tự インデックス pháp” “Nグラム pháp” などともいう. Kiểm tác đối tượng を単 ngữ 単 vị ではなく văn tự 単 vị で phân giải し, hậu 続の N-1 văn tự を hàm めた trạng thái で xuất hiện tần độ を cầu める phương pháp. Nの trị が1なら “ユニグラム (Anh:uni-gram)”, 2なら “バイグラム (Anh:bi-gram)”, 3なら “トライグラム (Anh:tri-gram)” と hô ばれる. たとえば “Toàn văn kiểm tác kỹ thuật” という văn tự liệt の tràng hợp, “Toàn văn” “Văn kiểm” “Kiểm tác” “Tác kỹ” “Kỹ thuật” “Thuật ( chung đoan )” と2 văn tự ずつ phân cát して tác dẫn hóa を hành ってやれば, kiểm tác lậu れが sinh じず, từ thư の tất yếu も vô い. Hình thái tố giải tích によるわかち thư きに bỉ べると, 2つの khiếm điểm がある. Ý đồ したものとは dị なる kiểm tác kết quả ( いわゆる kiểm tác ノイズ ) の phát sinh と, インデックスサイズの phì đại hóa である. Kiểm tác ノイズの nhất lệ として, “Kinh đô” で kiểm tác すると “ĐôngKinh đôSảnh” という thích hợp しない kiểm tác kết quả, “***が hàm まれる vật は kiến つかりませんでした” という văn chương が phản ってくる tràng hợp が cử げられる.

Hình thái tố giải tích とN-gramの bỉ giác
Hình thái tố giải tích N-gram
インデクシング tốc độ Trì い Tốc い
インデックスサイズ Tiểu さい Đại きい
Kiểm tác ノイズ Thiếu ない Đa い
Kiểm tác lậu れ Đa い Thiếu ない
Kiểm tác tốc độ Tốc い Trì い
Ngôn ngữ y tồn Từ thư が tất yếu Từ thư が bất yếu
その tha[Biên tập]

Tha に nhật bổn ngữ văn thư から tác dẫn văn tự liệt を trừu xuất する thủ pháp として, văn tự chủng による thiết り phân け,Tiếp vĩ từ phối liệt,シグネチャ phápなどがありそれぞれに đặc trường があるが, tiên の2 chủng に bỉ べると đại quy mô なシステムには thích dụng しづらく, tinh độ の vấn đề もあり chủ lưu とはなっていない.

Văn thư フィルタ[Biên tập]

Kiểm tác đối tượng văn thư がプレーンテキストDĩ ngoại, たとえばHTMLVăn thư ならばタグの trừ khứ đẳng の処 lý を hành ってテキストを trừu xuất できるが, đặc định メーカーのワープロĐộc tự hình thức などバイナリ hình thứcの tràng hợp, インデクサは trực tiếp ファイルからテキストを trừu xuất することが xuất lai ないため,Văn thư フィルタを lợi dụng して cai đương ファイルからテキストを bạt き xuất す tất yếu が sinh じる. Văn thư フィルタ cơ năng はインデクサが nội bao しているものもあれば,アドインなどの cơ năng 拡 trương によって thật trang する tràng hợp もある.

転 trí ファイル[Biên tập]

Toàn văn kiểm tác dụng のインデックスには dạng 々な hình thức があるが, tối も nhất bàn đích なものは単 ngữ と, 単 ngữ を hàm む văn thư ファイルのIDとで cấu thành された khả 変 trường のレコードを trì ったテーブルで,転 trí ファイル(Anh:inverted file,転 trí インデックスとも ) と hô ばれるものである. インデクシングや thật tế の kiểm tác の tế には “Nhị phân tham tác”などのアルゴリズムを sử って, cao tốc に kiểm tác 単 ngữ から văn thư IDを tham し xuất すことが xuất lai る. 転 trí ファイルのデータ cấu tạo や, thải dụng している tham tác アルゴリズムは toàn văn kiểm tác システムによって dạng 々であり, これらの vi いによってインデックスサイズ, kiểm tác tốc độ, kiểm tác tinh độ に đại きな vi いが xuất ることがある.

転 trí ファイルの lệ
単 ngữ Văn thư ID
サーチ 1, 3, 4
デスクトップ 2, 4, 7
Giải tích 3, 5, 6, 7
Hình thái tố 2, 6, 7
Kiểm tác 1, 6
Toàn văn 1, 6, 7
※ nhị phân tham tác を hành うためには単 ngữ と văn thư IDはソートTế みでなければならない

Tái hiện suất と thích hợp suất[Biên tập]

Toàn văn kiểm tác システムの bình 価 chỉ tiêu のひとつとして “Tái hiện suất (Anh:recall)” と “Thích hợp suất ( tinh độ,Anh:precision)” が dụng いられる. Tiền giả は “いかに kiểm tác lậu れが thiếu ないか” をあらわし hậu giả は “いかに kiểm tác ノイズが thiếu ないか” をあらわす. Nhất bàn đích に lạng giả はトレードオフの quan hệ にあるといわれている. ( → “Tình báo kiểm tác # kiểm tác tính năng の bình 価”)

ランク phó け ( スコアリング )[Biên tập]

Kiểm tác された văn thư は “Canh tân thuận” “ファイル danh thuận” “Văn thư のタイトル thuận” などにソートされる. Nhất bàn đích な kiểm tác エンジンでは độc tự のランク phó けルールも thích dụng し “Trọng yếu độ” などと hô んでいるものもある. ランク phó けの cơ bổn đích な khảo え phương は “ユーザーにとって trọng yếu と tư われる văn thư を thượng vị に biểu kỳ する” ことであり, dĩ hạ のような thủ pháp が thải られることが đa い.

  • Văn thư trung の kiểm tác 単 ngữ xuất hiện tần độ
  • HTMLタグの giải tích
<title>タグや<H1>タグを trọng thị する.
TFとは単 ngữ の xuất hiện tần độ, IDFは toàn văn thư trung において単 ngữ が nhất bộ の văn thư に tập trung している độ hợp いをあらわし, lạng giả を quải け hợp わせることでランク phó けを hành う.
“Trọng yếu độ の cao いページからリンクされているページは trọng yếu である” という nguyên lý に cơ づいてランク phó けを hành う.Googleで thải dụng されている.

Chủ な dụng đồ[Biên tập]

WWW kiểm tác サービス
Kiểm tác サービスの trung では, siêu đại hình の cơ năng が cầu められる phân dã で, sí liệt な cạnh tranh が hành われてきたが, 2013 niên hiện tại では “Google”または “Bing”のいずれかに tập ước されつつある. ウェブの sơ kỳ から hành われていたサービスのひとつで, kỹ thuật の tiến bộ もめざましい.
Xí nghiệp hướng け xã nội kiểm tác サービス
Xã nộiファイルサーバの văn thư tư sản を cao tốc toàn văn kiểm tác するシステム.WordExcelといったオフィススイートから, メール, データベースなどの đa くのファイル hình thức に đối ứng し, xí nghiệp の tính cách に ứng じて, đa dạng な kiểm tác kết quả を phản す. Cận niên, điện tử データの xí nghiệp tư sản の trọng yếu tính が tăng し, phi thường に phát đạt してきている phân dã.
デスクトップ kiểm tác
Cá nhân のローカルファイルを kiểm tác するためのアプリケーションソフトウェア.Word, Excel, PDFなど dạng 々なファイル hình thức に đối ứng している. また, họa tượng データなどの, cá nhân の bảo hữu にあるマルチメディアデータの kiểm tác に đặc hóa したものもあり, スピードと thủ khinh さが cầu められている.

Đại biểu đích な toàn văn kiểm tác エンジン[Biên tập]

サーバ/ワークステーション hướng け[Biên tập]

Vô thường[Biên tập]

  • Tokyo Dystopia: a full-text search system
    • Dĩ hạ の chế phẩm quần と tổ み hợp わせて sử dụng する. Tokyo Cabinet: a modern implementation of DBM, Tokyo Tyrant: network interface of Tokyo Cabinet, Tokyo Promenade: a content management system, Kyoto Cabinet: a straightforward implementation of DBM, Kyoto Tycoon: a handy cache/storage server
  • Hyper Estraier
    • N-gramベース (N.M-gram). わかち thư き phương thức も tịnh dụng khả.
    • Phân tán インデクス, Webクローラ, kiểm tác dụng CGIなど tiêu chuẩn thiêm phó のプログラムが sung thật.
    • N.M-gram phương thức とは, N văn tự に続くM văn tự のハッシュ trị を kế toán し bảo trì することによって, フレーズ kiểm tác が khả năng. フォルスドロップあり. Loại tự kiểm tác あり.
    • Đại quy mô なインデックスも tác thành khả.
  • msearch
    • インデックスは “ファイル danh |タブコード| bổn văn | cải hành コード” の単 thuần なもので, これにGrep kiểm tác をかけることで đối tượng văn thư を trừu xuất する.
    • Thiết trí が phi thường に dung dịch であり, root権 hạn が vô くてもインデックスの canh tân が khả năng なため, cá nhân の tiểu quy mô サイトを trung tâm に dụng いられている.
    • UTF-8などUnicodeにも đối ứng したUnicode bản msearchがある.
  • Namazu
    • わかち thư きベース.
    • 2単 ngữ によるフレーズからハッシュ trị を kế toán し bảo trì することによって, フレーズ kiểm tác が khả năng. フォルスドロップ (Anh:false drop= ngộ った hầu bổ ) あり.
    • Cổ くからあり, nhật bổn で quảng く sử われている toàn văn kiểm tác システム.
    • Tiểu trung quy mô を đối tượng とし, đại quy mô が khổ thủ.
  • Apache Lucene/Solr
    • Analyzerと hô ばれるクラスを tuyển ぶことにより, N-gramやわかち thư き hình thức でのインデックス tác thành ができる.
    • Javaによる toàn văn kiểm tác システム.
    • Luceneがクラスライブラリとして đề cung され, Luceneを lợi dụng した toàn văn kiểm tác サーバーがSolrとなる.
    • IBM WebSphere Commerce, Salesforce, Microsoft Azure, SAP Hybris, lặc thiên などで lợi dụng されている.
    • Đại quy mô なインデックスも tác thành khả. スケーリングし giá động suất, đối chướng hại tính を cao めるZookeeperを sử った sĩ tổ みを bị える.
  • Rast
    • わかち thư きベース・N-gramベースの tuyển 択
    • 単 ngữ の xuất hiện vị trí tình báo を bảo trì し, chính xác なフレーズ kiểm tác が khả năng. フォルスドロップなし.
  • Senna
    • わかち thư きベース・N-gramベースの tuyển 択
    • Tha のプログラムからライブラリとして hô び xuất して lợi dụng する.
    • MySQLの trung に toàn văn kiểm tác エンジンを tổ み込むパッチが đề cung されており, MySQLを lợi dụng しているプログラムであれば toàn văn kiểm tác cơ năng を thủ khinh に thật hiện できる.
    • PostgreSQLに đối して, Sennaを toàn văn kiểm tác エンジンとして tổ み込むためのモジュールLudiaが công khai されている.
    • Perlバインディングにより, Perlスクリプトから giản 単に lợi dụng することができる.PHP,Ruby,Pythonバインディングも đề cung されている.
    • Đại quy mô なインデックスも tác thành khả. ただし, phân tán kiểm tác の cơ năng はない.
  • Groonga
    • Sennaの hậu 継エンジン

Hữu thường[Biên tập]

  • jetrun®クラスター・サーチエンジン
    • 300カテゴリ700 vạn ワードの phong phú な độc tự từ thư による cao tốc な toàn văn kiểm tác エンジン
    • ASP phương thức とアプライアンス phương thức のWebサービス
  • ConceptBase Enterprise Search
    • Quốc sản のエンタープライズ kiểm tác エンジン ConceptBase シリーズの đại quy mô đối ứng bản
    • Kiểm tác tinh độ の cao い độc tự kỹ thuật “NL-Vgram” で, 1つのインデックスで khái niệm kiểm tác と toàn văn kiểm tác の lạng phương を thật hiện khả năng.
  • ConceptBase Search Lite ( cựu ConceptBase Search 1000 )
    • Khái niệm kiểm tác や văn tự liệt nhất trí kiểm tác に gia え, giảo り込み kiểm tác など cao tốc で đa thải な kiểm tác が đặc trưng.
    • Thượng vị bản “ConceptBase V” はビューポイント, ファセット・ナビゲーションなど độc đặc の cơ năng を hữu する.
  • Sedue
    • Áp súc サフィックスアレイを sử dụng したインメモリ hình の toàn văn kiểm tác エンジン
    • Phục sổ マシンでの phân tán kiểm tác も khả năng
  • FAST ESP
    • Kiểm tác パフォーマンスと kiểm tác đối tượng データ lượng の lạng diện でスケーラビリティを trì ち, siêu đại quy mô システムまで đối ứng khả năng.
    • Hình thái tố giải tích とN-gramの lạng phương をハイブリッドに lợi dụng khả năng.
  • FileBlog
    • Solrベースで, ActiveDirectory liên huề などWindowsファイルサーバ kiểm tác に đặc hóa したGUI
    • フォルダ giai tằng のブラウズや, フォルダによる kiểm tác phạm 囲 hạn định が đặc trưng
  • Oracle Secure Enterprise Search
    • N-gramベース (V-gram).
    • ログインしたユーザーが tham chiếu khả năng な kết quả のみを biểu kỳ するセキュア kiểm tác が đặc trưng.
  • Piranha
    • サイト nội kiểm tác CGI
  • SAVVY
    • Quốc sản のパターン nhận thứcKỹ thuật をベースとし, hoàn toàn nhất trí kiểm tác のほか, あいまい kiểm tác, あるまで kiểm tác, tự nhiên ngữ điều kiểm tác など, siêu cao tốc かつ đa thải な kiểm tác phương thức が đặc trưng.
  • SMART/InSight
    • Hình thái tố giải tích, N-gram tuyển 択 khả.
    • ActiveDirectoryなどのACL継 thừa cơ năng hữu り.
    • Apache Solrをエンジンとして sử dụng.
  • Neuron
    • Apache Solrベースでプラグインを tổ み込み, kiểm tác họa diện ・クローラーをパッケージングした toàn văn kiểm tác システム.
    • Hình thái tố giải tích とN-Gramで nhật bổn ngữ を phân cát し, từ thư đăng lục の phụ hà を đại phúc に khinh giảm. Độc tự khai phát のクローラーによるパフォーマンスの cao さが đặc trưng.
  • Vivisimo Velocity
    • クラスタリング kỹ thuật による, loại tự した kiểm tác kết quả の tự động カテゴライズ cơ năng.
    • ActiveDirectoryと liên huề したACL kiểm tác đẳng, xí nghiệp nội の kí tồn セキュリティに thích hợp させるカスタマイズ tính の cao さが đặc trưng.
  • WiSE
  • FlexSearch
  • InfoBee/iS
    • NTTの kỹ thuật を cơ にした thuần quốc sản kiểm tác エンジン
    • Hình thái tố giải tích, đồng nghĩa ngữ từ thư を sử dụng したあいまい kiểm tác が khả năng
  • IBM OmniFind Enterprise Edition
    • Hình thái tố giải tích とN-gramの lạng phương をサポート
    • さまざまなデータソースを kiểm tác đối tượng とすることができる
  • FAST Search Server for SharePoint
    • ファストChế phẩm の kỹ thuật を cơ にした kiểm tác エンジン
  • Autonomy IDOL (Intelligent Data Operating Layer)
    • オートノミーはMeaning-Based Computing (MBC) を đề xướng しており, その trung hạch となるコア kỹ thuật
  • QuickSolution
    • Trụ hữu điện công tình báo システムによって đề cung されている toàn văn kiểm tác エンジン.
  • Microsoft SharePoint Server

[1]Cá nhân hướng け[Biên tập]

Vô thường[Biên tập]

  • Windows Search( マイクロソフト )
    • わかち thư きベース
    • Windows VistaDĩ hàng に tiêu chuẩn đáp tái.
    • Kiểm tác đối tượng フォルダを tường tế に thiết định khả năng. ネットワークドライブにも đối ứng.
    • Đương sơ は “MSN サーチ ツールバー with Windows デスクトップ サーチ” というパッケージで phối bố されていた.
  • Spotlight(Apple)
  • GrepWin
    • GrepのWindows di thực.
    • GUI phó き.
  • Googleデスクトップ(Google)
    • わかち thư きベース.
    • Google web kiểm tác と đồng じエンジンでローカルファイルを kiểm tác できる.
    • Khiếm điểm は, đại きなファイルの tràng hợp, hậu bán bộ phân がインデックス hóa されないなどの vấn đề.[1]
    • 2008 niên を tối hậu に khai phát đình chỉ tế.
  • DesktopHE
    • N-gramベース (N.M-gram). わかち thư き phương thức も tịnh dụng khả.
    • Hyper EstraierにGUIをつけた vật.
    • Google デスクトップなどの thường trú hình とは dị なり, インデックスを trương ったあとはコンピュータが trọng くなったりしない.
    • 2010 niên を tối hậu に khai phát đình chỉ tế.
  • インデックスサービス ( マイクロソフト )
    • Windows 2000/XPに tiêu chuẩn đáp tái.
    • デフォルトではオフとなっている.
    • ローカルディスク toàn thể をインデックス hóa できるが, CPU phụ hà は cao くなる.
    • メール kiểm tác には phi đối ứng.
    • Vistaでは, Windows デスクトップサーチをベースにしたシステムになった.
  • FindFast ( マイクロソフト )
    • MS Office95~2000に tiêu chuẩn đáp tái.
    • Officeファイルが đối tượng であり, メール kiểm tác などはできない.
    • Office XP dĩ hàng は, インデックス kiểm tác に trí き hoán わった.
  • Beagle
  • MetaTracker
    • LinuxなどのUnix hệ OS hướng け
  • butterfly_search( バタフライサーチ )
    • アルファベットは không bạch khu thiết り, それ dĩ ngoại の văn tự はN-gramベースでインデックス hóa.
    • Kiểm tác đối tượng はテキストファイルのみ.

Hữu thường[Biên tập]

アルゴリズム[Biên tập]

リニアサーチ( thông xưng “Mã lộc サーチ” )やバイナリーサーチ( nhị phân pháp ), ハッシュ pháp などがあるが, それぞれ đắc thất があり, “Từ thư の đăng lục ngữ hối sổ が đa くなると thủ gian sổ が tăng えて trì くなる” という vấn đề がある.

Nhất bàn đích な kiểm tác エンジンではダブル phối liệt pháp が dụng いられているようだが, ダブル phối liệt pháp は chủ ký ức lĩnh vực が hiệp い quá khứ の hoàn cảnh に hợp わせて khai phát されたらしいので, hiện tại では khả đọc tính が ác いため thải dụng するのはお thưởng めできない ダブル phối liệt pháp の giải tích から, その tổ hình であるトリプル phối liệt pháp が phát kiến ( おそらくは tái phát kiến ) されたが, phát minh giả は tri られていない. トリプル phối liệt は, từ thư đăng lục ngữ hối に quan わらず, tối trường の đăng lục ngữ hối の trường さ l に bỉ lệ した thủ gian sổ しかかからないのでお thủ khinh なあるアルゴリズムだが, tối trường ngữ hối l が tăng えるとヒットする ngữ sổ が giảm るので, đồ trung でリニアサーチに thiết thế えるとコンパクトになる. また, プログラミング ngôn ngữ の dư ước ngữ のように sổ が hạn られていて tần xuất する ngữ については, ハッシュ pháp を sử ったほうが giản 単である.

Cước chú[Biên tập]

Quan liên hạng mục[Biên tập]

Ngoại bộ リンク[Biên tập]