Skip to content

“ダブル xứng liệt オートマトンによる áp súc văn tự liệt sách tra cứu の thật trang” の thật nghiệm ライブラリ

Notifications You must be signed in to change notification settings

MatsuTaku/CDA_Automata

Repository files navigation

CDA_Automata

Áp súc văn tự liệt sách tra cứu をオートマトンで thật hiện し, ダブル xứng liệt で biểu hiện した thật nghiệm dùng ライブラリ. “Tùng bổn, thần điền, sâm điền, hoằng điền, ダブル xứng liệt オートマトンによる áp súc văn tự liệt sách tra cứu の thật trang, tình báo 処 lý học sẽ IFAT nghiên cứu sẽ, 2018” の thật trang になります. Thật trang に dùng いたデータ cấu tạo については “Tùng bổn, thần điền, sâm điền, hoằng điền, ダブル xứng liệt オートマトン の áp rút tay về pháp, DEIM, 2018” を ngự tham chiếu hạ さい.

Hiện thời điểm で nghiên cứu dùng の ため, ご lợi dụng は chính mình trách nhiệm でお nguyện い trí します.

Văn tự liệt sách tra cứu điểm chính

Văn tự liệt tập hợp と, văn tự liệt に đối ứng するIDを bảo tồn し hai bên hướng の kiểm tác を thật hiện するデータ cấu tạo . プログラム ngôn ngữ の データ cấu tạo でいうと, C++ の std::map<std::string, int>, Python の Dictionary{str: int} の ような cơ năng を thật hiện するも の です. Đại quy mô なデータセットに đối しても, thật dùng なメモリサイズと kiểm tác tốc độ で sách tra cứu を thật hiện できるようになります. Bổn ライブラリはデータセット の nhập lực に đối して tĩnh sách tra cứu を cấu trúc し cung cấp するため, cấu trúc sau の sách tra cứu の đổi mới には đối ứng していません.

Dẫn vào

こ の ライブラリはサブモジュールを dùng いているため, dưới の コマンドでクローンして hạ さい.

git clone --recursive https://github /MatsuTaku/CDA_Automata.git

または, クローン sau に dưới の コマンドを thật hành して hạ さい.

git submodule update --init --recursive

Khai phát hoàn cảnh

Hoàn cảnh はmacOSを tưởng định しているため, プロジェクト nội の スクリプトはMAC thượng で の コマンドで ghi lại されています. こ の ライブラリを động tác させるには dưới の hoàn cảnh が tất yếu になります.

  • CMake: コンパイルに tất yếu
  • Python3: "data-sets/create-test-datasets.py" の thật hành に tất yếu

また, thật nghiệm dùng スクリプトで dưới の コマンドを sử dụng します

Optional

Cấu thành

  • *.sh: こ の ライブラリで các sách tra cứu の ベンチマークがとれるまで の 処 lý を một hồi り ghi lại したスクリプト. thuận phiên thông り hô び ra せばとりあえず kết quả が đến られる.
  • array-fsa: Thần điền によるオートマトン の xứng danh sách hiện の thật trang ( C++ )
  • data-sets: ベンチマークに dùng いるデータセット đàn .ダウンロードはディレクトリ nội の READMEを tham chiếu
    • ciura-deorowicz/weiss: “paper-fsa-compression”から の 拝 mượn vật
    • kanda: Thần điền の thâu tập したデータセット
  • software: Chủ に tương đối thủ pháp として dùng いるデータ cấu tạo

data-setsには “*.dict” と “*.1000000.rnd_dict” という nhị chủng loại の データセットが hàm まれており, người trước が sách tra cứu を cấu trúc するときに dùng いるデータセットで, người sau が kiểm tác thời gian を trắc るときに dùng いるベンチマーク dùng データセットです. データセットはGitに hàm まれないため, /data-sets/README.md に従ってダウンロードしてください.

About

“ダブル xứng liệt オートマトンによる áp súc văn tự liệt sách tra cứu の thật trang” の thật nghiệm ライブラリ

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published