Áp súc văn tự liệt sách tra cứu をオートマトンで thật hiện し, ダブル xứng liệt で biểu hiện した thật nghiệm dùng ライブラリ. “Tùng bổn, thần điền, sâm điền, hoằng điền, ダブル xứng liệt オートマトンによる áp súc văn tự liệt sách tra cứu の thật trang, tình báo 処 lý học sẽ IFAT nghiên cứu sẽ, 2018” の thật trang になります. Thật trang に dùng いたデータ cấu tạo については “Tùng bổn, thần điền, sâm điền, hoằng điền, ダブル xứng liệt オートマトン の áp rút tay về pháp, DEIM, 2018” を ngự tham chiếu hạ さい.
Hiện thời điểm で nghiên cứu dùng の ため, ご lợi dụng は chính mình trách nhiệm でお nguyện い trí します.
Văn tự liệt tập hợp と, văn tự liệt に đối ứng するIDを bảo tồn し hai bên hướng の kiểm tác を thật hiện するデータ cấu tạo . プログラム ngôn ngữ の データ cấu tạo でいうと, C++ の std::map<std::string, int>, Python の Dictionary{str: int} の ような cơ năng を thật hiện するも の です. Đại quy mô なデータセットに đối しても, thật dùng なメモリサイズと kiểm tác tốc độ で sách tra cứu を thật hiện できるようになります. Bổn ライブラリはデータセット の nhập lực に đối して tĩnh sách tra cứu を cấu trúc し cung cấp するため, cấu trúc sau の sách tra cứu の đổi mới には đối ứng していません.
こ の ライブラリはサブモジュールを dùng いているため, dưới の コマンドでクローンして hạ さい.
git clone --recursive https://github /MatsuTaku/CDA_Automata.git
または, クローン sau に dưới の コマンドを thật hành して hạ さい.
git submodule update --init --recursive
Hoàn cảnh はmacOSを tưởng định しているため, プロジェクト nội の スクリプトはMAC thượng で の コマンドで ghi lại されています. こ の ライブラリを động tác させるには dưới の hoàn cảnh が tất yếu になります.
- CMake: コンパイルに tất yếu
- Python3: "data-sets/create-test-datasets.py" の thật hành に tất yếu
また, thật nghiệm dùng スクリプトで dưới の コマンドを sử dụng します
- gtime: "02-build-dicts.sh" で の kế trắc に tất yếu ( tham khảo:https://apple.stackexchange /questions/193986/to-install-gnu-time-in-osx )
- GNU parallel: "02-build-dicts.sh" thật thịnh hành の song song hóa thật hành に tất yếu (https:// gnu.org/software/parallel/)($brewinstall parallel も khả năng )
Optional
- JDK: Dawid Weissによる thật trang を động tác させるために tất yếu ( tham khảo:https://eng-entrance /java-install-jdk-mac )
- *.sh: こ の ライブラリで các sách tra cứu の ベンチマークがとれるまで の 処 lý を một hồi り ghi lại したスクリプト. thuận phiên thông り hô び ra せばとりあえず kết quả が đến られる.
- array-fsa: Thần điền によるオートマトン の xứng danh sách hiện の thật trang ( C++ )
- data-sets: ベンチマークに dùng いるデータセット đàn .ダウンロードはディレクトリ nội の READMEを tham chiếu
- ciura-deorowicz/weiss: “paper-fsa-compression”から の 拝 mượn vật
- kanda: Thần điền の thâu tập したデータセット
- software: Chủ に tương đối thủ pháp として dùng いるデータ cấu tạo
- XOR áp súc を dùng いたダブル xứng liệt トライ:XOR-Compressed Double-Array Trie
- Path decomposition によるトライ の áp súc biểu hiện:Path-Decomposed tries
- Dawid Weissによる áp súc オートマトン biểu hiện の thật trang ( Java ):paper-fsa-compression
- darts-clone: ダブル xứng liệt ベース の cao tốc sách tra cứu:darts-clone
data-setsには “*.dict” と “*.1000000.rnd_dict” という nhị chủng loại の データセットが hàm まれており, người trước が sách tra cứu を cấu trúc するときに dùng いるデータセットで, người sau が kiểm tác thời gian を trắc るときに dùng いるベンチマーク dùng データセットです. データセットはGitに hàm まれないため, /data-sets/README.md に従ってダウンロードしてください.