Khiêu chuyển đáo nội dung

Word2vec

Duy cơ bách khoa, tự do đích bách khoa toàn thư

Word2vecThị nhất quần dụng lai sản sinhTừ hướng lượngĐích tương quan mô hình. Giá ta mô hình vi thiển tằng song tằng đíchThần kinh võng lộ,Dụng lai huấn luyện dĩ trọng tân kiến cấu ngữ ngôn học chi từ văn bổn. Võng lộ dĩ từ biểu hiện, tịnh thả nhu sai trắc tương lân vị trí đích thâu nhập từ, tại word2vec trungTừ đại mô hìnhGiả thiết hạ, từ đích thuận tự thị bất trọng yếu đích.

Huấn luyện hoàn thành chi hậu, word2vec mô hình khả dĩ bả mỗi cá từ ánh xạ đáo nhất cá hướng lượng, lai biểu kỳ từ dữ từ chi gian đích quan hệ. Cai hướng lượng vi thần kinh võng lộ đích ẩn tàng tằng[1].

Word2vec y lại skip-grams hoặcLiên tục từ đại( CBOW ) lai kiến lập thần kinh từ khảm nhập. Word2vec vi thác mã tư · mễ khoa lạc phu ( Tomas Mikolov ) tạiGoogleĐái lĩnh đích nghiên cứu đoàn đội sang tạo. Cai diễn toán pháp tiệm tiệm bị kỳ tha nhân sở phân tích hòa giải thích[2][3].

Skip-grams hòa CBOW

[Biên tập]

CBOW bả nhất cá từ tòng từ song dịch trừ. Tại CBOW hạ cấp địnhnTừ vi nhiễu trứ từw,word2vec dự trắc nhất cá cú tử trung kỳ trung nhất cá khuyết lậu đích từc,Tức dĩ cơ suấtLai biểu kỳ. Tương phản địa, Skip-gram cấp định từ song trung đích văn bổn, dự trắc đương tiền đích từ.

Diên thân

[Biên tập]

Word2vec dụng lai kiến cấu chỉnh phân văn kiện ( nhi phân độc lập đích từ ) đích diên thân ứng dụng dĩ bị đề xuất[4], Cai diên thân xưng vi paragraph2vec hoặc doc2vec, tịnh thả dụng C, Python[5][6]Hòa Java/Scala[7]Thật tố thành công cụ ( tham khảo hạ phương ). Java hòa Python dã chi viện thôi đoạn văn kiện khảm nhập ô vị quan trắc đích văn kiện.

Phân tích

[Biên tập]

Đối word2vec khuông giá vi hà tốTừ khảm nhậpNhư thử thành công tri chi thậm thiếu, ước a phu · ca đức bảo ( Yoav Goldberg ) hòa âu mạc · liệt duy ( Omer Levy ) chỉ xuất word2vec đích công năng đạo trí tương tự văn bổn ủng hữu tương tự đích khảm nhập ( dụngDư huyền tương tự tínhKế toán ) tịnh thả hòaƯớc hàn · lỗ bá đặc · phất tưĐíchPhân bố giả thuyết(Anh ngữ:Distributional semantics)Hữu quan.

Thật tác

[Biên tập]

Tham kiến

[Biên tập]

Tham khảo văn hiến

[Biên tập]
  1. ^Mikolov, Tomas; et al.Efficient Estimation of Word Representations in Vector Space(PDF).[2015-08-14].(Nguyên thủy nội dung(PDF)Tồn đương vu 2022-05-09 ).
  2. ^Goldberg, Yoav; Levy, Omar.word2vec Explained: Deriving Mikolov et al.’s Negative-Sampling Word-Embedding Method(PDF).[2015-08-14].(Nguyên thủy nội dung(PDF)Tồn đương vu 2022-01-22 ).
  3. ^Řehůřek, Radim.Word2vec and friends(Youtube video).[2015-08-14].(Nguyên thủy nội dungTồn đương vu 2020-05-22 ).
  4. ^Le, Quoc; et al.Distributed Representations of Sentences and Documents.(PDF).[2016-02-18].(Nguyên thủy nội dung(PDF)Tồn đương vu 2021-11-23 ).
  5. ^Doc2Vec tutorial using Gensim.[2015-08-02].(Nguyên thủy nội dungTồn đương vu 2021-01-23 ).
  6. ^Doc2vec for IMDB sentiment analysis.[2016-02-18].( nguyên thủy nội dungTồn đươngVu 2020-01-07 ).
  7. ^Doc2Vec and Paragraph Vectors for Classification.[2016-01-13].(Nguyên thủy nội dungTồn đương vu 2015-12-31 ).