Ali tuyên bố đại mô hình tuyên bố đồ kết cấu trường văn bản xử lý trí năng thể, siêu việt GPT-4-128k

Theo đại ngôn ngữ mô hình phát triển, xử lý trường văn bản năng lực trở thành một cái quan trọng khiêu chiến. Tuy rằng có rất nhiều phương pháp ý đồ giải quyết vấn đề này, nhưng đều tồn tại bất đồng trình độ cực hạn tính. Gần nhất, Alibaba nghiên cứu đoàn đội đưa ra một cái tên là GraphReader tân phương pháp, thông qua đem trường văn bản tổ chức thành đồ kết cấu, cũng lợi dụng trí năng thể tới thăm dò cái này đồ, thành công tăng lên mô hình xử lý trường văn bản năng lực.

GraphReader trung tâm tư tưởng là đem trường văn bản phân giải thành mấu chốt nguyên tố cùng nguyên tử sự thật, xây dựng thành một cái đồ, sau đó làm trí năng thể ở cái này đồ trung thăm dò cùng trinh thám. Loại này phương pháp không chỉ có có thể hữu hiệu xử lý siêu trường văn bản, còn ở nhiều nhảy hỏi đáp chờ phức tạp nhiệm vụ thượng lấy được ưu dị biểu hiện. Cùng trước mắt chủ lưu trường văn bản xử lý phương pháp so sánh với, GraphReader bày ra ra càng cường mở rộng tính cùng lỗ bổng tính.

Cái này sáng tạo phương pháp vì đại ngôn ngữ mô hình xử lý trường văn bản sáng lập tân ý nghĩ, có hi vọng ở các loại yêu cầu trường văn bản lý giải ứng dụng cảnh tượng trung phát huy quan trọng tác dụng. Kế tiếp, làm chúng ta cùng nhau thâm nhập hiểu biết GraphReader nguyên lý cùng ưu thế.

图片

Luận văn tiêu đề:

GraphReader: Building Graph-based Agent to Enhance Long-Context Abilities of Large Language Models

Luận văn liên tiếp:

https://arxiv.org/pdf/2406.14550

Trường văn bản xử lý kỳ ngộ cùng khiêu chiến

Theo trí tuệ nhân tạo kỹ thuật nhanh chóng phát triển, đại ngôn ngữ mô hình ở các loại tự nhiên ngôn ngữ xử lý nhiệm vụ trung bày ra ra kinh người năng lực. Nhưng mà, xử lý trường văn bản vẫn cứ là một cái khó giải quyết vấn đề. Hiện có phương pháp thường thường chịu giới hạn trong cố định trên dưới văn cửa sổ lớn nhỏ, khó có thể hữu hiệu xử lý siêu trường văn bản hoặc yêu cầu nhiều bước trinh thám phức tạp nhiệm vụ.

Trước mắt, giải quyết trường văn bản xử lý vấn đề phương pháp chủ yếu bao gồm mô hình mặt ưu hoá, kiểm tra tăng cường sinh thành ( RAG ) cùng căn cứ vào trí năng thể phương pháp. Nhưng này đó phương pháp đều tồn tại từng người cực hạn tính, như yêu cầu đại lượng tính toán tài nguyên, khó có thể bắt giữ trường khoảng cách ỷ lại quan hệ, hoặc ở xử lý cực dài văn bản khi hiệu quả giảm xuống.

Đối mặt này đó khiêu chiến, Alibaba nghiên cứu đoàn đội đưa ra GraphReader phương pháp. GraphReader thông qua đem trường văn bản tổ chức thành đồ kết cấu, cũng lợi dụng trí năng thể ở đồ trung thăm dò, thành công tăng lên mô hình xử lý trường văn bản năng lực. Ở LV-Eval số liệu tập thượng, GraphReader ở các loại chiều dài văn bản ( từ 16k đến 256k tokens ) thượng đều lộ rõ trội hơn mặt khác phương pháp, bao gồm GPT-4-128k. Đặc biệt là ở xử lý 256k tokens chiều dài văn bản khi, GraphReader vẫn cứ bảo trì so cao tính năng, mà mặt khác phương pháp tính năng tắc trên diện rộng giảm xuống.

图片

GraphReader vì trường văn bản xử lý cung cấp sáng tạo ý nghĩ, thông qua trí năng tổ chức tin tức cùng thăm dò sách lược, hữu hiệu đột phá truyền thống phương pháp hạn chế. Nó không chỉ có có thể xử lý siêu trường văn bản, còn ở phức tạp nhiều nhảy hỏi đáp nhiệm vụ trung biểu hiện xuất sắc, vì đại mô hình xử lý trường văn bản cung cấp một loại tân phương pháp.

GraphReader: Đồ kết cấu cùng trí năng thể hoàn mỹ kết hợp

GraphReader phương pháp trung tâm ở chỗ đem trường văn bản chuyển hóa vì đồ kết cấu, cũng thông qua trí năng thể ở đồ trung tiến hành thăm dò. GraphReader chỉnh thể lưu trình như sau đồ sở kỳ, chỉnh thể có thể chia làm đồ xây dựng cùng đồ thăm dò:

图片

Cái này quá trình bắt đầu từ đồ xây dựng. Đầu tiên đem trường văn bản phân cách thành lớn nhất chiều dài vì khối, giữ lại đoạn kết cấu. Đối mỗi cái khối, GraphReader lấy ra nguyên tử sự thật cùng mấu chốt nguyên tố.

  • Nguyên tử sự thật là nhỏ nhất, không thể phân cách sự thật đơn nguyên, lấy ngắn gọn câu hình thức hiện ra.

  • Mấu chốt nguyên tố tắc bao gồm quan trọng danh từ, động từ cùng hình dung từ.

图片

Xây dựng xong đồ sau, GraphReader khởi động lại trí năng thể tới thăm dò cái này đồ.

图片

  1. Trí năng thể đầu tiên căn cứ vấn đề chế định một cái lý tính kế hoạch, cái này kế hoạch sẽ phân bước đi phân tích vấn đề, xác định yêu cầu bắt được mấu chốt tin tức.

  2. Sau đó, trí năng thể từ sở hữu tiết điểm trúng lựa chọn nhất tương quan N cái tiết điểm làm khởi điểm.

Hạ đồ triển lãm trí năng thể thăm dò quá trình, nó sẽ thăm dò nguyên tử sự thật, văn bản khối cùng liền nhau tiết điểm, không ngừng đổi mới notebook trung tin tức. Cái này quá trình thông qua một loạt dự định nghĩa hàm số tới thực hiện, nhưread_chunk,stop_and_read_neighbor,search_moreChờ.

图片

Ở thăm dò trong quá trình, trí năng thể chọn dùng thô đến tế sách lược, trước đọc nguyên tử sự thật, lại căn cứ yêu cầu đọc nguyên thủy văn bản khối. Đương trí năng thể thăm dò nguyên tử sự thật khi, nó có thể lựa chọnread_chunkHàm số tới đọc lấy tương quan văn bản khối, hoặc là lựa chọnstop_and_read_neighborHàm số tới thăm dò liền nhau tiết điểm.

Cuối cùng, GraphReader căn cứ notebook trung ký lục tin tức tiến hành trinh thám, sinh thành cuối cùng đáp án. Cái này quá trình kết hợp nhiều đường nhỏ thăm dò kết quả, có thể xử lý phức tạp nhiều nhảy vấn đề. Trí năng thể hội phân tích mỗi điều thăm dò đường nhỏ notebook nội dung, suy xét mặt khác bút ký trung bổ sung tin tức, cũng sử dụng đa số đầu phiếu sách lược giải quyết bất luận cái gì không nhất trí, cuối cùng tổng hợp sở hữu nhưng dùng tin tức sinh thành đáp án.

图片

Thông qua loại này phương pháp, GraphReader có thể ở hữu hạn trên dưới văn cửa sổ nội linh hoạt mà xử lý trường văn bản cùng phức tạp trinh thám nhiệm vụ. Nó không chỉ có có thể hữu hiệu bắt giữ trường khoảng cách ỷ lại quan hệ, còn có thể tại nhiều nhảy hỏi đáp chờ nhiệm vụ thượng bày ra ra ưu dị tính năng.

GraphReader trường văn bản xử lý kết quả

GraphReader ở nhiều thực nghiệm trung hiện ra trác tuyệt tính năng, chứng minh rồi nó ở xử lý trường văn bản cùng phức tạp trinh thám nhiệm vụ phương diện cường đại năng lực.

Đầu tiên, ở nhiều nhảy hỏi đáp nhiệm vụ thượng, GraphReader biểu hiện xuất sắc. Ở HotpotQA, 2WikiMultihopQA cùng MuSiQue này ba cái số liệu tập thượng, GraphReader đều lấy được tốt nhất tính năng. Đặc biệt đáng chú ý chính là, GraphReader chỉ sử dụng 4k trên dưới văn cửa sổ, liền siêu việt bao gồm GPT-4-128k ở bên trong sở hữu dây chuẩn phương pháp. Tỷ như, ở HotpotQA số liệu tập thượng, GraphReader LR-1 cùng LR-2 cho điểm phân biệt đạt tới 84.3% cùng 89.7%, mà GPT-4-128k cho điểm vì 83.3% cùng 88.3%. Này một kết quả đầy đủ chứng minh rồi GraphReader ở xử lý phức tạp trinh thám nhiệm vụ khi ưu thế.

图片

Ở đơn nhảy trường văn bản hỏi đáp nhiệm vụ thượng, GraphReader đồng dạng biểu hiện ưu dị. Ở NarrativeQA số liệu tập thượng, GraphReader LR-1 cùng LR-2 cho điểm phân biệt vì 65.0% cùng 80.0%, lộ rõ cao hơn mặt khác phương pháp. Này chứng minh rồi GraphReader không chỉ có ở nhiều nhảy nhiệm vụ thượng có ưu thế, ở xử lý trường văn bản đơn nhảy vấn đề thượng cũng biểu hiện xuất sắc.

GraphReader ở siêu trường văn bản xử lý thượng bày ra ra tương đối tốt biểu hiện. Ở HotpotWikiQA-mixup số liệu tập thượng, GraphReader ở từ 16k đến 256k bất đồng chiều dài văn bản thượng đều bảo trì ưu dị tính năng. Đặc biệt là ở 256k chiều dài văn bản thượng, GraphReader LR-1 cùng LR-2 cho điểm phân biệt vì 30.0% cùng 38.0%, mà GPT-4-128k cho điểm chỉ vì 14.0% cùng 16.0%.

图片

Hạ đồ tiến thêm một bước triển lãm GraphReader ở bất đồng văn bản chiều dài hạ duy trì sự thật triệu hồi suất. Có thể nhìn đến, theo văn bản chiều dài gia tăng, sở hữu phương pháp triệu hồi suất đều có điều giảm xuống, nhưng GraphReader giảm xuống biên độ nhỏ nhất. Ở 256k chiều dài văn bản thượng, GraphReader vẫn cứ bảo trì ước 60% triệu hồi suất, mà mặt khác phương pháp triệu hồi suất trên diện rộng giảm xuống.

图片

Vì thâm nhập lý giải GraphReader công tác cơ chế, nghiên cứu đoàn đội còn tiến hành rồi kỹ càng tỉ mỉ công năng thuyên chuyển phân tích cùng đồ kết cấu thống kê. Ở bất đồng loại hình nhiệm vụ trung, GraphReader sẽ chọn dùng bất đồng công năng thuyên chuyển hình thức. Tỷ như, ở nhiều nhảy hỏi đáp nhiệm vụ trung, đọc lấy liền nhau tiết điểm là nhất thường dùng thao tác, mà ở đơn nhảy hỏi đáp nhiệm vụ trung, đọc lấy văn bản khối là nhất thường xuyên thao tác. Loại này linh hoạt thuyên chuyển sách lược sử GraphReader có thể thích ứng bất đồng loại hình vấn đề.

图片

Hạ biểu triển lãm xây dựng đồ kết cấu thống kê số liệu. Có thể nhìn đến, theo văn bản chiều dài gia tăng, đồ trung tiết điểm số cùng nguyên tử sự thật số cũng tương ứng gia tăng. Bình quân mỗi cái tiết điểm có ước 10 cái liền nhau tiết điểm, mỗi cái tiết điểm bình quân liên hệ 2 cái nguyên tử sự thật. Loại này kết cấu khiến cho GraphReader có thể hữu hiệu mà tổ chức cùng lợi dụng trường văn bản trung tin tức.

图片

Nói tóm lại, này đó thực nghiệm kết quả đầy đủ chứng minh rồi GraphReader ở xử lý trường văn bản cùng phức tạp trinh thám nhiệm vụ phương diện trác tuyệt năng lực. Nó không chỉ có ở các loại chiều dài văn bản thượng đều biểu hiện xuất sắc, hơn nữa ở nhiều nhảy cùng đơn nhảy hỏi đáp nhiệm vụ trung đều hiện ra lộ rõ ưu thế. GraphReader loại này "Ma pháp" biểu hiện, vì trường văn bản xử lý lĩnh vực mang đến tân khả năng tính.

GraphReader tiềm lực cùng tương lai phương hướng

GraphReader vì trường văn bản xử lý sáng lập một cái sáng tạo chi lộ. Thông qua đem trường văn bản tổ chức thành đồ kết cấu, cũng lợi dụng trí năng thể tiến hành thăm dò, nó thành công đột phá truyền thống phương pháp hạn chế. Thực nghiệm kết quả cho thấy, GraphReader không chỉ có có thể xử lý siêu trường văn bản, còn ở phức tạp nhiều nhảy hỏi đáp nhiệm vụ thượng biểu hiện xuất sắc, thậm chí siêu việt GPT-4-128k chờ cường đại mô hình.

Cứ việc lấy được lộ rõ thành quả, GraphReader vẫn có tiến thêm một bước cải tiến không gian. Tương lai nghiên cứu phương hướng có thể bao gồm: Ưu hoá đồ xây dựng cùng thăm dò quá trình lấy đề cao hiệu suất; nghiệm chứng GraphReader ở mặt khác trường văn bản xử lý nhiệm vụ trung hiệu quả; thăm dò cùng mặt khác tiên tiến tự nhiên ngôn ngữ xử lý kỹ thuật kết hợp; cùng với khai phá khai nguyên phiên bản lấy xúc tiến càng rộng khắp ứng dụng cùng cải tiến.

Nói tóm lại, GraphReader vì giải quyết trường văn bản xử lý này một quan kiện khiêu chiến cung cấp một cái có tiền cảnh giải quyết phương án. Theo tiến thêm một bước nghiên cứu cùng ưu hoá, nó có hi vọng ở các loại yêu cầu trường văn bản lý giải ứng dụng cảnh tượng trung phát huy quan trọng tác dụng, thúc đẩy tự nhiên ngôn ngữ xử lý kỹ thuật tiến thêm một bước phát triển.

图片

图片

  • 30
    Điểm tán
  • Dẫm
  • 11
    Cất chứa
    Cảm thấy cũng không tệ lắm? Một kiện cất chứa
  • 0
    Bình luận
Bình luận
Tăng thêm bao lì xì

Thỉnh điền bao lì xì chúc phúc ngữ hoặc tiêu đề

Cái

Bao lì xì cái số nhỏ nhất vì 10 cái

Nguyên

Bao lì xì kim ngạch thấp nhất 5 nguyên

Trước mặt ngạch trống3.43Nguyên Đi trước nạp phí >
Cần chi trả:10.00Nguyên
Thành tựu một trăm triệu kỹ thuật người!
Lĩnh sau ngươi sẽ tự động trở thành bác chủ cùng bao lì xì chủ fans Quy tắc
hope_wisdom
Phát ra bao lì xì
Thật phóNguyên
Sử dụng ngạch trống chi trả
Điểm đánh một lần nữa thu hoạch
Quét mã chi trả
Tiền bao ngạch trống 0

Để khấu thuyết minh:

1. Ngạch trống là tiền bao nạp phí giả thuyết tiền, dựa theo 1:1 tỉ lệ tiến hành chi trả kim ngạch để khấu.
2. Ngạch trống vô pháp trực tiếp mua sắm download, có thể mua sắm VIP, trả phí chuyên mục cập chương trình học.

Ngạch trống nạp phí