澎湃Logo
Download bản cài đặt

Đăng nhập

  • +1

Trần đan kỳ đoàn đội biểu đồ giải đọc tân tiêu chuẩn cơ bản: Tân vương Claude3.5 mới vừa đạt tiêu chuẩn, nhưng đã là mô hình mạnh nhất trinh thám biểu hiện

2024-06-29 17:36
Nơi phát ra:Mênh mông tin tức · mênh mông hào · phái khách
Tên cửa hiệu

Khắc lôi tây phát ra từ lõm phi chùa

Lượng tử vị | công chúng hào QbitAI

Claude 3.5 Sonnet biểu đồ trinh thám năng lực, so GPT-4o cao hơn 27.8%.

Nhằm vào nhiều mô thái đại mô hình ở biểu đồ nhiệm vụ thượng biểu hiện, trần đan kỳ đoàn đội đưa ra tân thí nghiệm tiêu chuẩn cơ bản.

Tân Benchmark so dĩ vãng càng có phân chia độ, cũng làm một chúng truyền thống thí nghiệm trung cao phân mô hình bại lộ ra chân thật năng lực.

Nên số liệu tập tên là CharXiv, nội dung toàn bộ tuyển tự arXiv luận văn trung chân thật biểu đồ, tổng cộng 2323 trương.

So sánh với trước đây FigureQA chờ thí nghiệm tiêu chuẩn cơ bản, CharXiv bao dung nhiệm vụ loại hình càng thêm rộng khắp, hơn nữa không ấn kịch bản ra bài, khó khăn trên diện rộng gia tăng.

Vì tuyên truyền này bộ tân Benchmark, nghiên cứu đoàn đội còn viết ra một đầu tẩy não thần khúc, cũng chế tác video phim tuyên truyền.

Này đoạn ma tính phim tuyên truyền, làm có chút võng hữu tỏ vẻ đã bị thành công “Tẩy não”, trong đầu tràn ngập ( ca từ trung ) “2323 trương biểu đồ”.

Đạo sư trần đan kỳ cũng cảm thấy ấn tượng thập phần khắc sâu, nói thẳng đây là chính mình gặp qua nhất fancy video.

Như vậy, CharXiv đến tột cùng tân ở đâu, lại khó ở đâu đâu?

Đến từ học thuật luận văn biểu đồ thí nghiệm tập

Đoàn đội chỉ ra, quá khứ bảng biểu thí nghiệm tiêu chuẩn quá mức đơn giản, hơn nữa không thể phản ánh mô hình chân thật trình độ.

Tỷ như FigureQA, DVQA cùng ChartQA tử tập, chỉ cần hơi làm đơn giản sửa chữa, mô hình thành tích là có thể giảm xuống vượt qua 1/3.

Cứu này nguyên nhân, tác giả cho rằng là phía trước số liệu tập trung biểu đồ đều là từ trình tự hợp thành, hỏi đáp cũng độ cao khuôn mẫu hóa.

Vì thế, nghiên cứu đoàn đội đưa ra CharXiv, từ nhân loại chuyên gia từ arXiv luận văn trung tỉ mỉ lựa chọn 2323 cái chân thật biểu đồ.

Biểu đồ loại hình cũng càng thêm phong phú, đưa ra vấn đề cũng tránh cho kịch bản hóa vấn đề.

Căn cứ trọng điểm khảo sát năng lực bất đồng, tác giả đem thí nghiệm đề mục phân thành hai loại —— miêu tả tính vấn đề cùng trinh thám tính vấn đề.

Hai loại vấn đề tỉ lệ vì 4:1, tức mỗi trương biểu đồ xứng có 4 cái miêu tả tính vấn đề cùng 1 cái trinh thám tính vấn đề.

Trong đó miêu tả tính vấn đề bao gồm tin tức lấy ra ( Information extraction ), liệt kê ( Enumeration ), đếm hết ( Counting ), hình thức phân biệt ( Pattern recognition ) từ từ.

Này giữa, hình thức phân biệt chỉ chính là yêu cầu mô hình phân biệt biểu đồ trung số liệu xu thế cùng phân bố hình thức, như đường cong hay không tương giao, số liệu là tăng lên vẫn là giảm dần chờ.

Mặt khác còn có so khó tổ hợp hình ( Compositionality ) nhiệm vụ, mô hình yêu cầu tổng hợp nhiều thị giác nguyên tố tin tức trả lời vấn đề, thể hiện biểu đồ tin tức tổ hợp lý giải.

Tỷ như đề mục này chính là một đạo tổ hợp hình miêu tả loại vấn đề, nó yêu cầu ở phân biệt rõ ràng trục toạ độ đồng thời, hoàn thành đếm hết nhiệm vụ:

Ở trước mặt biểu đồ trung, sở hữu trục toạ độ trung tổng cộng có bao nhiêu minh xác đánh dấu khắc độ? ( nơi này hỏi chính là đánh dấu số lượng, không phải cầu hòa )

Trinh thám tính vấn đề tắc căn cứ đáp án xuất hiện phương thức lại chia làm bốn cái tử loại:

Text-in-chart: Vấn đề đáp án là biểu đồ trung xuất hiện văn bản, như lời ghi chú trên bản đồ nhãn, ly tán khắc độ nhãn chờ.

Text-in-general: Vấn đề đáp án là một cái dễ dàng nghiệm chứng văn bản đoản ngữ, nhưng không nhất định hiện thức xuất hiện ở biểu đồ trung.

Number-in-chart: Vấn đề đáp án là biểu đồ trung cấp ra một số giá trị,, như trục toạ độ khắc độ giá trị.

Number-in-general: Vấn đề đáp án là một cái chính xác đến riêng số nhỏ vị số trị số, nhưng khả năng yêu cầu thông qua đọc cùng trinh thám mới có thể đến ra, mà không nhất định trực tiếp xuất hiện ở biểu đồ trung.

Cử cái ví dụ, phía dưới vấn đề yêu cầu mô hình đối bảng biểu trung các liệt trị số tiến hành cầu hòa, sau đó tương đối sau cấp ra cùng nhỏ nhất một liệt đối ứng nhãn, đây là hạng nhất trinh thám hình nhiệm vụ.

Lợi dụng này bộ số liệu tập, tác giả ở linh hàng mẫu điều kiện hạ đánh giá một ít nổi danh khai nguyên cùng bế nguyên mô hình.

Mô hình vẫn như cũ không am hiểu trinh thám

Ở trinh thám loại vấn đề thượng, tác giả phát hiện sở hữu mô hình biểu hiện đều không phải thực lý tưởng.

Biểu hiện tốt nhất là chân nhân, mô hình giữa còn lại là Claude 3.5 Sonnet, bất quá cũng gần đạt tiêu chuẩn, cùng người so sánh với vẫn là kém một phần tư, thành tích vượt qua 40 mô hình tổng cộng cũng chỉ có ba cái.

Theo sát sau đó chính là GPT-4o, Gemini 1.5 Pro cùng Claude 3 gia tộc, có ý tứ chính là, Claude 3 “Siêu bát lớn” Opus, biểu hiện còn không bằng tiểu một ít Sonnet cùng Haiku.

Khai nguyên mô hình trung, biểu hiện tốt nhất là hơi mềm “Tiểu” mô hình Phi-3, tham số lượng tổng cộng chỉ có 4B, thành tích lại bước lên tới rồi Claude 3 gia tộc trung gian.

Ở miêu tả loại nhiệm vụ giữa, biểu hiện tốt nhất vẫn như cũ là nhân loại, nhưng mô hình cùng nhân loại chênh lệch nhỏ, biểu hiện tốt nhất GPT-4o cùng nhân loại chỉ kém không đến 10%.

Bất quá khai nguyên mô hình biểu hiện liền không như vậy hảo, điểm tối cao Phi-3 mới vừa đạt tiêu chuẩn.

Mặt khác, trong đó tổ hợp hình vấn đề ( COMP ) nhiệm vụ, đối với mô hình tới nói cũng như cũ là chỗ khó, không có bất luận cái gì một cái mô hình đạt được vượt qua 60, mà nhân loại biểu hiện là lớn hơn 90.

Tỷ như, số ra x trục cùng y trục thượng khắc độ nhãn số lượng, đối với người tới nói là thập phần đơn giản nhiệm vụ, nhưng thí nghiệm xuống dưới, 20 cái mô hình ở nên nhiệm vụ trung chuẩn xác suất không một đạt tới 10%.

Hơn nữa, theo tử đồ số lượng gia tăng, mô hình miêu tả năng lực cũng sẽ giảm xuống. Đương có 6 cái trở lên tử đồ khi, thương nghiệp mô hình thành tích sẽ giảm xuống 10-30%, khai nguyên mô hình đối tử đồ xử lý tắc càng thêm khó khăn, tính năng giảm xuống tỉ lệ đạt tới 30-50%.

Trải qua tổng hợp so đối, tác giả phát cụ bị tốt đẹp miêu tả năng lực là trinh thám năng lực tiền đề —— trinh thám năng lực cường mô hình giống nhau miêu tả năng lực cũng cường, nhưng miêu tả cường mô hình trinh thám năng lực không nhất định cường. Đương mô hình vô pháp chuẩn xác miêu tả biểu đồ khi, cho dù sử dụng tư duy liên ( CoT ) trinh thám, thành tích cũng sẽ không tăng lên.

Luận văn địa chỉ:

https://arxiv.org/abs/2406.18521

— xong —

    Bổn văn vì mênh mông hào tác giả hoặc cơ cấu ở mênh mông tin tức thượng truyền đồng phát bố, chỉ đại biểu nên tác giả hoặc cơ cấu quan điểm, không đại biểu mênh mông tin tức quan điểm hoặc lập trường, mênh mông tin tức chỉ cung cấp tin tức tuyên bố ngôi cao. Xin mênh mông hào thỉnh dùng máy tính phỏng vấn http://renzheng.thepaper.cn.

    +1
    Cất chứa
    Ta muốn cử báo

            Quét mã downloadMênh mông tin tức bản cài đặt

            Hỗ ICP bị 14003370 hào

            Hỗ công võng an bị 31010602000299 hào

            Internet tin tức tin tức phục vụ cho phép chứng: 31120170006

            Tăng giá trị tài sản điện tín nghiệp vụ kinh doanh cho phép chứng: Hỗ B2-2017116

            © 2014-2024Thượng Hải phương đông báo nghiệp công ty hữu hạn

            Phản hồi