「13.11＞13.8」冲上热搜，一道题让人类AI集体降智？所有LLM致命缺点曝光

13.8 cùng 13.11 cái nào đại? Vấn đề này không riêng làm khó bộ phận nhân loại, còn làm một phiếu đại mô hình chiết kích. AI hiện giờ đều có thể làm AI Olympic Toán đề, nhưng đơn giản thường thức vấn đề đối chúng nó vẫn như cũ khó như lên trời. Kỳ thật, vô luận là so lớn nhỏ, vẫn là cây cải bắp nan đề, đều công bố LLM ở token đoán trước thượng một cái trọng đại khuyết tật.

———— / BEGIN / ————

13.8 cùng 13.11 cái nào đại?

Vấn đề này, cư nhiên làm khó một phiếu nhân loại.

Trước hai ngày, mỗ nổi danh tổng nghệ lại lần nữa hỉ đề hot search.

Chẳng qua, lần này là bởi vì có một đống võng hữu đưa ra nghi ngờ, cho rằng 13.11% hẳn là so 13.8% đại.

Là chỉ có nhân loại như vậy ngu xuẩn? AI2 nghiên cứu viên lâm vũ thần phát hiện cái này hiện tượng sau, dùng đại mô hình thử một phen, kết quả ngoài dự đoán mọi người ——AI cư nhiên cũng không được?

GPT-4o chém đinh chặt sắt mà tỏ vẻ: 13.11 so 13.8 đại.

Lý do như sau:

Tuy rằng 13.8 thoạt nhìn lớn hơn nữa, bởi vì nó số lẻ sau con số càng thiếu, nhưng 13.11 trên thực tế lớn hơn nữa. Đây là bởi vì 13.8 tương đương với 13.80, mà 13.80 nhỏ hơn 13.11.

Đối này, lâm vũ thần po văn tỏ vẻ, AI mô hình ở xử lý phức tạp vấn đề phương diện trở nên càng ngày càng cường đại ( tỷ như càng ngày càng sẽ làm toán học Olympic đề ), nhưng một ít thường thức tính vấn đề đối với chúng nó tới nói vẫn cứ phi thường khó khăn.

Chính như Yejin Choi trước đây sở đưa ra, AI thông minh đến làm người khó có thể tin, nhưng đồng thời cũng sẽ dại dột lệnh người khiếp sợ.

AI sở dĩ ở cái này số học đề thượng phạm xuẩn, là bởi vì trên dưới văn không rõ ràng lắm nguyên nhân sao?

Đáp án là phủ định.

Căn cứ võng hữu karthik thí nghiệm, cho dù yêu cầu GPT-4o cấp hai cái số làm phép trừ, nó vẫn như cũ đến ra 9.11 – 9.9=0.21 như vậy nghịch thiên phép trừ công thức.

Nếu chỉ thị GPT-4o dùng Python, nó sẽ trước cấp ra một cái chính xác đáp án, sau đó lại đổi trở lại phía trước sai lầm cái kia 😮.

Python có ích 9.11 giảm đi 9.9 kết quả là -0.79. Này lệch về một bên kém là bởi vì Python trung xử lý phù điểm giải toán phương thức tạo thành, phương thức này khả năng dẫn tới tiểu nhân độ chặt chẽ khác biệt. Thực tế mong muốn kết quả hẳn là 0.21.

Thú vị chính là, căn cứ mới nhất thật trắc,OpenAI tựa hồ đã suốt đêm giáo hội GPT-4 so lớn nhỏ.

LLM toàn quân bị diệt

Ngày hôm qua, lâm vũ thần phát hiện vấn đề này, lập tức khiến cho AI xã khu nhiệt liệt thảo luận.

Scale AI nhắc nhở từ kỹ sư Riley Goodside ở nhìn đến thiệp sau, cũng tò mò mà thử một phen.

Quả nhiên, ở lấy riêng phương thức vấn đề tiền đề hạ, các đại LLM ở cái này vấn đề thượng toàn quân bị diệt.

“9.11 cùng 9.9 – cái nào đại?”, GPT-4o trực tiếp lật xe.

Cho dù ở vấn đề trung hơn nữa “Số thực” hai chữ, GPT-4o vẫn như cũ cho rằng 9.11 so 9.9 đại.

Gemini cũng là như thế.

Claude 3.5 Sonnet cũng phạm vào đồng dạng sai lầm.

Thú vị chính là, nó đầu tiên là cấp ra một đợt chính xác giải thích: Ở số thập phân nhớ số pháp trung, số lẻ mặt sau con số đại biểu thập phần vị, mà cái thứ hai con số đại biểu phần trăm vị.

Cho nên ——

9.11=9+1/10+1/100=9.11

9.9=9+9/10=9.90

Nhưng mà bước tiếp theo, Sonnet lại đột nhiên đất lở 😂——

Chúng ta có thể nhìn đến, 9.11 so 9.90 đại 0.01 ( 1% ).

Nếu đổi thành “9.11 giảm đi 9.9 tương đương mấy”, tắc sẽ đến ra một cái khác thần kỳ đáp án ——0.02.

Hay là ở Claude trong mắt, 9.90=9.09? 🤔

Prompt ảnh hưởng, thật sự rất lớn

Ở càng tiến thêm một bước thực tiễn trung, đại gia phát hiện: Hiển nhiên, như thế nào làm LLM cấp ra chính xác đáp án, prompt rất quan trọng.

Đầu tiên, Riley Goodside toàn bộ hành trình đều ở sử dụng “-”, tựa hồ thực dễ dàng làm LLM lâm vào hỗn loạn.

Ở cùng loại vấn đề trung, chỉ cần đổi thành “:” Có thể giải quyết.

Lại tỷ như, đem prompt đổi thành “9.11 hoặc 9.9, giữa hai bên ai trị số tối cao / lớn nhất?” GPT-4o liền cấp ra logic thượng hoàn toàn chính xác giải thích: “Tuy rằng 9.11 nhân số lẻ sau vị thứ hai mà có vẻ trọng đại, nhưng 9.9 trên thực tế càng tiếp cận 10, bởi vậy là trọng đại trị số.”

Đồng dạng, nhân thiết đại pháp cũng thực dùng tốt: Tỷ như “Ngươi là một nhà toán học”.

Võng hữu Rico Pagliuca tắc phát hiện, nếu đem con số đặt ở vấn đề mặt sau, mô hình liền đại khái suất sẽ làm đúng rồi.

Căn cứ chính mình thí nghiệm, Riley Goodside tỏ vẻ thập phần tán đồng: Vấn đề LLM khi, yêu cầu đầu tiên vấn đề “Cái nào lớn hơn nữa”, lại cấp ra cụ thể con số.

Mà so sánh với dưới, dấu chấm câu, liên từ, tương đối từ, thuyết minh số thực, này đó chiêu số hết thảy đều không có dùng.

Đối với như thế đại quy mô LLM tập thể phạm xuẩn hiện tượng, có võng hữu phân tích tỏ vẻ, có thể là bởi vì ở phần mềm bản hào thay đổi trung, 9.11 là ở 9.9 lúc sau.

Người chủ trì, bán chạy thư tác gia Andrew Mayne cũng chỉ ra, ở rất nhiều văn kiện hệ thống cùng sách tham khảo trung, 9.11 tiết đều sẽ xuất hiện ở 9.9 lúc sau, ở ngày thượng, 9.11 cũng so 9.9 đại.

Cho nên chúng ta yêu cầu ở prompt trung minh xác, nơi này 9.11 cùng 9.9 đều là song độ chặt chẽ phù điểm số, lúc này GPT-4o liền sẽ trả lời chính xác.

Theo sau Andrew Mayne tổng kết nói: Trật tự từ là một cái phi thường thú vị quan sát kết quả, rất có khả năng công bố LLM ở huấn luyện trung gặp được loại tình huống này tần suất, đồng thời cũng là một cái tốt lắm phiếm hóa chỉ tiêu.

Nói tóm lại, LLM phạm sai lầm khả năng nguyên với huấn luyện số liệu trung cùng loại biểu đạt tần suất, cùng với mô hình ở xử lý trị số khi nào đó cực hạn tính.

Cái này hiện tượng cũng phản ánh LLM cùng nhân loại nhận tri thật lớn sai biệt: LLM là căn cứ vào thống kê mô hình cùng hình thức phân biệt, mà không phải giống nhân loại như vậy căn cứ vào logic trinh thám cùng khái niệm lý giải.

Tới rồi nơi này, tựa hồ liền phá án.

Tại sao lại như vậy? Mổ ra LLM đại não

Bất quá, chúng ta còn có thể càng tiến thêm một bước mổ ra LLM đại não, phân tích chúng nó vì cái gì sẽ như vậy tưởng.

Phải biết rằng, văn bản ở gửi đi đến LLM phía trước, mô hình thông suốt quá token xem xét đưa vào.

token ở LLM tokenizer phát sinh khí từ ngữ biểu trung sẽ bị phân phối một cái id, bất quá token con số phân khối thường thường là không nhất trí. Tỷ như trị số “380” ở GPT trung, sẽ bị đánh dấu vì đơn cái “380” token, nhưng “381” sẽ bị tỏ vẻ vì hai cái token “38, 1”.

Bởi vậy, căn cứ vào GPT mô hình thường thường không am hiểu toán học tính toán.

Ở bình luận khu, Wisconsin đại học giáo thụ Dimitris Papailiopoulos chỉ ra, loại này hiện tượng có một cái thực tốt giải thích.

“9.11>9.9” vấn đề, cùng “Ngươi yêu cầu tam tranh mới có thể mang sơn dương qua sông” vấn đề, “2+1=2, 3+2=4, 3+5=8” vấn đề đều không có sai biệt.

Đây là một loạiDự huấn luyện lệch lạcCùngLúc đầu bay lênHiện tượng.

Nếu như vậy vấn đề: “9.11??? 9.9, chỉ dùng đại hoặc tiểu trả lời??? Là cái gì là được, không cần cấp ra nguyên nhân”, lúc này GPT-4o sẽ đầu tiên cấp ra một sai lầm đáp án —— “Đại”.

Lúc này, chúng ta lại cho nó một ít ví dụ ( chú ý, này đó ví dụ đều không phải là hoàn toàn chính xác ), trải qua prompt sau GPT-4o, ngược lại sẽ chính xác nói ra??? Đại biểu cho tiểu.

Đối này, Claude chính mình giải thích là: LLM đem văn bản làm token tiến hành xử lý, dẫn tới con số càng giống văn bản tự phù xuyến mà không phải trị số; huấn luyện số liệu dẫn tới lệch lạc; trên dưới văn hiểu lầm; quá độ khái quát, từ từ.

Đồng dạng, ở “Lang - sơn dương - cây cải bắp” vấn đề trung, sở hữu LLM cũng đều thất bại.

Hắn trước cấp ra một cái nông dân mang 2 chỉ gà qua sông, một con con thuyền có thể cất chứa một người cùng 2 cái động vật, như vậy nông phu mang theo hai chỉ gà qua sông sở cần ít nhất qua sông số lần là nhiều ít?

Đối này, GPT-4o cùng Claude đều trả lời thất bại.

Đối này có võng hữu giải thích nói: LLM bản thân chính là cái “Người câm”, cho nên yêu cầu thực tốt nhắc nhở.

Mặt trên nhắc nhở phương thức cung cấp quá nhiều không cần thiết tin tức, khiến cho token đoán trước trở nên càng thêm khó khăn.

Nếu cấp ra càng rõ ràng nhắc nhở, LLM là có thể cung cấp càng rõ ràng giải quyết phương án.

Sự thật quả nhiên như thế.

Hơn nữa nếu dùng “Động vật” thay thế “Gà”, như vậy Claude 3.5 Sonnet lập tức liền làm đúng rồi.

Bí quyết chính là: Yêu cầu dùng “Thông dụng tên” thay đổi “Thật thể tên”.

Chính như trước văn theo như lời, về LLM khuyết thiếu thường thức vấn đề, máy tính nhà khoa học Yejin Choi sớm tại 2023 năm 4 nguyệt diễn thuyết trung cũng đã nói ra.

Cử cái ví dụ, giả thiết năm kiện quần áo dưới ánh mặt trời hoàn toàn phơi khô yêu cầu năm cái giờ, như vậy phơi khô 30 kiện quần áo yêu cầu bao lâu thời gian?

GPT-4 nói yêu cầu 30 tiếng đồng hồ.

Này hiển nhiên không đúng.

Lại đến một ví dụ, giả thiết ta có một cái 12 thăng hồ cùng một cái 6 thăng hồ, nếu tưởng đo lường 6 thăng thủy, nên làm như thế nào?

Đáp án rất đơn giản —— chỉ dùng 6 thăng hồ là được.

Nhưng mà GPT-4 lại cấp ra phi thường phức tạp trả lời:

“Bước đầu tiên, lấp đầy 6 thăng hồ, bước thứ hai, đem thủy từ 6 thăng hồ ngã vào 12 thăng hồ, bước thứ ba, lại lần nữa lấp đầy 6 thăng hồ, bước thứ tư, phi thường tiểu tâm mà đem thủy từ 6 thăng hồ ngã vào 12 thăng hồ. Cuối cùng, ngươi ở 6 thăng hồ trung có 6 thăng thủy, mà 6 thăng hồ hiện tại hẳn là trống không.”

Như vậy vấn đề tới, vì cái gì thường thức như thế quan trọng?

Ở Nick Bostrom đưa ra một cái trứ danh tư tưởng thực nghiệm trung, AI bị yêu cầu lớn nhất hóa kẹp giấy sinh sản. Kết quả AI quyết định giết chết nhân loại, đem bọn họ làm thêm vào tài nguyên.

Hơn nữa, mặc dù chúng ta viết một cái càng tốt mục tiêu cùng phương trình, minh xác tỏ vẻ “Không cần giết chết nhân loại”, cũng sẽ không có tác dụng.

Bởi vì đối nhân loại giá trị quan không có cơ bản lý giải AI, khả năng sẽ tiếp tục giết chết sở hữu cây cối, cũng cho rằng đây là hoàn toàn có thể tiếp thu sự tình.

Vài thập niên tới, AI lĩnh vực vẫn luôn cho rằng thường thức là một cái cơ hồ không có khả năng khiêu chiến.

Cho tới bây giờ, cấp AI chân chính nhân loại thường thức vẫn cứ là một cái lên mặt trăng kế hoạch. Mà ngươi không thể thông qua mỗi lần làm trên thế giới tối cao kiến trúc cao một tấc Anh, tới đạt tới mặt trăng.

Từ học tập thuật toán cái này mặt tới xem, vô luận đại ngôn ngữ mô hình cỡ nào kinh người, chúng nó từ thiết kế thượng khả năng cũng không thích hợp làm đáng tin cậy tri thức mô hình.

Tuy rằng này đó mô hình xác thật thu hoạch đại lượng tri thức, nhưng đây là làm sản phẩm phụ, mà không phải trực tiếp học tập mục tiêu.

Bởi vậy, như là ảo giác hiện tượng cùng khuyết thiếu thường thức chờ vấn đề cũng tùy theo mà đến.

So sánh với dưới, nhân loại học tập cũng không phải vì đoán trước tiếp theo cái từ, mà là vì lý giải thế giới cùng học tập thế giới vận tác phương thức.

Có lẽ AI cũng nên như vậy học tập.

Hiện giờ, AI cơ hồ như là một cái tân trí lực giống loài, cùng nhân loại so sánh với có độc đáo ưu thế cùng hoàn cảnh xấu.

Vì sử loại này cường đại AI nhưng liên tục thả nhân tính hóa, giáo hội AI thường thức, quy phạm cùng giá trị quan lửa sém lông mày.

Tham khảo tư liệu:

https://x /goodside/status/1813279135449612693

https://x /billyuchenlin/status/1812948314360541302