“13.11>13.8” xông lên hot search, một đạo đề làm nhân loại AI tập thể hàng trí? Sở hữu LLM trí mạng khuyết điểm cho hấp thụ ánh sáng

“13.11>13.8” xông lên hot search, một đạo đề làm nhân loại AI tập thể hàng trí? Sở hữu LLM trí mạng khuyết điểm cho hấp thụ ánh sáng
2024 năm 07 nguyệt 18 ngày 07:46 Mỗi người đều là sản phẩm giám đốc

13.8 cùng 13.11 cái nào đại? Vấn đề này không riêng làm khó bộ phận nhân loại, còn làm một phiếu đại mô hình chiết kích. AI hiện giờ đều có thể làm AI Olympic Toán đề, nhưng đơn giản thường thức vấn đề đối chúng nó vẫn như cũ khó như lên trời. Kỳ thật, vô luận là so lớn nhỏ, vẫn là cây cải bắp nan đề, đều công bố LLM ở token đoán trước thượng một cái trọng đại khuyết tật.

———— / BEGIN / ———

13.8 cùng 13.11 cái nào đại?

Vấn đề này, cư nhiên làm khó một phiếu nhân loại.

Trước hai ngày, mỗ nổi danh tổng nghệ lại lần nữa hỉ đề hot search.

Chẳng qua, lần này là bởi vì có một đống võng hữu đưa ra nghi ngờ, cho rằng 13.11% hẳn là so 13.8% đại.

Là chỉ có nhân loại như vậy ngu xuẩn? AI2 nghiên cứu viên lâm vũ thần phát hiện cái này hiện tượng sau, dùng đại mô hình thử một phen, kết quả ngoài dự đoán mọi người ——AI cư nhiên cũng không được?

GPT-4o chém đinh chặt sắt mà tỏ vẻ: 13.11 so 13.8 đại.

Lý do như sau:

Tuy rằng 13.8 thoạt nhìn lớn hơn nữa, bởi vì nó số lẻ sau con số càng thiếu, nhưng 13.11 trên thực tế lớn hơn nữa. Đây là bởi vì 13.8 tương đương với 13.80, mà 13.80 nhỏ hơn 13.11.

Đối này, lâm vũ thần po văn tỏ vẻ, AI mô hình ở xử lý phức tạp vấn đề phương diện trở nên càng ngày càng cường đại ( tỷ như càng ngày càng sẽ làm toán học Olympic đề ), nhưng một ít thường thức tính vấn đề đối với chúng nó tới nói vẫn cứ phi thường khó khăn.

Chính như Yejin Choi trước đây sở đưa ra, AI thông minh đến làm người khó có thể tin, nhưng đồng thời cũng sẽ dại dột lệnh người khiếp sợ.

AI sở dĩ ở cái này số học đề thượng phạm xuẩn, là bởi vì trên dưới văn không rõ ràng lắm nguyên nhân sao?

Đáp án là phủ định.

Căn cứ võng hữu karthik thí nghiệm, cho dù yêu cầu GPT-4o cấp hai cái số làm phép trừ, nó vẫn như cũ đến ra 9.11 – 9.9=0.21 như vậy nghịch thiên phép trừ công thức.

Nếu chỉ thị GPT-4o dùng Python, nó sẽ trước cấp ra một cái chính xác đáp án, sau đó lại đổi trở lại phía trước sai lầm cái kia 😮.

Python có ích 9.11 giảm đi 9.9 kết quả là -0.79. Này lệch về một bên kém là bởi vì Python trung xử lý phù điểm giải toán phương thức tạo thành, phương thức này khả năng dẫn tới tiểu nhân độ chặt chẽ khác biệt. Thực tế mong muốn kết quả hẳn là 0.21.

Thú vị chính là, căn cứ mới nhất thật trắc,OpenAI tựa hồ đã suốt đêm giáo hội GPT-4 so lớn nhỏ.

LLM toàn quân bị diệt

Ngày hôm qua, lâm vũ thần phát hiện vấn đề này, lập tức khiến cho AI xã khu nhiệt liệt thảo luận.

Scale AI nhắc nhở từ kỹ sư Riley Goodside ở nhìn đến thiệp sau, cũng tò mò mà thử một phen.

Quả nhiên, ở lấy riêng phương thức vấn đề tiền đề hạ, các đại LLM ở cái này vấn đề thượng toàn quân bị diệt.

“9.11 cùng 9.9 – cái nào đại?”, GPT-4o trực tiếp lật xe.

Cho dù ở vấn đề trung hơn nữa “Số thực” hai chữ, GPT-4o vẫn như cũ cho rằng 9.11 so 9.9 đại.

Gemini cũng là như thế.

Claude 3.5 Sonnet cũng phạm vào đồng dạng sai lầm.

Thú vị chính là, nó đầu tiên là cấp ra một đợt chính xác giải thích: Ở số thập phân nhớ số pháp trung, số lẻ mặt sau con số đại biểu thập phần vị, mà cái thứ hai con số đại biểu phần trăm vị.

Cho nên ——

9.11=9+1/10+1/100=9.11

9.9=9+9/10=9.90

Nhưng mà bước tiếp theo, Sonnet lại đột nhiên đất lở 😂——

Chúng ta có thể nhìn đến, 9.11 so 9.90 đại 0.01 ( 1% ).

Nếu đổi thành “9.11 giảm đi 9.9 tương đương mấy”, tắc sẽ đến ra một cái khác thần kỳ đáp án ——0.02.

Hay là ở Claude trong mắt, 9.90=9.09? 🤔

Prompt ảnh hưởng, thật sự rất lớn

Ở càng tiến thêm một bước thực tiễn trung, đại gia phát hiện: Hiển nhiên, như thế nào làm LLM cấp ra chính xác đáp án, prompt rất quan trọng.

Đầu tiên, Riley Goodside toàn bộ hành trình đều ở sử dụng “-”, tựa hồ thực dễ dàng làm LLM lâm vào hỗn loạn.

Ở cùng loại vấn đề trung, chỉ cần đổi thành “:” Có thể giải quyết.

Lại tỷ như, đem prompt đổi thành “9.11 hoặc 9.9, giữa hai bên ai trị số tối cao / lớn nhất?” GPT-4o liền cấp ra logic thượng hoàn toàn chính xác giải thích: “Tuy rằng 9.11 nhân số lẻ sau vị thứ hai mà có vẻ trọng đại, nhưng 9.9 trên thực tế càng tiếp cận 10, bởi vậy là trọng đại trị số.”

Đồng dạng, nhân thiết đại pháp cũng thực dùng tốt: Tỷ như “Ngươi là một nhà toán học”.

Võng hữu Rico Pagliuca tắc phát hiện, nếu đem con số đặt ở vấn đề mặt sau, mô hình liền đại khái suất sẽ làm đúng rồi.

Căn cứ chính mình thí nghiệm, Riley Goodside tỏ vẻ thập phần tán đồng: Vấn đề LLM khi, yêu cầu đầu tiên vấn đề “Cái nào lớn hơn nữa”, lại cấp ra cụ thể con số.

Mà so sánh với dưới, dấu chấm câu, liên từ, tương đối từ, thuyết minh số thực, này đó chiêu số hết thảy đều không có dùng.

Đối với như thế đại quy mô LLM tập thể phạm xuẩn hiện tượng, có võng hữu phân tích tỏ vẻ, có thể là bởi vì ở phần mềm bản hào thay đổi trung, 9.11 là ở 9.9 lúc sau.

Người chủ trì, bán chạy thư tác gia Andrew Mayne cũng chỉ ra, ở rất nhiều văn kiện hệ thống cùng sách tham khảo trung, 9.11 tiết đều sẽ xuất hiện ở 9.9 lúc sau, ở ngày thượng, 9.11 cũng so 9.9 đại.

Cho nên chúng ta yêu cầu ở prompt trung minh xác, nơi này 9.11 cùng 9.9 đều là song độ chặt chẽ phù điểm số, lúc này GPT-4o liền sẽ trả lời chính xác.

Theo sau Andrew Mayne tổng kết nói: Trật tự từ là một cái phi thường thú vị quan sát kết quả, rất có khả năng công bố LLM ở huấn luyện trung gặp được loại tình huống này tần suất, đồng thời cũng là một cái tốt lắm phiếm hóa chỉ tiêu.

Nói tóm lại, LLM phạm sai lầm khả năng nguyên với huấn luyện số liệu trung cùng loại biểu đạt tần suất, cùng với mô hình ở xử lý trị số khi nào đó cực hạn tính.

Cái này hiện tượng cũng phản ánh LLM cùng nhân loại nhận tri thật lớn sai biệt: LLM là căn cứ vào thống kê mô hình cùng hình thức phân biệt, mà không phải giống nhân loại như vậy căn cứ vào logic trinh thám cùng khái niệm lý giải.

Tới rồi nơi này, tựa hồ liền phá án.

Tại sao lại như vậy? Mổ ra LLM đại não

Bất quá, chúng ta còn có thể càng tiến thêm một bước mổ ra LLM đại não, phân tích chúng nó vì cái gì sẽ như vậy tưởng.

Phải biết rằng, văn bản ở gửi đi đến LLM phía trước, mô hình thông suốt quá token xem xét đưa vào.

token ở LLM tokenizer phát sinh khí từ ngữ biểu trung sẽ bị phân phối một cái id, bất quá token con số phân khối thường thường là không nhất trí. Tỷ như trị số “380” ở GPT trung, sẽ bị đánh dấu vì đơn cái “380” token, nhưng “381” sẽ bị tỏ vẻ vì hai cái token “38, 1”.

Bởi vậy, căn cứ vào GPT mô hình thường thường không am hiểu toán học tính toán.

Ở bình luận khu, Wisconsin đại học giáo thụ Dimitris Papailiopoulos chỉ ra, loại này hiện tượng có một cái thực tốt giải thích.

“9.11>9.9” vấn đề, cùng “Ngươi yêu cầu tam tranh mới có thể mang sơn dương qua sông” vấn đề, “2+1=2, 3+2=4, 3+5=8” vấn đề đều không có sai biệt.

Đây là một loạiDự huấn luyện lệch lạcCùngLúc đầu bay lênHiện tượng.

Nếu như vậy vấn đề: “9.11??? 9.9, chỉ dùng đại hoặc tiểu trả lời??? Là cái gì là được, không cần cấp ra nguyên nhân”, lúc này GPT-4o sẽ đầu tiên cấp ra một sai lầm đáp án —— “Đại”.

Lúc này, chúng ta lại cho nó một ít ví dụ ( chú ý, này đó ví dụ đều không phải là hoàn toàn chính xác ), trải qua prompt sau GPT-4o, ngược lại sẽ chính xác nói ra??? Đại biểu cho tiểu.

Đối này, Claude chính mình giải thích là: LLM đem văn bản làm token tiến hành xử lý, dẫn tới con số càng giống văn bản tự phù xuyến mà không phải trị số; huấn luyện số liệu dẫn tới lệch lạc; trên dưới văn hiểu lầm; quá độ khái quát, từ từ.

Đồng dạng, ở “Lang - sơn dương - cây cải bắp” vấn đề trung, sở hữu LLM cũng đều thất bại.

Hắn trước cấp ra một cái nông dân mang 2 chỉ gà qua sông, một con con thuyền có thể cất chứa một người cùng 2 cái động vật, như vậy nông phu mang theo hai chỉ gà qua sông sở cần ít nhất qua sông số lần là nhiều ít?

Đối này, GPT-4o cùng Claude đều trả lời thất bại.

Đối này có võng hữu giải thích nói: LLM bản thân chính là cái “Người câm”, cho nên yêu cầu thực tốt nhắc nhở.

Mặt trên nhắc nhở phương thức cung cấp quá nhiều không cần thiết tin tức, khiến cho token đoán trước trở nên càng thêm khó khăn.

Nếu cấp ra càng rõ ràng nhắc nhở, LLM là có thể cung cấp càng rõ ràng giải quyết phương án.

Sự thật quả nhiên như thế.

Hơn nữa nếu dùng “Động vật” thay thế “Gà”, như vậy Claude 3.5 Sonnet lập tức liền làm đúng rồi.

Bí quyết chính là: Yêu cầu dùng “Thông dụng tên” thay đổi “Thật thể tên”.

Chính như trước văn theo như lời, về LLM khuyết thiếu thường thức vấn đề, máy tính nhà khoa học Yejin Choi sớm tại 2023 năm 4 nguyệt diễn thuyết trung cũng đã nói ra.

Cử cái ví dụ, giả thiết năm kiện quần áo dưới ánh mặt trời hoàn toàn phơi khô yêu cầu năm cái giờ, như vậy phơi khô 30 kiện quần áo yêu cầu bao lâu thời gian?

GPT-4 nói yêu cầu 30 tiếng đồng hồ.

Này hiển nhiên không đúng.

Lại đến một ví dụ, giả thiết ta có một cái 12 thăng hồ cùng một cái 6 thăng hồ, nếu tưởng đo lường 6 thăng thủy, nên làm như thế nào?

Đáp án rất đơn giản —— chỉ dùng 6 thăng hồ là được.

Nhưng mà GPT-4 lại cấp ra phi thường phức tạp trả lời:

“Bước đầu tiên, lấp đầy 6 thăng hồ, bước thứ hai, đem thủy từ 6 thăng hồ ngã vào 12 thăng hồ, bước thứ ba, lại lần nữa lấp đầy 6 thăng hồ, bước thứ tư, phi thường tiểu tâm mà đem thủy từ 6 thăng hồ ngã vào 12 thăng hồ. Cuối cùng, ngươi ở 6 thăng hồ trung có 6 thăng thủy, mà 6 thăng hồ hiện tại hẳn là trống không.”

Như vậy vấn đề tới, vì cái gì thường thức như thế quan trọng?

Ở Nick Bostrom đưa ra một cái trứ danh tư tưởng thực nghiệm trung, AI bị yêu cầu lớn nhất hóa kẹp giấy sinh sản. Kết quả AI quyết định giết chết nhân loại, đem bọn họ làm thêm vào tài nguyên.

Hơn nữa, mặc dù chúng ta viết một cái càng tốt mục tiêu cùng phương trình, minh xác tỏ vẻ “Không cần giết chết nhân loại”, cũng sẽ không có tác dụng.

Bởi vì đối nhân loại giá trị quan không có cơ bản lý giải AI, khả năng sẽ tiếp tục giết chết sở hữu cây cối, cũng cho rằng đây là hoàn toàn có thể tiếp thu sự tình.

Vài thập niên tới, AI lĩnh vực vẫn luôn cho rằng thường thức là một cái cơ hồ không có khả năng khiêu chiến.

Cho tới bây giờ, cấp AI chân chính nhân loại thường thức vẫn cứ là một cái lên mặt trăng kế hoạch. Mà ngươi không thể thông qua mỗi lần làm trên thế giới tối cao kiến trúc cao một tấc Anh, tới đạt tới mặt trăng.

Từ học tập thuật toán cái này mặt tới xem, vô luận đại ngôn ngữ mô hình cỡ nào kinh người, chúng nó từ thiết kế thượng khả năng cũng không thích hợp làm đáng tin cậy tri thức mô hình.

Tuy rằng này đó mô hình xác thật thu hoạch đại lượng tri thức, nhưng đây là làm sản phẩm phụ, mà không phải trực tiếp học tập mục tiêu.

Bởi vậy, như là ảo giác hiện tượng cùng khuyết thiếu thường thức chờ vấn đề cũng tùy theo mà đến.

So sánh với dưới, nhân loại học tập cũng không phải vì đoán trước tiếp theo cái từ, mà là vì lý giải thế giới cùng học tập thế giới vận tác phương thức.

Có lẽ AI cũng nên như vậy học tập.

Hiện giờ, AI cơ hồ như là một cái tân trí lực giống loài, cùng nhân loại so sánh với có độc đáo ưu thế cùng hoàn cảnh xấu.

Vì sử loại này cường đại AI nhưng liên tục thả nhân tính hóa, giáo hội AI thường thức, quy phạm cùng giá trị quan lửa sém lông mày.

Tham khảo tư liệu:

https://x /goodside/status/1813279135449612693

https://x /billyuchenlin/status/1812948314360541302

Rộng lượng tin tức, tinh chuẩn giải đọc, đều ở tân lãng kinh tế tài chính APP
Sơn dương

VIP chương trình học đề cử

Đang download...

APP chuyên hưởng phát sóng trực tiếp

1/10

Đứng đầu đề cử

Thu hồi
新浪财经公众号
Tân lãng kinh tế tài chính công chúng hào

24 giờ lăn lộn bá báo mới nhất kinh tế tài chính tin tức cùng video, càng nhiều fans phúc lợi rà quét mã QR chú ý ( sinafinance )

Thị trường chứng khoán phát sóng trực tiếp

  • Đồ văn phòng phát sóng trực tiếp
  • Video phòng phát sóng trực tiếp
  • 01/Bộ phận sản phẩm thành lập tới nay năm hóa đạt 4.79%, cá nhân tiền dưỡng lão quản lý tài sản lại lần nữa nếm thử “Hàm quyền” sản phẩm
  • 02/“Thẻ ngân hàng chuyển khoản hạn ngạch bị hàng đến 500 nguyên!” Nhiều gia ngân hàng đáp lại
  • 03/Giám đốc chi nhánh cũng tưởng chuyển cương! Nông thôn trung tiểu cơ quan tài chính gồm thâu trọng tổ “Mau vào”: Nhiệm vụ càng ngày càng nặng, khảo hạch chu chu bình xét
  • 04/Tân thời đại ủy thác người mua trồi lên mặt nước? Ít nhất tam gia cả nước tính ngân hàng từng tham gia đàm phán, hoa lạc nhà ai cũng còn chưa biết
  • 05/Ương hành danh tác thả xuống bảo trì lưu động tính hợp lý đầy đủ
  • 06/Chiêu bạc quản lý tài sản ngải ni đã nhậm đảng uỷ ủy viên nghĩ đề bạt thủ tịch hợp quy quan
  • 07/Thượng Hải tài chính cùng phát triển phòng thí nghiệm chu quỳnh: Trên diện rộng hạ thấp chính sách lãi suất đều không phải là giải quyết chi đạo thấp danh nghĩa lãi suất hạ lãi suất chuyến về không gian hữu hạn
  • 08/“Khí cầu thải”, “Nhẹ nhàng cung”…… Ngân hàng thượng tân phòng thải sản phẩm, giám thị nguy hiểm nhắc nhở tới
  • 09/Ương hành thực thi kếch xù tịnh thả xuống, nghịch hồi mua công cụ địa vị tăng lên
  • 10/Ngàn cường ngân hàng 4 tỉnh chiếm so gần nửa Chiết Giang cư đầu, Sơn Đông thượng bảng nhiều nhưng xếp hạng dựa sau
  • 7X 24 giờ

    Giao dịch nhắc nhở Thao bàn tất đọc Chứng khoán báo Mới nhất thông cáo Hạn bán bỏ lệnh cấm Số liệu trung tâm Điều kiện tuyển cổ Khoán thương bình xét cấp bậc Giá cổ phiếu đoán trước Bản khối giá thị trường Ngàn cổ ngàn bình Cái cổ chẩn bệnh Đại tông giao dịch Tài báo tuần tra Công trạng báo trước ETF kỳ quyền Loại ngạch trống bảo Quỹ giá trị thực Quỹ đối lập Quỹ xếp hạngThương phẩm giá thị trường Ngoại bàn kỳ hạn giao hàng Thương phẩm cầm thương Hàng hiện có báo giá CFTC cầm thương Kỳ chỉ giá thị trường Kỳ chỉ cầm thương Kỳ chỉ nghiên cứu Ngành sản xuất chỉ số Quyền trọng cổ phiếu Kỳ hạn giao hàng danh nhân Chuyên gia ngồi công đường Cao thanh giải bàn Kỳ hạn giao hàng nhập môn Các quốc gia quốc trái Kỳ thị tin tức quan trọng Kỳ hạn giao hàng nghiên cứu Cơ cấu bình luận Chủng loại bách khoa toàn thưNgoại hối tính toán khí Nhân dân tệ giá quy định Trung gian giới Đôla chỉ số Thẳng bàn giá thị trường Sở hữu giá thị trường Đôla tương quan Nhân dân tệ tương quan Giao nhau bàn Mượn tạm lãi suất Tiền phân tích Cơ cấu quan điểm Kinh tế số liệu Chuyên gia ngồi công đường Phân tích sư vòng Quốc trái tiền lời suất Toàn cầu lăn lộn CFTC cầm thương BitcoinNgoại hối tính toán khí Hoàng kim tin tức Bạc trắng phân tích Vật thật kim giới ETF cầm thương Hoàng kim TD Bạc trắng TD Vàng bạc tệ Chuyên gia ngồi công đường Cơ sở tri thức Hàng hiện có hoàng kim Hàng hiện có bạc trắng Hàng hiện có bạch kim Hàng hiện có ba kim Cao thanh giải bàn Hoàng kim điBạc trắng đi Hoàng kim phân tích CFTC cầm thương
  • 07-26 Long đồ màn hào quang 688721 --
  • 07-23 Bác thật kết 301608 --
  • 07-22 Lực tụ nhiệt năng 603391 --
  • 07-15 Lục liên khoa học kỹ thuật 301606 21.21
  • 07-11 Khoa lực trang bị 301552 30
  • Tân lãng trang đầu Giọng nói bá báo Tương quan tin tức Phản hồi đỉnh chóp