Cảnh giác Hugging Face khai nguyên lắp ráp nguy hiểm bị lợi dụng với đại mô hình cung ứng liên công kích - blog - Đằng Tấn an toàn khẩn cấp hưởng ứng trung tâm

Tác giả: Đằng Tấn Chu Tước phòng thí nghiệm Alien, Nicky

Lời dẫn đầu

Ngày gần đây, Đằng Tấn Chu Tước phòng thí nghiệm phát hiện trứ danh AI xã khu Hugging Face khai nguyên lắp ráp datasets không an toàn “Đặc tính” sẽ dẫn phát cung ứng liên cửa sau đầu độc công kích nguy hiểm, AI khai phá giả sử dụng nên lắp ráp thêm tái công kích giả cấu tạo bao hàm ác ý số hiệu số liệu tập khi, sẽ dẫn tới PC/ server bị xâm lấn, đồng thời ở đại mô hình dự huấn luyện, hơi điều chờ cảnh tượng trung, cuối cùng còn khả năng dẫn tới đại mô hình tham số bị đánh cắp hoặc bóp méo.

Chu Tước tại đây kiến nghị đại gia kịp thời bài tra, đồng thời cũng đem liên tục tiến hành đại mô hình cơ sở phương tiện an toàn nghiên cứu, chia sẻ đoàn đội ở đại mô hình thời đại hạ đối với tuyến đầu an toàn công phòng kỹ thuật tự hỏi cùng thực tiễn, bảo đảm đại mô hình an toàn, đáng tin cậy mà rơi xuống đất ứng dụng, cùng ngành sản xuất cộng đồng tăng lên đại mô hình sinh thái an toàn tính.

Về Hugging Face

Làm “AI lĩnh vực GitHub “, toàn cầu nhất cụ lực ảnh hưởng AI khai nguyên xã khu, Hugging Face cung cấp đại lượng cao chất lượng khai nguyên mô hình, số liệu tập cùng với AI ứng dụng uỷ trị phục vụ, cực đại mà hạ thấp AI kỹ thuật ngạch cửa, nên tổ chức khai nguyên transformers, datasets chờ lắp ráp cũng ở AI lĩnh vực bị rộng khắp sử dụng.

Trong đó, datasets lắp ráp (https://github /huggingface/datasets) vì quảng đại khai phá giả cung cấp một loại hiệu suất cao, dễ dàng sử dụng phương pháp tới xử lý các loại số liệu tập, có thể càng thoải mái mà huấn luyện cùng hơi điều AI mô hình, ở Github thượng có 17k+ Star, là trước mắt nhất lưu hành AI số liệu tập khai nguyên lắp ráp. Ngoài ra hết hạn 2023 năm 10 nguyệt, Hugging Face ngôi cao uỷ trị 73763 cái công khai số liệu tập cung khai phá giả sử dụng, khai phá giả có thể sử dụng datasets trực tiếp thêm tái ngôi cao sở hữu công khai số liệu tập.

Đồ 1, Hugging Face số liệu tập uỷ trị phục vụ

Datasets lắp ráp không an toàn đặc tính

Chu Tước ở đối datasets chờ AI khai nguyên lắp ráp tiến hành an toàn nghiên cứu khi phát hiện, khai phá giả thông thường sẽ sử dụng datasets lắp ráp load_dataset hàm số thêm tái số liệu tập, vì suy xét duy trì càng phức tạp số liệu xử lý cách thức hoặc lưu trình, đương thêm tái số liệu tập hạ bao hàm có cùng số liệu tập cùng tên Python kịch bản gốc khi, sẽ cam chịu vận hành nên kịch bản gốc.

Đồ 2, Datasets phía chính phủ sử dụng hồ sơ

Bởi vì Hugging Face ngôi cao thượng số liệu tập đều từ người dùng thượng truyền, nếu số liệu tập trung Python kịch bản gốc bao hàm ác ý hành vi, như vậy sẽ tạo thành nghiêm trọng an toàn nguy hiểm, như sau đồ sở kỳ, công kích giả cấu tạo ác ý kịch bản gốc sẽ chủ động liên tiếp công kích giả server, cũng chờ đợi công kích giả hạ phát chấp hành hệ thống mệnh lệnh, cuối cùng đánh cắp người bị hại server thượng mẫn cảm số liệu.

Đồ 3, Datasets thêm tái ác ý số liệu tập nguy hiểm

Không an toàn đặc tính nhưng bị lợi dụng với cung ứng liên công kích

Lợi dụng nên đặc tính, công kích giả nhưng thông qua ở Hugging Face, Github cùng mặt khác con đường phân phát bao hàm ác ý cửa sau số hiệu số liệu tập, đương khai phá giả thông qua datasets lắp ráp thêm tái ác ý số liệu tập tiến hành huấn luyện hoặc hơi điều khi, số liệu tập ác ý cửa sau số hiệu sẽ vận hành, do đó dẫn tới AI mô hình, số liệu tập, số hiệu bị trộm hoặc bị ác ý bóp méo.

Công kích lưu trình như sau đồ sở kỳ:

Đồ 4, ác ý số liệu tập công kích lưu trình

Làm AI lĩnh vực cơ sở kho, datasets có được rất lớn download lượng, căn cứ pypistats trang web thống kê, gần nhất một ngày download lượng gần 10 vạn. Một khi có ác ý số liệu tập ở trên mạng bị phạm vi lớn truyền bá cùng sử dụng, sẽ có đại lượng khai phá giả gặp loại này cung ứng liên cửa sau đầu độc công kích.

Đồ 5, Datasets download lượng thống kê ( pypistats )

Nhà máy hiệu buôn giảm bớt thi thố

Kinh cùng Hugging Face phía chính phủ câu thông, nhà máy hiệu buôn cho rằng datasets lắp ráp cam chịu vận hành số liệu tập nội Python kịch bản gốc thuộc về bình thường đặc tính, tỏ vẻ đã ở GitHub khai nguyên hạng mục trung đã làm miễn trách thanh minh.

Đồ 6, Hugging Face datasets miễn trách thanh minh

Chu Tước tiến thêm một bước nghiên cứu phát hiện, tương đồng nguy hiểm tồn tại với Hugging Face phía chính phủ ngôi cao sở sử dụng datasets-server (https://github /huggingface/datasets-server) lắp ráp trung, nên lắp ráp chủ yếu dùng cho đối ngoại cung cấp số liệu tập uỷ trị phục vụ, nhưng dẫn tới Hugging Face ngôi cao tự thân bị công kích.

2023 năm 10 nguyệt 20 ngày, Hugging Face xác nhận cũng chữa trị Chu Tước báo cáo datasets-server lắp ráp lỗ hổng, cũng bình xét cấp bậc vì nghiêm trọng ( CVSS cho điểm 9.6 ). Đồng thời, Chu Tước cũng cấp phía chính phủ cung cấp tường tận an toàn chữa trị kiến nghị, phía chính phủ cuối cùng lựa chọn ở ngôi cao thượng đối sở hữu khả năng tồn tại nguy hiểm số liệu tập làm ra tiến thêm một bước an toàn nguy hiểm nhắc nhở.

Đồ 7, Dataset Viewer nguy hiểm nhắc nhở

An toàn kiến nghị

Chúng ta cho rằng, theo đại mô hình càng ngày càng phổ cập, trong tương lai một đoạn thời gian, ác ý số liệu tập hoặc sẽ trở thành APT tổ chức hoặc hacker công kích vũ khí sắc bén, trừ bỏ Hugging Face, mặt khác phần ngoài nơi phát ra ( như Github ), thậm chí bản địa số liệu tập cũng cần AI cùng đại mô hình khai phá giả nhóm độ cao cảnh giác.

Vì tiến thêm một bước bảo đảm nghiệp vụ an toàn, Chu Tước kiến nghị nhưng áp dụng dưới thi thố:

1, sử dụng datasets-server làm phục vụ đoan lắp ráp khai phá giả hoặc đoàn đội, thỉnh kịp thời đổi mới đến bao hàm dưới commit phiên bản ( c8f45f858ca71c2e66782c672bfbaa8d965eab02 ).

2, đối với sử dụng datasets lắp ráp quảng đại xã khu khai phá giả hoặc đoàn đội, thỉnh bảo đảm số liệu tập nơi phát ra có thể tin, kiểm tra số liệu tập kịch bản gốc trung hay không tồn tại ác ý Python số hiệu, cẩn thận sử dụng ở Hugging Face thượng bị nhắc nhở tồn tại an toàn nguy hiểm số liệu tập.

Làm Đằng Tấn an toàn đoàn đội một viên, Chu Tước phòng thí nghiệm đem liên tục chú ý đại mô hình nguyên sinh an toàn ( prompt bình trắc, vượt ngục công kích, đối kháng công kích chờ ), cơ sở an toàn ( hồng lam đối kháng diễn luyện, lỗ hổng bình trắc, cơ sở phương tiện an toàn nghiên cứu ) cập đại mô hình phú có thể nghiên cứu phát minh an toàn chờ lĩnh vực, hoan nghênh đại gia cùng nhau giao lưu tham thảo, cộng đồng tiến bộ.