Cơ khí chi tâm báo đạo
Biên tập: Trần trần, tiểu chu
740 TFLOPS! Hất kim tối cường FlashAttention lai liễu.
Tùy trứ đại hình ngữ ngôn mô hình ( LLM ) gia tốc lạc địa, khoách triển mô hình thượng hạ văn song khẩu biến đắc việt lai việt trọng yếu. Nhiên nhi, Transformer giá cấu đích hạch tâm —— chú ý lực tằng đích thời gian phục tạp độ hòa không gian phục tạp độ dữ thâu nhập tự liệt trường độ đích bình phương thành chính bỉ. Giá sử đắc khoách triển mô hình thượng hạ văn song khẩu tồn tại thiêu chiến.
2022 niên, nhất chủng khoái tốc, nội tồn cao hiệu đích chú ý lực toán pháp ——FlashAttention vấn thế, cai toán pháp vô nhu nhậm hà cận tự tức khả gia tốc chú ý lực tịnh giảm thiếu nội tồn chiêm dụng.
FlashAttention đối chú ý lực kế toán tiến hành trọng tân bài tự đích toán pháp, tịnh lợi dụng tiling hòa trọng kế toán lai hiển trứ gia khoái kế toán tốc độ, tương nội tồn sử dụng lượng tòng tự liệt trường độ đích nhị thứ giảm thiếu đáo tuyến tính.
2023 niên, nghiên cứu đoàn đội tuyên bố thôi xuất FlashAttention-2, tại toán pháp, tịnh hành hóa hòa công tác phân khu đẳng phương diện hữu liễu hiển trứ cải tiến.
Hiện tại, lai tự Meta, anh vĩ đạt, Together AI đẳng cơ cấu đích nghiên cứu giả tuyên bố thôi xuất FlashAttention-3, tha thải dụng liễu gia tốc Hopper GPU chú ý lực đích tam chủng chủ yếu kỹ thuật:
- Thông quá warp-specialization trọng điệp chỉnh thể kế toán hòa sổ cư di động;
- Giao thác phân khối matmul hòa softmax vận toán;
- Lợi dụng ngạnh kiện chi trì FP8 đê tinh độ đích bất liên quán xử lý.
FlashAttention-3 đích tốc độ thị FlashAttention-2 đích 1.5-2.0 bội, cao đạt 740 TFLOPS, tức H100 lý luận tối đại FLOPS lợi dụng suất vi 75%. Sử dụng FP8, FlashAttention-3 đích tốc độ canh thị tiếp cận 1.2 PFLOPS.
FlashAttention-3 đích cải tiến tương đái lai:
- Canh cao hiệu đích GPU lợi dụng suất: H100 lý luận tối đại FLOPS lợi dụng suất vi 75%, nhi chi tiền cận vi 35%. Giá sử đắc LLM đích huấn luyện hòa vận hành tốc độ bỉ dĩ tiền đích bản bổn khoái đắc đa.
- Giác đê tinh độ hạ canh hảo đích tính năng: FlashAttention-3 khả dĩ tại bảo trì tinh độ đích đồng thời sử dụng giác đê tinh độ đích sổ tự (FP8). Giá khả dĩ thật hiện canh khoái đích xử lý tốc độ tịnh khả năng hàng đê nội tồn sử dụng lượng, tòng nhi vi vận hành đại quy mô nhân công trí năng thao tác đích khách hộ tiết tỉnh thành bổn tịnh đề cao hiệu suất.
- Năng cú tại LLM trung sử dụng canh trường đích thượng hạ văn: Thông quá gia tốc chú ý lực cơ chế, FlashAttention-3 sử AI mô hình năng cú canh hữu hiệu địa xử lý canh trường đích văn bổn phiến đoạn. Giá sử đắc ứng dụng trình tự năng cú lý giải tịnh sinh thành canh trường, canh phục tạp đích nội dung nhi bất hội giảm mạn tốc độ.
Luận văn tiêu đề: FlashAttention-3: Fast and Accurate Attention with Asynchrony and Low-precision
Luận văn địa chỉ: https://tridao.me/publications/flash3/flash3.pdf
Luận văn tác giả chi nhất, FlashAttention1-3 bản bổn đích tham dữ giả Tri Dao biểu kỳ: FlashAttention bị quảng phiếm dụng vu gia tốc Transformers, dĩ kinh sử chú ý lực tốc độ đề cao liễu 4-8 bội, đãn thượng vị lợi dụng hiện đại GPU. Nhân nhi tha môn phát bố liễu FlashAttention-3: Tại FP16 thượng tốc độ đề cao liễu 1.5-2 bội, tại H100 thượng cao đạt 740 TFLOPS ( 75% thật dụng tính ), FP8 tiếp cận 1.2 PFLOPS!
Hopper GPU ngạnh kiện đặc tính: WGMMA, TMA, FP8
Tuy nhiên FlashAttention-2 tại Ampere (A100) GPU thượng khả dĩ thật hiện 70% đích lý luận tối đại FLOPS, đãn tha thượng vị lợi dụng Hopper GPU thượng đích tân công năng lai tối đại hạn độ địa đề cao tính năng. Tiếp hạ lai văn chương miêu thuật liễu nhất ta tân đích Hopper đặc định công năng, dĩ cập tha môn vi hà như thử trọng yếu.
Thủ tiên thị WGMMA ( Warpgroup Matrix Multiply-Accumulate ), cai công năng lợi dụng liễu Hopper giá cấu thượng tân đích trương lượng nội hạch, bỉ Ampere giá cấu cụ hữu canh cao đích thôn thổ lượng.
Nhiên hậu thị TMA ( Tensor Memory Accelerator ), giá thị nhất cá đặc thù đích ngạnh kiện đan nguyên, khả dĩ gia tốc toàn cục nội tồn hòa cộng hưởng nội tồn chi gian đích sổ cư truyện thâu, dụng vu xử lý sở hữu tác dẫn kế toán hòa biên giới ngoại dự trắc. Giá dạng nhất lai ký tồn khí tựu thích phóng liễu, ký tồn khí thị tăng gia tile đại tiểu hòa hiệu suất đích bảo quý tư nguyên.
Đê tinh độ FP8, nhượng Tensor Core thôn thổ lượng phiên liễu nhất bội.
FlashAttention-3 sung phân lợi dụng liễu Hopper giá cấu đích sở hữu giá ta tân công năng.
Dị bộ: GEMM hòa Softmax trọng điệp
Chú ý lực cơ chế chủ yếu hữu lưỡng cá thao tác, GEMM hòa softmax. Vi thập ma yếu tương tha môn trọng điệp?
Vấn đề tại vu tại hiện đại gia tốc khí thượng, phi củ trận thừa pháp ( matmul ) vận toán bỉ củ trận thừa pháp vận toán mạn. Đặc thù hàm sổ như chỉ sổ vận toán ( như softmax hàm sổ ) đích thôn thổ lượng thậm chí đê vu phù điểm thừa gia thao tác; giá ta vận toán thị do đa công năng đan nguyên xử lý đích, giá thị nhất cá dữ phù điểm thừa gia hoặc củ trận thừa gia bất đồng đích đan nguyên.
Lý tưởng tình huống hạ, nghiên cứu giả hi vọng củ trận thừa pháp hòa softmax năng cú tịnh hành thao tác. Đương Tensor Cores mang vu củ trận thừa pháp thời, đa công năng đan nguyên ứng đương tại kế toán chỉ sổ vận toán!
Inter-warpgroup trọng điệp
Trọng điệp GEMM hòa softmax tối giản đan đích phương pháp thị thập ma đô bất tố, warp điều độ trình tự hội miễn phí hoàn thành bộ phân trọng điệp. Hạ đồ thuyết minh liễu pingpong điều độ, kỳ trung tương đồng đích nhan sắc biểu kỳ tương đồng đích điệt đại.
Intra-warpgroup trọng điệp
Tức sử tại nhất cá warpgroup trung, nghiên cứu giả dã khả dĩ tại vận hành cai warpgroup đích GEMM thời vận hành softmax đích mỗ ta bộ phân. Như đồ sở kỳ, tương đồng đích nhan sắc biểu kỳ tương đồng đích điệt đại.
Giá chủng pipeline lưu trình khả dĩ tương FP16 chú ý lực tiền hướng truyện bá đích thôn thổ lượng tòng đại ước 620 TFLOPS đề cao đáo 640-660 TFLOPS, đãn đại giới thị canh cao đích ký tồn khí áp lực, nhân nhi nhu yếu canh đa đích ký tồn khí lai đồng thời bảo tồn GEMM đích luy gia khí dĩ cập Softmax đích thâu nhập / thâu xuất.
Đê tinh độ: Sử dụng phi tương càn xử lý giảm thiếu lượng hóa ngộ soa
Kích hoạt LLM khả năng tồn tại nhất ta cực đoan trị, đạo trí lượng hóa khốn nan, tòng nhi sản sinh giác đại đích lượng hóa ngộ soa. Bổn văn thải dụng phi tương càn xử lý ( incoherent processing ), cai kỹ thuật thông quá tương tra tuân hòa kiện dữ nhất cá tùy cơ chính giao củ trận tương thừa lai “Phân tán ( spread out )” cực đoan trị, tòng nhi giảm thiếu lượng hóa ngộ soa. Đặc biệt địa, cai nghiên cứu sử dụng liễu Hadamard biến hoán, tha khả dĩ tại mỗi cá chú ý lực đầu trung dĩ O (d log d) đích thời gian phục tạp độ hoàn thành, nhi bất thị O (d^2), kỳ trung d thị đầu bộ duy độ.
Nghiên cứu giả phát hiện phi tương càn xử lý khả dĩ tương lượng hóa ngộ soa giảm thiếu ngận đa, cụ thể đích sổ trị ngộ soa bỉ giác kiến hạ biểu.
Thật nghiệm
Văn trung triển kỳ liễu FlashAttention-3 đích nhất ta kết quả, tịnh tương kỳ dữ FlashAttention-2 dĩ cập Triton hòa cuDNN trung đích thật hiện tiến hành liễu bỉ giác ( lưỡng giả đô dĩ kinh sử dụng liễu Hopper GPU đích tân ngạnh kiện công năng ).
Tại FP16 tinh độ hạ, FlashAttention-3 đích tốc độ thị FlashAttention-2 đích 1.5-2.0 bội.
Đối vu FP8, FlashAttention-3 tiếp cận 1.2 PFLOPS.
Tư thản phúc đề xuất tân hình Attention toán pháp! Đề tốc 2-4 bội, BERT đan tiết điểm huấn luyện tối khoái
Bỉ tiêu chuẩn Attention đề tốc 5-9 bội, đại mô hình đô tại dụng đích FlashAttention v2 lai liễu
https://tridao.me/blog/2024/flash3/
Đặc biệt thanh minh: Dĩ thượng nội dung ( như hữu đồ phiến hoặc thị tần diệc bao quát tại nội ) vi tự môi thể bình đài “Võng dịch hào” dụng hộ thượng truyện tịnh phát bố, bổn bình đài cận đề cung tín tức tồn trữ phục vụ.
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.