Văn chương tín tức
- Title: InternImage: Exploring Large-Scale Vision Foundation Models with Deformable Convolutions
- Paper Link:https://arxiv.org/abs/2211.05778
- Code Link:https://github.com/OpenGVLab/InternImage
Tả tại tiền diện
Nã đáo văn chương chi hậu tiên khán liễu nhất nhãn tại ImageNet1k thượng đích kết quả, xác thật ngận cao, siêu việt liễu đồng đẳng đại tiểu hạ đích VAN, RepLKNet, ConvNext đẳng tiên tiến đích đại hạch chú ý lực CNN mô hình, đồng thời dã siêu quá liễu Swin, DeiT3, CoAtNet đẳng ViT mô hình. Hồi cố tự tòng Vision Transformer bị đề xuất chi hậu, thông quá đại lượng sổ cư huấn luyện xuất đích ViT đại mô hình xoát tân liễu hứa đa thị giác nhậm vụ đích ký lục, giá đắc ích vu ViT đích MHSA cơ chế năng cú kiến mô trường cự ly y lại, cụ hữu tương đương đê đích quy nạp thiên trí, tòng nhi năng cú tại hải lượng sổ cư trung học tập đáo cường đại lỗ bổng đích đặc chinh biểu đạt. Tương phản đích, ngã môn dĩ tiền kinh thường sử dụng đích quyển tích thần kinh võng lạc cụ hữu giác cao đích quy nạp thiên trí, tại đại mô hình hòa đại sổ cư đích điều kiện hạ đích biểu hiện khước bất như ViT đại mô hình. Cai luận văn tựu chỉ xuất, thông quá hợp thích đích toán tử, tiên tiến đích giá cấu thiết kế, đại lượng mô hình tham sổ hòa hải lượng sổ cư đích huấn luyện chi hạ, CNN đại mô hình dã khả dĩ cụ hữu bễ mỹ ViT đại mô hình đích tính năng. InternImage thiết kế liễu toàn tân đích khả biến tính quyển tích mô khối, tịnh thả tá giám liễu ViT đích tiên tiến giá cấu hòa tương quan tổ kiện, tòng nhi thiết kế xuất nhất cá tân đích CNN đại mô hình. Tịnh thả, InternImage tại tương quan đích hạ du nhậm vụ thượng đích tính năng dã ngận cao, InternImage-H tại mục tiêu kiểm trắc COCO sổ cư tập thượng đạt đáo liễuĐích tính năng, siêu việt liễu SwinV2-G đại mô hình đích tính năng.
Background & Motivation
Tùy trứ cơ vu Transformer đích ngữ ngôn đại mô hình tại NLP tương quan hạ du nhậm vụ trung thủ đắc ưu dị tính năng, Vision Transformer dã tịch quyển liễu CV lĩnh vực, thành vi cơ sở thị giác đại mô hình nghiên cứu hòa thật tiễn đích thủ tuyển. Swin V2, BeiT, CoAtNet đẳng công tác dĩ kinh tương ViT khoách triển đáo siêu quá thập ức tham sổ quy mô, hiển trứ đề thăng liễu CV phân loại, kiểm trắc hòa phân cát đẳng hạ du nhậm vụ đích tính năng, siêu việt liễu CNN mô hình. Đãn thị, cai luận văn đề xuất như quả CNN cụ bị loại tự vu ViT đích toán tử hòa giá cấu, tịnh thả tại đại lượng tham sổ hòa hải lượng sổ cư tình huống hạ, kỳ tính năng thị khả dĩ dữ ViT tương đồng thậm chí canh hảo đích.
Tác giả nhận vi CNN hòa ViT đại mô hình tính năng tồn tại soa cự đích chủ yếu hữu lưỡng cá nguyên nhân:
- ViTs đích MHSA cụ hữu trường trình y lại hòa tự thích ứng không gian tụ hợp năng lực, tòng nhi khả dĩ tại hải lượng sổ cư trung học tập đáo bỉ CNN canh cường đại lỗ bổng đích đặc chinh biểu đạt.
- Trừ MHSA ngoại, ViT hoàn bao hàm bất đồng vu CNN đích cao cấp tổ kiện, như tằng quy nhất hóa, tiền quỹ võng lạc, GELU đẳng.
Cơ vu thử, cai luận văn thiết kế liễu nhất cá tân dĩnh đích cơ vu khả biến tính quyển tích CNN võng lạc ——InternImage, khả dĩ tại đại lượng tham sổ hòa hải lượng sổ cư đích tình huống hạ biểu hiện ngận hảo. Như hạ đồ sở kỳ, động thái hi sơ khả biến tính quyển tích kí bất tượng MHSA na dạng cụ hữu giác cao phục tạp độ, dã bất tượng Local attention na dạng khuyết phạp trường trình y lại, đồng thời cụ hữu tự thích ứng đích không gian tụ hợp năng lực.
Cai luận văn đích chủ yếu cống hiến như hạ:
- Đề xuất nhất chủng tân đích CNN đại mô hình ——InternImage, thủ cá tham sổ đạt 1B, huấn luyện sổ cư đạt 400M, thủ đắc dữ ViT tương đương thậm chí canh ưu tính năng đích CNN mô hình. Chứng minh đối vu đại xích độ mô hình nghiên cứu, CNN đồng dạng thị nhất cá trị đắc tham tác đích phương hướng.
- Tương trường trình y lại, tự thích ứng không vực tụ hợp dẫn nhập đáo DCNv3, tương CNN mô hình đích đại tiểu hòa xích độ tiến hành khoách triển; tịnh đối mô khối định chế hóa, đôi điệp quy tắc dĩ cập súc phóng sách lược tiến hành liễu tham tác.
- Tại đồ tượng phân loại, mục tiêu kiểm trắc, ngữ nghĩa phân cát dĩ cập thật lệ phân cát đẳng hạ du nhậm vụ thượng nghiệm chứng liễu sở đề phương án đích hữu hiệu tính. Kỳ trung, InternImage-B cận tại ImageNet-1K huấn luyện tức khả thủ đắc 84.9% đích tinh độ ( bỉ kỳ tha CNN chí thiếu cao xuất 1.1%); đương tại đại lượng tham sổ (1B), hải lượng sổ cư (427M) điều kiện hạ, InternImage-H thủ đắc liễu 89.2% đích tính năng; tại COCO thượng, InternImage-H dĩ 2.18B đích tham sổ lượng thủ đắc liễu 65.4%mAP, bỉ SwinV2-G cao xuất 2.3%, tham sổ lượng thiếu 27%.
Method
Cai luận văn thủ tiên tòng DCNv2 toán tử khai thủy thật nghiệm, nhiên hậu tá giám liễu MHSA đích tương quan tư tưởng đối DCN V2 tố xuất liễu tam cá quan kiện cải tiến, thiết kế xuất liễu toàn tân đích DCNv3 toán tử; cơ vu thử toán tử, tác giả hựu đề xuất liễu dữ ViT tương tự đích Basic Block tổ thành liễu InternImage võng lạc, tịnh thả cấp xuất liễu InternImage đích đôi điệp quy tắc hòa đại tiểu súc phóng quy tắc.
DCN V2
Tại đề xuất DCN V3 toán tử tiền, tác giả tiên hồi cố liễu nhất hạ truyện thống quyển tích hòa đa đầu tự chú ý lực cơ chế giá lưỡng chủng toán tử đích khu biệt, chủ yếu bao quát như hạ lưỡng điểm:
- Trường cự ly kiến mô năng lực.Phổ thông đích quyển tích tụ hợp lân vực nội đích tín tức, hiển nhiên bất cụ bị toàn cục kiến mô đích năng lực, tẫn quản truyện thống đích CNN năng cú thông quá đôi điệp đa cáĐích quyển tích tăng gia mô hình đích cảm thụ dã, đãn thị nhưng nhiên bất năng tượng ViT na dạng tiến hành toàn cục đích giao hỗ.
- Tự thích ứng không gian tụ hợp năng lực.Đa đầu tự chú ý lực cơ chế tại tụ hợp bất đồng đích tokens đích thời hầu, quyền trọng đô thị căn cư thâu nhập query đích bất đồng nhi động thái biến hóa đích; nhi truyện thống đích CNN bất quản thâu nhập thị thập ma, quyển tích hạch đích tham sổ đô thị tĩnh thái bất biến đích.
Nhiên hậu hồi quá đầu khán nhất hạ DCN V2 toán tử, kỳ kháp hảo thị cụ hữu thượng thuật lưỡng cá đặc tính đích; đối vu cấp định thâu nhậpHòa mỗ tượng tố,DCN V2 toán tử đích thâu xuất như hạ
Kỳ trung,Biểu kỳ thải dạng điểm cá sổ,Vi tương ứng thải dạng điểm đầu ảnh quyền trọng,Đại biểu liễu tương ứng thải dạng điểm đích điều chế tiêu lượng,Biểu kỳ tương ứng thải dạng điểm đích thiên di lượng.
Do giá cá biểu đạt thức khả dĩ khán xuất:
- DCN V2 toán tử khả dĩ thông quá thiên di lượng lai dữ cục bộ hoặc toàn cục đích giao hỗ, cụ hữu trường cự ly kiến mô đích năng lực;
- Do vu điều chế tiêu lượngHòa thiên di lượngĐô thị khả học tập tịnh thả căn cư thâu nhập bất đồng nhi biến hóa đích, sở dĩ DCN V2 toán tử dã cụ hữu loại tự vu MHSA đích tự thích ứng không gian tụ hợp năng lực.
Nhân thử, DCN V2 toán tử == cụ bị MHSA toán tử đích tương quan đặc tính ==, hữu khả năng cấu thành đại quy mô đích CNN cơ sở mô hình.
DCN V3
Tẫn quản DCN V2 toán tử dĩ kinh súc tiểu liễu phổ thông quyển tích toán tử hòa MHSA chi gian đích soa cự, đối vu đại quy mô đích thị giác cơ sở mô hình lai thuyết, DCN V2 toán tử nhưng nhiên bất thị tối ưu đích tuyển trạch, vu thị tác giả tòng tam cá phương diện đối DCN V2 tiến hành cải tiến, đắc đáo liễu IntenImage đích chủ yếu toán tử ——DCN V3.
- Cộng hưởng quyển tích quyền trọng.Tại DCN V2 trung, đối vu mỗi nhất cá thải dạng điểm xử đích đặc chinh hướng lượng, đô sử dụng nhất cá độc lập đích đầu ảnh quyền trọng. Đương thải dạng điểm tăng đa đích thời hầu, mô hình đích tham sổ hòa phục tạp độ tương hội tuyến tính tăng gia, bất lợi vu cấu kiến đại quy mô đích mô hình. Tại giá lí, tác giả tá giám liễu thâm độ khả phân ly quyển tích đích tư tưởng lai hàng đê DCN toán tử đích phục tạp độ; cụ thể địa. Đối vupoint-wise,Dã tựu thị bất đồng đích thải dạng điểm hướng lượng, sử dụng nhất cá cộng hưởng đích quyền trọngLai tiến hành đầu ảnh; nhi đối vudepth-wise,Tắc trực tiếp sử dụng toán tử trung đích điều chế tiêu lượngLai đại thế. Tổng thể lai thuyết tựu thị dụng đồng nhất cá đồng quyền trọng đối thải dạng điểm tiến hành đầu ảnh, nhiên hậu dụng nhất cá vị trí cảm tri đích khả học tập hệ sổ đối đầu ảnh hậu đích đặc chinh hướng lượng tiến hành gia quyền.
- Dẫn nhập đa tổ cơ chế.Hồi cố đa đầu tự chú ý lực cơ chế trung đích “Đa đầu” tư tưởng, bất đồng đích head thật tế thượng năng cú đề cung tại bất đồng tử không gian đích phong phú đích tín tức. Nhân thử, tác giả tương DCN V3 dã tiến hành phân tổ, tại mỗi tổ trung tiến hành bất đồng đích thiên di thải dạng, thải dạng hướng lượng đầu ảnh, nhân tử điều chế. Tương đương vu bả nguyên lai đích thao tác trọng phục đa thứ, tăng cường liễu DCN V3 toán tử đích biểu đạt năng lực ( xác thật ứng cai giá dạng thiết kế, bất nhiên chỉ hữu nhất cá cộng hưởng đích đầu ảnh quyền trọng đích thoại, đặc chinh biểu đạt đích xác đan nhất ).
- Quy nhất hóa điều chế tiêu lượng.Giá cá thị nhân vi tại nguyên thủy đích DCN V2 trung, điều chế tiêu lượng thị dụng sigmoid tiến hành xử lý đích, đối vuCá điều chế nhân tử lai thuyết, kỳ hòa tịnh bất thị.Tác giả chỉ xuất, giá dạng hội đạo trí huấn luyện bất ổn định đích vấn đề, nhân thử tác giả cải vi liễu đốiCá điều chế nhân tử tiến hànhQuy nhất hóa, sử đắc chỉnh cá huấn luyện quá trình canh vi ổn định.
Dĩ thượng tam cá điểm đô thị căn cư luận văn lý giải nhi lai, nhân vi hiện tại tác giả hoàn một hữu công bố InternImage mô hình đại mã, vô pháp tra khán cụ thể đích thật hiện tế tiết. Tổng thượng sở thuật, hoàn chỉnh đích DCN V3 toán tử khả dĩ biểu kỳ như hạ
Kỳ trung,Biểu kỳ group đích sổ lượng.Mỗi tổ nội cộng hưởng đầu ảnh quyền trọng,Biểu kỳ đệTổ đệCá thải dạng điểm đích quy nhất hóa hậu đích điều chế nhân tử. Như thử nhất lai, tân thiết kế đích DCN V3 toán tử di bổ liễu truyện thống quyển tích tại trường trình y lại hòa tự thích ứng không gian tụ hợp phương diện đích bất túc, đồng thời sử đắc khả biến tính quyển tích toán tử canh gia thích dụng vu thị giác đại mô hình; tại thật hiện liễu hi sơ toàn cục kiến mô đích đồng thời, hựu thích đương đích bảo lưu liễu CNN đích quy nạp thiên trí, khả dĩ thuyết thị tại kế toán lượng hòa chuẩn xác độ chi gian tiến hành liễu canh hảo đích quyền hành.
Mô hình giá cấu
Tại thiết kế hoàn DCN v3 toán tử hậu, tác giả phao khí liễu truyện thống CNN đích Block thiết kế phương thức, nhi thị thải dụng liễu dữ ViT loại tự đích chỉnh thể giá cấu thiết kế. Như thượng đồ sở kỳ, cơ bổn mô khối dữ ViT tương đồng, thập ma LN, FFN, GELU kích hoạt hàm sổ đô sử dụng thượng liễu; downsample mô khối dã thị thải dụng liễu chính thường đích 3*3, stride2, pooling1 mô khối. Nhiên hậu án chiếu luận văn trung đích đôi điệp hòa súc phóng sách lược tựu khả dĩ cấu kiến xuất hoàn chỉnh đích InternImage mô hình liễu.
Experiment
Phân loại
Bộ phân mô hình tại ImageNet 1K thượng đích hiệu quả như thượng đồ sở kỳ, khả dĩ thuyết thị phi thường SOTA liễu, siêu việt liễu đồng đẳng đại tiểu hạ đích VAN, RepLKNet, ConvNext đẳng tiên tiến đích đại hạch chú ý lực CNN mô hình, đồng thời dã siêu quá liễu Swin, DeiT3, CoAtNet đẳng ViT mô hình.
Kiểm trắc
Tại COCO val2017 hòa test-dev thượng đích tính năng tại đương thời dã đạt đáo liễu SOTA đích thủy bình, xác thật khả dĩ.
Hỉ hoan đích bằng hữu ký đắc điểm tán, thu tàng, quan chú nga!!!