Luận văn bút ký: InternImage— cơ vu khả biến hình quyển tích đích thị giác đại mô hình, siêu việt ViT thị giác đại mô hình, COCO tân kỷ lục 64.5 mAP!

Văn chương tín tức

Tả tại tiền diện

Nã đáo văn chương chi hậu tiên khán liễu nhất nhãn tại ImageNet1k thượng đích kết quả, xác thật ngận cao, siêu việt liễu đồng đẳng đại tiểu hạ đích VAN, RepLKNet, ConvNext đẳng tiên tiến đích đại hạch chú ý lực CNN mô hình, đồng thời dã siêu quá liễu Swin, DeiT3, CoAtNet đẳng ViT mô hình. Hồi cố tự tòng Vision Transformer bị đề xuất chi hậu, thông quá đại lượng sổ cư huấn luyện xuất đích ViT đại mô hình xoát tân liễu hứa đa thị giác nhậm vụ đích ký lục, giá đắc ích vu ViT đích MHSA cơ chế năng cú kiến mô trường cự ly y lại, cụ hữu tương đương đê đích quy nạp thiên trí, tòng nhi năng cú tại hải lượng sổ cư trung học tập đáo cường đại lỗ bổng đích đặc chinh biểu đạt. Tương phản đích, ngã môn dĩ tiền kinh thường sử dụng đích quyển tích thần kinh võng lạc cụ hữu giác cao đích quy nạp thiên trí, tại đại mô hình hòa đại sổ cư đích điều kiện hạ đích biểu hiện khước bất như ViT đại mô hình. Cai luận văn tựu chỉ xuất, thông quá hợp thích đích toán tử, tiên tiến đích giá cấu thiết kế, đại lượng mô hình tham sổ hòa hải lượng sổ cư đích huấn luyện chi hạ, CNN đại mô hình dã khả dĩ cụ hữu bễ mỹ ViT đại mô hình đích tính năng. InternImage thiết kế liễu toàn tân đích khả biến tính quyển tích mô khối, tịnh thả tá giám liễu ViT đích tiên tiến giá cấu hòa tương quan tổ kiện, tòng nhi thiết kế xuất nhất cá tân đích CNN đại mô hình. Tịnh thả, InternImage tại tương quan đích hạ du nhậm vụ thượng đích tính năng dã ngận cao, InternImage-H tại mục tiêu kiểm trắc COCO sổ cư tập thượng đạt đáo liễu65.4%Đích tính năng, siêu việt liễu SwinV2-G đại mô hình đích tính năng.

COCO box AP

Background & Motivation

Tùy trứ cơ vu Transformer đích ngữ ngôn đại mô hình tại NLP tương quan hạ du nhậm vụ trung thủ đắc ưu dị tính năng, Vision Transformer dã tịch quyển liễu CV lĩnh vực, thành vi cơ sở thị giác đại mô hình nghiên cứu hòa thật tiễn đích thủ tuyển. Swin V2, BeiT, CoAtNet đẳng công tác dĩ kinh tương ViT khoách triển đáo siêu quá thập ức tham sổ quy mô, hiển trứ đề thăng liễu CV phân loại, kiểm trắc hòa phân cát đẳng hạ du nhậm vụ đích tính năng, siêu việt liễu CNN mô hình. Đãn thị, cai luận văn đề xuất như quả CNN cụ bị loại tự vu ViT đích toán tử hòa giá cấu, tịnh thả tại đại lượng tham sổ hòa hải lượng sổ cư tình huống hạ, kỳ tính năng thị khả dĩ dữ ViT tương đồng thậm chí canh hảo đích.
Tác giả nhận vi CNN hòa ViT đại mô hình tính năng tồn tại soa cự đích chủ yếu hữu lưỡng cá nguyên nhân:

  • ViTs đích MHSA cụ hữu trường trình y lại hòa tự thích ứng không gian tụ hợp năng lực, tòng nhi khả dĩ tại hải lượng sổ cư trung học tập đáo bỉ CNN canh cường đại lỗ bổng đích đặc chinh biểu đạt.
  • Trừ MHSA ngoại, ViT hoàn bao hàm bất đồng vu CNN đích cao cấp tổ kiện, như tằng quy nhất hóa, tiền quỹ võng lạc, GELU đẳng.

Cơ vu thử, cai luận văn thiết kế liễu nhất cá tân dĩnh đích cơ vu khả biến tính quyển tích CNN võng lạc ——InternImage, khả dĩ tại đại lượng tham sổ hòa hải lượng sổ cư đích tình huống hạ biểu hiện ngận hảo. Như hạ đồ sở kỳ, động thái hi sơ khả biến tính quyển tích kí bất tượng MHSA na dạng cụ hữu giác cao phục tạp độ, dã bất tượng Local attention na dạng khuyết phạp trường trình y lại, đồng thời cụ hữu tự thích ứng đích không gian tụ hợp năng lực.

Bất đồng toán tử đích đặc tính đối bỉ

Cai luận văn đích chủ yếu cống hiến như hạ:

  • Đề xuất nhất chủng tân đích CNN đại mô hình ——InternImage, thủ cá tham sổ đạt 1B, huấn luyện sổ cư đạt 400M, thủ đắc dữ ViT tương đương thậm chí canh ưu tính năng đích CNN mô hình. Chứng minh đối vu đại xích độ mô hình nghiên cứu, CNN đồng dạng thị nhất cá trị đắc tham tác đích phương hướng.
  • Tương trường trình y lại, tự thích ứng không vực tụ hợp dẫn nhập đáo DCNv3, tương CNN mô hình đích đại tiểu hòa xích độ tiến hành khoách triển; tịnh đối mô khối định chế hóa, đôi điệp quy tắc dĩ cập súc phóng sách lược tiến hành liễu tham tác.
  • Tại đồ tượng phân loại, mục tiêu kiểm trắc, ngữ nghĩa phân cát dĩ cập thật lệ phân cát đẳng hạ du nhậm vụ thượng nghiệm chứng liễu sở đề phương án đích hữu hiệu tính. Kỳ trung, InternImage-B cận tại ImageNet-1K huấn luyện tức khả thủ đắc 84.9% đích tinh độ ( bỉ kỳ tha CNN chí thiếu cao xuất 1.1%); đương tại đại lượng tham sổ (1B), hải lượng sổ cư (427M) điều kiện hạ, InternImage-H thủ đắc liễu 89.2% đích tính năng; tại COCO thượng, InternImage-H dĩ 2.18B đích tham sổ lượng thủ đắc liễu 65.4%mAP, bỉ SwinV2-G cao xuất 2.3%, tham sổ lượng thiếu 27%.

Method

Cai luận văn thủ tiên tòng DCNv2 toán tử khai thủy thật nghiệm, nhiên hậu tá giám liễu MHSA đích tương quan tư tưởng đối DCN V2 tố xuất liễu tam cá quan kiện cải tiến, thiết kế xuất liễu toàn tân đích DCNv3 toán tử; cơ vu thử toán tử, tác giả hựu đề xuất liễu dữ ViT tương tự đích Basic Block tổ thành liễu InternImage võng lạc, tịnh thả cấp xuất liễu InternImage đích đôi điệp quy tắc hòa đại tiểu súc phóng quy tắc.

DCN V2

Tại đề xuất DCN V3 toán tử tiền, tác giả tiên hồi cố liễu nhất hạ truyện thống quyển tích hòa đa đầu tự chú ý lực cơ chế giá lưỡng chủng toán tử đích khu biệt, chủ yếu bao quát như hạ lưỡng điểm:

  • Trường cự ly kiến mô năng lực.Phổ thông đích quyển tích tụ hợp lân vực nội đích tín tức, hiển nhiên bất cụ bị toàn cục kiến mô đích năng lực, tẫn quản truyện thống đích CNN năng cú thông quá đôi điệp đa cá3 \times 3Đích quyển tích tăng gia mô hình đích cảm thụ dã, đãn thị nhưng nhiên bất năng tượng ViT na dạng tiến hành toàn cục đích giao hỗ.
  • Tự thích ứng không gian tụ hợp năng lực.Đa đầu tự chú ý lực cơ chế tại tụ hợp bất đồng đích tokens đích thời hầu, quyền trọng đô thị căn cư thâu nhập query đích bất đồng nhi động thái biến hóa đích; nhi truyện thống đích CNN bất quản thâu nhập thị thập ma, quyển tích hạch đích tham sổ đô thị tĩnh thái bất biến đích.

Nhiên hậu hồi quá đầu khán nhất hạ DCN V2 toán tử, kỳ kháp hảo thị cụ hữu thượng thuật lưỡng cá đặc tính đích; đối vu cấp định thâu nhập\mathbf{x}\in \mathbb{R} ^{C\times H\times W}Hòa mỗ tượng tốp_0,DCN V2 toán tử đích thâu xuất như hạ
\mathbf{y}\left( p_0 \right) =\sum_{k=1}^K{\mathbf{w}_k\mathbf{m}_k\mathbf{x}\left( p_0+p_k+\bigtriangleup p_k \right)}Kỳ trung,KBiểu kỳ thải dạng điểm cá sổ,\mathbf{w}_kVi tương ứng thải dạng điểm đầu ảnh quyền trọng,\mathbf{m}_kĐại biểu liễu tương ứng thải dạng điểm đích điều chế tiêu lượng,\bigtriangleup p_kBiểu kỳ tương ứng thải dạng điểm đích thiên di lượng.
Do giá cá biểu đạt thức khả dĩ khán xuất:

  • DCN V2 toán tử khả dĩ thông quá thiên di lượng lai dữ cục bộ hoặc toàn cục đích giao hỗ, cụ hữu trường cự ly kiến mô đích năng lực;
  • Do vu điều chế tiêu lượng\mathbf{m}_kHòa thiên di lượng\bigtriangleup p_kĐô thị khả học tập tịnh thả căn cư thâu nhập bất đồng nhi biến hóa đích, sở dĩ DCN V2 toán tử dã cụ hữu loại tự vu MHSA đích tự thích ứng không gian tụ hợp năng lực.

Nhân thử, DCN V2 toán tử == cụ bị MHSA toán tử đích tương quan đặc tính ==, hữu khả năng cấu thành đại quy mô đích CNN cơ sở mô hình.

DCN V3

Tẫn quản DCN V2 toán tử dĩ kinh súc tiểu liễu phổ thông quyển tích toán tử hòa MHSA chi gian đích soa cự, đối vu đại quy mô đích thị giác cơ sở mô hình lai thuyết, DCN V2 toán tử nhưng nhiên bất thị tối ưu đích tuyển trạch, vu thị tác giả tòng tam cá phương diện đối DCN V2 tiến hành cải tiến, đắc đáo liễu IntenImage đích chủ yếu toán tử ——DCN V3.

  1. Cộng hưởng quyển tích quyền trọng.Tại DCN V2 trung, đối vu mỗi nhất cá thải dạng điểm xử đích đặc chinh hướng lượng, đô sử dụng nhất cá độc lập đích đầu ảnh quyền trọng. Đương thải dạng điểm tăng đa đích thời hầu, mô hình đích tham sổ hòa phục tạp độ tương hội tuyến tính tăng gia, bất lợi vu cấu kiến đại quy mô đích mô hình. Tại giá lí, tác giả tá giám liễu thâm độ khả phân ly quyển tích đích tư tưởng lai hàng đê DCN toán tử đích phục tạp độ; cụ thể địa. Đối vupoint-wise,Dã tựu thị bất đồng đích thải dạng điểm hướng lượng, sử dụng nhất cá cộng hưởng đích quyền trọngwLai tiến hành đầu ảnh; nhi đối vudepth-wise,Tắc trực tiếp sử dụng toán tử trung đích điều chế tiêu lượng\mathbf{m}_kLai đại thế. Tổng thể lai thuyết tựu thị dụng đồng nhất cá đồng quyền trọng đối thải dạng điểm tiến hành đầu ảnh, nhiên hậu dụng nhất cá vị trí cảm tri đích khả học tập hệ sổ đối đầu ảnh hậu đích đặc chinh hướng lượng tiến hành gia quyền.
  2. Dẫn nhập đa tổ cơ chế.Hồi cố đa đầu tự chú ý lực cơ chế trung đích “Đa đầu” tư tưởng, bất đồng đích head thật tế thượng năng cú đề cung tại bất đồng tử không gian đích phong phú đích tín tức. Nhân thử, tác giả tương DCN V3 dã tiến hành phân tổ, tại mỗi tổ trung tiến hành bất đồng đích thiên di thải dạng, thải dạng hướng lượng đầu ảnh, nhân tử điều chế. Tương đương vu bả nguyên lai đích thao tác trọng phục đa thứ, tăng cường liễu DCN V3 toán tử đích biểu đạt năng lực ( xác thật ứng cai giá dạng thiết kế, bất nhiên chỉ hữu nhất cá cộng hưởng đích đầu ảnh quyền trọng đích thoại, đặc chinh biểu đạt đích xác đan nhất ).
  3. Quy nhất hóa điều chế tiêu lượng.Giá cá thị nhân vi tại nguyên thủy đích DCN V2 trung, điều chế tiêu lượng thị dụng sigmoid tiến hành xử lý đích, đối vuKCá điều chế nhân tử lai thuyết, kỳ hòa tịnh bất thị1.Tác giả chỉ xuất, giá dạng hội đạo trí huấn luyện bất ổn định đích vấn đề, nhân thử tác giả cải vi liễu đốiKCá điều chế nhân tử tiến hànhsoftmaxQuy nhất hóa, sử đắc chỉnh cá huấn luyện quá trình canh vi ổn định.

Dĩ thượng tam cá điểm đô thị căn cư luận văn lý giải nhi lai, nhân vi hiện tại tác giả hoàn một hữu công bố InternImage mô hình đại mã, vô pháp tra khán cụ thể đích thật hiện tế tiết. Tổng thượng sở thuật, hoàn chỉnh đích DCN V3 toán tử khả dĩ biểu kỳ như hạ\mathbf{y}\left( p_0 \right) =\sum_{g=1}^G{\sum_{k=1}^K{\mathbf{w}_g\mathbf{m}_{gk}\mathbf{x}_g\left( p_0+p_k+\bigtriangleup p_{gk} \right)}}
Kỳ trung,GBiểu kỳ group đích sổ lượng.\mathbf{w}_gMỗi tổ nội cộng hưởng đầu ảnh quyền trọng,\mathbf{m}_{gk}Biểu kỳ đệgTổ đệkCá thải dạng điểm đích quy nhất hóa hậu đích điều chế nhân tử. Như thử nhất lai, tân thiết kế đích DCN V3 toán tử di bổ liễu truyện thống quyển tích tại trường trình y lại hòa tự thích ứng không gian tụ hợp phương diện đích bất túc, đồng thời sử đắc khả biến tính quyển tích toán tử canh gia thích dụng vu thị giác đại mô hình; tại thật hiện liễu hi sơ toàn cục kiến mô đích đồng thời, hựu thích đương đích bảo lưu liễu CNN đích quy nạp thiên trí, khả dĩ thuyết thị tại kế toán lượng hòa chuẩn xác độ chi gian tiến hành liễu canh hảo đích quyền hành.

Mô hình giá cấu
InternImage chỉnh thể giá cấu

Tại thiết kế hoàn DCN v3 toán tử hậu, tác giả phao khí liễu truyện thống CNN đích Block thiết kế phương thức, nhi thị thải dụng liễu dữ ViT loại tự đích chỉnh thể giá cấu thiết kế. Như thượng đồ sở kỳ, cơ bổn mô khối dữ ViT tương đồng, thập ma LN, FFN, GELU kích hoạt hàm sổ đô sử dụng thượng liễu; downsample mô khối dã thị thải dụng liễu chính thường đích 3*3, stride2, pooling1 mô khối. Nhiên hậu án chiếu luận văn trung đích đôi điệp hòa súc phóng sách lược tựu khả dĩ cấu kiến xuất hoàn chỉnh đích InternImage mô hình liễu.

Mô hình phối trí tham sổ

Experiment

Phân loại
ImageNet1k phân loại kết quả

Bộ phân mô hình tại ImageNet 1K thượng đích hiệu quả như thượng đồ sở kỳ, khả dĩ thuyết thị phi thường SOTA liễu, siêu việt liễu đồng đẳng đại tiểu hạ đích VAN, RepLKNet, ConvNext đẳng tiên tiến đích đại hạch chú ý lực CNN mô hình, đồng thời dã siêu quá liễu Swin, DeiT3, CoAtNet đẳng ViT mô hình.

Kiểm trắc
COCO val2017

Tại COCO val2017 hòa test-dev thượng đích tính năng tại đương thời dã đạt đáo liễu SOTA đích thủy bình, xác thật khả dĩ.



Hỉ hoan đích bằng hữu ký đắc điểm tán, thu tàng, quan chú nga!!!

  • 34
    Điểm tán
  • Thải
  • 9
    Thu tàng
    Giác đắc hoàn bất thác? Nhất kiện thu tàng
  • 打赏
    Đả thưởng
  • 0
    Bình luận
Bình luận
Thiêm gia hồng bao

Thỉnh điền tả hồng bao chúc phúc ngữ hoặc tiêu đề

Hồng bao cá sổ tối tiểu vi 10 cá

Nguyên

Hồng bao kim ngạch tối đê 5 nguyên

Đương tiền dư ngạch3.43Nguyên Tiền vãng sung trị >
Nhu chi phó:10.00Nguyên
Thành tựu nhất ức kỹ thuật nhân!
Lĩnh thủ hậu nhĩ hội tự động thành vi bác chủ hòa hồng bao chủ đích phấn ti Quy tắc
hope_wisdom
Phát xuất đích hồng bao

Đả thưởng tác giả

Võ xương khố lí tả JAVA

Nâm đích cổ lệ tương thị ngã tiền tiến đích động lực!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
Tảo mã chi phó:¥1
Hoạch thủ trung
Tảo mã chi phó

Nâm đích dư ngạch bất túc, thỉnh canh hoán tảo mã chi phó hoặcSung trị

Đả thưởng tác giả

Thật phóNguyên
Sử dụng dư ngạch chi phó
Điểm kích trọng tân hoạch thủ
Tảo mã chi phó
Tiền bao dư ngạch 0

Để khấu thuyết minh:

1. Dư ngạch thị tiền bao sung trị đích hư nghĩ hóa tệ, án chiếu 1:1 đích bỉ lệ tiến hành chi phó kim ngạch đích để khấu.
2. Dư ngạch vô pháp trực tiếp cấu mãi hạ tái, khả dĩ cấu mãi VIP, phó phí chuyên lan cập khóa trình.

Dư ngạch sung trị