コンテンツにスキップ

ストリーミングSIMD拡 trương mệnh lệnh

Xuất điển: フリー bách khoa sự điển 『ウィキペディア ( Wikipedia ) 』
(SSE3から転 tống )

ストリーミングSIMD拡 trương mệnh lệnh(Anh:Streaming SIMD Extensions,Lược xưng:SSE) は,インテルが khai phát したCPUSIMD拡 trươngMệnh lệnh セット,およびその拡 trương bản の tổng xưng である. Hậu 継のAdvanced Vector Extensions(AVX) とAdvanced Matrix Extensions(AMX) についても bổn hạng で ký tái する.

Khái yếu

[Biên tập]

SSEは,x86アーキテクチャに8 bổn の128ビットレジスタを tân thiết し,Phù động tiểu sổ điểmDiễn toán のSIMD処 lý を thật hiện したものである.AMDK6-2に thật trang されたSIMD拡 trương mệnh lệnh3DNow!に đối kháng する hình でPentium IIIから thật trang された. 4 cá の32ビット単 tinh độPhù động tiểu sổ điểmデータを nhất bổn のレジスタに cách nạp し, đồng nhất の mệnh lệnh を nhất quát 処 lý することができる. 拡 trương mệnh lệnh であるため, その cơ năng を sử dụng するためにはSSEに đối ứng したソースコードを tác thành し,プログラムコンパイルする tất yếu がある.

Core Duoまでのインテル chế CPU, K8までのAMDChế CPUでは,64ビットPhúc の diễn toán khí を dụng いて128ビット diễn toán mệnh lệnh を2クロックかけて thật hành するという thật trang であったため, 128ビット diễn toán mệnh lệnh を dụng いても thật chất đích なスループットクロックあたり64ビットであった[Chú 1].そのため従 lai から tồn tại するMMXMệnh lệnh やAMDの3DNow!Mệnh lệnh に đối する tính năng diện でのアドバンテージは128ビット phúc のレジスタを sử えるという điểm dĩ ngoại では tiểu さく, むしろ tịnh liệt độ が thượng がった phân だけ tối thích hóa も phiền tạp になるという khiếm điểm が mục lập った. また đương thời のRISCHệ CPUに đáp tái されているSIMD mệnh lệnh では128ビット diễn toán mệnh lệnh を1クロックで thật hành できるものがあり, これらに đối する tính năng đích なディスアドバンテージは tiểu さくなかった. Tối chung đích にはCoreマイクロアーキテクチャ/AMD K10より128ビット diễn toán mệnh lệnh も1クロック処 lý が khả năng な hình thái へと cải lương され, SSE mệnh lệnh の thật dụng tính は đại phúc に hướng thượng した.

Nguyên 々はインターネット・ストリーミングSIMD拡 trương mệnh lệnh(Anh:Internet Streaming SIMD Extensions,ISSE ) と hô ばれていたが[1],Mệnh lệnh nội dung そのものはインターネットとは trực tiếp quan hệ が vô くマーケティングĐích な yếu tố が cường かったため, hiện tại ではインターネットの văn ngôn が ngoại され単にSSEと hô ばれるようになっている.

SSEの cơ năng を cường hóa したものにSSE2やSSE3, SSSE3 ( Supplemental/ bổ túc đích なSSE3 ), SSE4がある. また, SSEは tha xã chế phẩm にも thải dụng されている.

Duyên cách

[Biên tập]
  • 1999 niên 2 nguyệt: インテルがSSEĐáp tái のPentium IIIプロセッサを phát biểu.
    • 2000 niên 3 nguyệt: インテルがSSE đáp tái のCeleronプロセッサを phát biểu.
  • 2000 niên 11 nguyệt: インテルがSSE2Đáp tái のPentium 4プロセッサを phát biểu.
    • 2002 niên 5 nguyệt: インテルがSSE2 đáp tái のCeleronプロセッサを phát biểu.
    • 2003 niên 3 nguyệt: インテルがSSE2 đáp tái のPentium Mプロセッサを phát biểu.
    • 2004 niên 1 nguyệt: インテルがSSE2 đáp tái のCeleron Mプロセッサを phát biểu.
  • 2004 niên 2 nguyệt: インテルがSSE3Đáp tái のPentium 4プロセッサを phát biểu.
    • 2004 niên 6 nguyệt: インテルがSSE3 đáp tái のCeleron Dプロセッサを phát biểu.
    • 2006 niên 1 nguyệt: インテルがSSE3 đáp tái のIntel Coreプロセッサを phát biểu.
  • 2006 niên 6 nguyệt: インテルがSSSE3Đáp tái のXeon 5100プロセッサを phát biểu.
    • 2006 niên 7 nguyệt: インテルがSSSE3 đáp tái のIntel Core 2プロセッサを phát biểu.
  • 2007 niên 8 nguyệt: AMDがSSE5を phát biểu.
  • 2007 niên 11 nguyệt: インテルがSSE4.1Đáp tái のIntel Core 2プロセッサを phát biểu.
  • 2007 niên 11 nguyệt: AMDがSSE4aĐáp tái のPhenomを phát biểu.
  • 2008 niên 11 nguyệt: インテルがSSE4.2Đáp tái の đệ nhất thế đạiIntel Core i7プロセッサを phát biểu.
  • 2011 niên 1 nguyệt: インテルがAVXĐáp tái の đệ nhị thế đại Intel Core i7プロセッサを phát biểu.
  • 2011 niên 10 nguyệt: AMDがFMAĐáp tái のAMD FXプロセッサを phát biểu.
  • 2013 niên 6 nguyệt: インテルがAVX2Đáp tái の đệ tứ thế đại Intel Core i7プロセッサを phát biểu.
  • 2016 niên 6 nguyệt: インテルがAVX-512Đáp tái の đệ nhị thế đại IntelXeon Phiコプロセッサを phát biểu.
  • 2023 niên 1 nguyệt: インテルがAMXĐáp tái の đệ tứ thế đại Intel Xeon SPを phát biểu.

Pentium IIIにはじめて thật trang された. Truy gia された mệnh lệnh sổ は70[2].Pentium IIIの khai phátコードネームKatmaiであったことから,KNI(Katmai New Instructions)[3]MMX2[4]とも hô ばれていた. Liêm 価 chế phẩm のCeleronにおいても, その đệ tam thế đại chế phẩmCoppermine-128kよりSSEに đối ứng している[5][6].

AMDによるSIMD拡 trương mệnh lệnh セット3DNow! Professionalは, SSEとHỗ hoán tínhがある[7][8].

SSE2は従 lai のSSEに144 cá の tân たな mệnh lệnh が gia えられた[2].Cụ thể đích には64ビットの bội tinh độ phù động tiểu sổ điểm diễn toán のサポートおよびMMXを128ビット phúc に拡 trương する chỉnh sổ diễn toán mệnh lệnh の truy gia,キャッシュの chế ngự cơ năng の cường hóa がなされた.

SSE2はPentium 4で sơ めて thật trang された[9].AMDのAMD64アーキテクチャでは, phù động tiểu sổ điểm diễn toán に従 lai のx87Mệnh lệnh ではなくSSE/SSE2のスカラ diễn toán mệnh lệnh を dụng いることを tiêu chuẩn としたため, 拡 trương mệnh lệnh ではなく cơ bổn mệnh lệnh としてSSE, SSE2が thủ り込まれている.

SSE3はSSE2に13 cá の tân たな mệnh lệnh が gia えられた[2].Cụ thể đích にはメモリアクセスおよびPhục tố sổKế toán の cao tốc hóa, 仮 tưởng CPUのスレッドの động tác chế ngự などの cơ năng が đáp tái され, chủ に động họa áp súc の処 lý が hướng thượng した.

SSE3の danh xưng が phát biểu される tiền はPNI(Prescott New Instructions) と hô ばれていた[2].Pentium 4のPrescottコア (2004 niên- ) で sơ めて thật trang された.

SSSE3 (Supplemental SSE3) はSSE3に32 cá の tân たな mệnh lệnh が gia えられた[2]. CoreマイクロアーキテクチャベースのマイクロプロセッサIntel Core 2(Conroe) /Intel Xeon(Woodcrest) で sơ めて thật trang された.

SSSE3と danh phó けられる tiền はMNI(Merom New Instructions;Cựu xưngTejas New Instructions) という danh xưng があった[2].Đăng tràng đương sơ はSSE4と hô ばれると nhất bàn đích には tư われていた.

SSE4.1

[Biên tập]

45nm thế đại のCore 2のPenrynで đáp tái. 47 cá の mệnh lệnh が truy gia になる.

SSE4.2

[Biên tập]

Nehalemマイクロアーキテクチャの đệ 1 thế đại Intel Core iで sơ めて thật trang された. 7 cá の mệnh lệnh を truy gia. SSE 4.2の truy gia mệnh lệnh は dĩ hạ の thông り.

AMD Phenomで đáp tái. キャッシュ quan liên や挿 nhập, triển khai の4 mệnh lệnh が truy gia. インテルのSSE4とは danh tiền は tự ているが hỗ hoán tính は vô い.

x86プロセッサにおいてDung hợp tích hòa diễn toánを thật hiện するための拡 trương mệnh lệnh[10]がFused Multiply-Add (FMA)である. 2007 niên にAMDがSSE5 mệnh lệnh の nhất bộ として, 2008 niên にインテルがAVX mệnh lệnh のサブセットとして thải dụng を phát biểu したが, lạng giả の sĩ dạng は dị なるものであった[11].その hậu, インテルは2009 niên sơ đầu にFMA mệnh lệnh の sĩ dạng を変 canh し, 4オペランド (FMA4) をやめ3オペランド hình thức (FMA3) とした[11].2009 niên 5 nguyệt にはAMDがSSE5 mệnh lệnh の thải dụng を thủ りやめ, AVXのサポートを biểu minh したため, sĩ dạng の thống nhất が đồ られたかと tư われたが, FMA mệnh lệnh に quan してはインテルが sĩ dạng を変 canh する tiền の4オペランド bản FMAを thải dụng したため, FMA4とFMA3という nhị hệ thống のFMA mệnh lệnh が hỗn tại していた. その hậu, AMDがZenマイクロアーキテクチャでFMA4の tước trừ およびサポートの đả ち thiết りを biểu minh したことで, FMA mệnh lệnh についても sĩ dạng の thống nhất が đồ られた[12].

FMA mệnh lệnh では±(A×B)±Cの hình で biểu hiện される単 tinh độ / bội tinh độ の phù động tiểu sổ điểm diễn toán を1 mệnh lệnh で thật hành できる. Thừa toán kết quả の phù hào を phản 転するか, thừa toán hậu に gia toán を hành うか giảm toán を hành うかによって dĩ hạ の4つのバリエーションがある.

MADD
A×B+C
MSUB
A×B-C
NMADD
-(A×B)+C
NMSUB
-(A×B)-C

いずれの mệnh lệnh も単 tinh độ / bội tinh độ, スカラ/ベクタを vấn わず toàn てのタイプの diễn toán に thích dụng khả năng である. Tha にもベクタ chuyên dụng のMADDSUB mệnh lệnh が tồn tại し, 1,3,5... Phiên mục の yếu tố にMADDを, 0,2,4... Phiên mục の yếu tố にMSUBを hành うという mệnh lệnh になっている.

FMA mệnh lệnh に đối ứng した diễn toán khí においては, thượng ký の phù động tiểu sổ điểm diễn toán を1クロックサイクルのスループットで thật hành khả năng で, gia toán のみ, thừa toán のみを thật hành できる diễn toán khí と bỉ giác すると lý luận FLOPSを bội にすることができる. また, thừa toán の kết quả に đối しては hoàn めを hành わず, gia toán を hành った hậu に nhất độ だけ hoàn めを hành うため, thừa toán と gia toán を độc lập して thật hành するのと bỉ giác して hoàn め ngộ soa を tiểu さくできるという lợi điểm もある. Thật trang としてはAMDではBulldozerマイクロアーキテクチャでサポートされたのが tối sơ で, モジュールあたり2つの128ビットFMA diễn toán khí を đáp tái している. インテルはHaswellマイクロアーキテクチャで sơ めてサポートしており, コアあたり2つの256ビットFMA diễn toán khí を đáp tái している[13].

インテルが2008 niên に phát biểu した thời điểm でのFMA mệnh lệnh セット[11].Hoàn toàn な4オペランドを thật hiện しており, 3つのソースオペランドとディスティネーションオペランドを độc lập に chỉ định できる. その hậu インテルは sĩ dạng を変 canh したために thải dụng を thủ りやめたが, AMDはBulldozerマイクロアーキテクチャにおいてこの mệnh lệnh セットをサポートし続けていた. その hậu AMDが phát biểu したZenマイクロアーキテクチャで tước trừ されることとなった[12].

インテルが2009 niên に sĩ dạng を変 canh し, hiện tại sử われているFMA mệnh lệnh セット (FMA instruction set[14]). 4オペランド phương thức をやめ, 3つのソースオペランドのうち nhậm ý の1つを phá 壊することにより3オペランドでFMAを thật hiện している. インテルはHaswellマイクロアーキテクチャ dĩ hàng で, AMDはBulldozerマイクロアーキテクチャのPiledriverコア dĩ hàng でサポートしている. なお, AMDが đương sơ SSE5において thải dụng したFMA mệnh lệnh も đồng じ3オペランド phương thức であった[15].

ベーシックなmm256_fmadd_psMệnh lệnh の tràng hợp, Intel CPUで1サイクルあたり16 cá の単 tinh độFMA diễn toánを thật hành する[16][17](256 [bit/inst.] ÷ 32 [bit/fp32FMA] ÷ 0.5 [CPI=cycle/inst.][18]). Lệ えば3GHzで động tác するプロセッサであれば1コア đương たり 48 GMAC/s (=96 GFLOPS) のピーク tính năng を khả năng にする ( tham khảo:FLOPS# đại biểu đích なハードウェアの phù động tiểu sổ điểm sổ diễn toán năng lực).

FMA4と bỉ べるとレジスタの thối tị を hành う tất yếu がある tràng hợp に bất lợi であるが, mệnh lệnh trường を1バイト đoản くすることができるため, デコーダの thật trang や mệnh lệnh キャッシュのフットプリントでは hữu lợi である. インテルのIvy BridgeマイクロアーキテクチャDĩ hàng やAMDのBulldozerマイクロアーキテクチャでは,レジスタ・リネーミングによってレジスタ gian のmov mệnh lệnh をゼロレイテンシで thật hành できるため, これと tổ み hợp わせればレジスタ thối tị のペナルティは khinh giảm できる.

インテルのマイクロプロセッサにおいてはAVX2 mệnh lệnh と đồng thời に thải dụng されたため, AVX2 mệnh lệnh の nhất bộ であると ngộ giải されることがある. しかし, lạng giả のCPUIDフラグは độc lập に thiết けられており[19],Tất ずしも lạng giả が đồng thời にサポートされているとは hạn らない ( lệ えば, FMA3をサポートするAMDのPiledriverコアではAVX2 mệnh lệnh はサポートしていない ).

IntelAVX

[Biên tập]

MMX/SSE hậu 継のSIMD拡 trương mệnh lệnh セットで, hô xưng がIntelAdvancedVectorExtensionsとなった.Sandy Bridgeマイクロアーキテクチャ(2011 niên- ) で sơ めて đáp tái された[20][21].Phù động tiểu sổ điểm diễn toán の diễn toán phúc がSSEの2 bội の256ビットとなり, 1 mệnh lệnh で8つの単 tinh độ phù động tiểu sổ điểm diễn toán もしくは4つの bội tinh độ phù động tiểu sổ điểm diễn toán を thật hành することができる. また, mệnh lệnh デコード tính năng hướng thượng のため, tân しい mệnh lệnh フォーマット ( VEXエンコーディング ) が thải dụng されている. 3 or 4オペランドの phi phá 壊 hình mệnh lệnh もサポートするため, レジスタ thối tị ・ phục nguyên 処 lý の ký thuật を tỉnh くことができる. この phi phá 壊 hình の mệnh lệnh フォーマットに quan しては従 lai の128ビット phúc のSSE mệnh lệnh にも sử うことができるため, AVXに đối ứng したプロセッサでは tân quy に đạo nhập された256ビット mệnh lệnh を sử わなくてもSIMD diễn toán の tính năng が hướng thượng する khả năng tính がある.

SSEが đạo nhập された tế には chuyên dụng の128ビットレジスタが tân thiết されたが, AVXの256ビットレジスタは hạ vị の128ビットを kí tồn のSSEレジスタと cộng hữu している[21].そのためSSE mệnh lệnh とAVX mệnh lệnh の gian でのデータ giao hoán は dung dịch である. ただし, 256ビットのAVX mệnh lệnh と kí tồn のSSE mệnh lệnh を hỗn tại させると, SSE mệnh lệnh を thật hành する tế にAVXレジスタの thượng vị 128ビットを thối tị するというペナルティが phát sinh するため, パフォーマンスが lạc ちる. これを tị けるためには, 256ビット mệnh lệnh の thật hành hậu にVZEROUPPER/VZEROALL mệnh lệnh を thật hành して minh kỳ đích にAVXレジスタの thượng vị 128ビットをクリアするか, SSE mệnh lệnh をVEXエンコーディングを sử ったものに trí き hoán える tất yếu がある. VEXエンコーディングの128ビット mệnh lệnh はAVXレジスタの thượng vị 128ビットを bảo trì せずにゼロクリアするという cử động になっており, AVXレジスタの bộ phân đích な thư き hoán えが phát sinh しないためである.

Sandy Bridgeでは đương sơ のSSEの thật trang のように kí tồn の128ビットの diễn toán khí を sử って2サイクルで thật hành するようなことはせず, tố trực に thừa toán khí や gia toán khí などの diễn toán khí が256ビット phúc に拡 trương されている[20].これによって, thật chất đích なピーク phù động tiểu sổ điểm diễn toán tính năng がNehalemThế đại の2 bội となっている.

AMDはBulldozerThế đại hướng けに đương sơ dư định していたSSE5拡 trương mệnh lệnh をキャンセルし,AMD FXではAVXがサポートされることになった[11].ただし, 256ビット mệnh lệnh に quan しては128ビット phúc の diễn toán khí を2つ sử って thật hành しており[22][23],スループットは従 lai のSSE mệnh lệnh と変わらない.

IntelAVX2

[Biên tập]

AVX2はAVXの hậu 続となる256ビットレジスタ đối tượng の拡 trương mệnh lệnh セットである.

Mệnh lệnh

[Biên tập]

256ビットレジスタ thượng の chỉnh sổ ベクトルに đối する toán thuật (add, sub, mul, madd, abs, sad, sign), bỉ giác ( eq, gt ), thống kế (ave, min, max), luận lý (and, or, xor, andnot), シフト (sll, sra, srl, alignr), 変 hoán (convert), yếu tố thao tác /swizzle (permute, shuffle, broadcast, insert, blend, unpack, pack, extract) をサポートする. また chỉnh sổ ベクトルの nhập xuất lực (stream load, masked load/store), マスク sinh thành (movemask) も truy gia されている. シフト mệnh lệnh は yếu tố ごとに độc lập したシフト lượng を thiết định できる.

Phù động tiểu sổ điểm ベクトルにも ảnh hưởng する mệnh lệnh としてはgather mệnh lệnh ( phi liên 続なデータを tịnh べ thế えながらロード ) が đạo nhập されている.

Đối ứng

[Biên tập]

インテルはHaswellマイクロアーキテクチャから đáp tái している[24].AMDはExcavatorアーキテクチャからAVX2を thật trang している[25].ただし, SIMD diễn toán ユニット tự thể はZen+まで128bit phúc に lưu まっていたため, AVX2 mệnh lệnh を đa dụng する処 lý はあまり cao tốc hóa されていなかった. Zen2 thế đại からは256bit phúc になり処 lý tốc độ が cải thiện されている.

Thật trang としてIntel CPUではベクトルレジスタとベクトル dụng thật hành ユニットを dụng いて kế toán される. Lệ としてint8 tích hòa diễn toán ( VNNI đẳng 価 ) では "Vec Mul" および "Vec ALU" thật hành ユニットが điển hình đích に lợi dụng される ( hạ biểu ).

Biểu. Intel CPU AVX2におけるint8 tích hòa diễn toán (pseudo VNNI) thật trang
μarch Thật hành ユニット
VPMADDUBSW,VPMADDWD VPADDD
Haswell "SIMD Misc" x1[26] "SIMD ALU" x2[27](Port 1, 5)
Skylake "Vec Mul" x2[28](Port 0, 1) "Vec ALU" x3[29](Port 0, 1, 5)
Sunny Cove "Vec Mul" x2[30] "Vec ALU" x3[31](Port 0, 1, 5)
Golden Cove(Anh ngữ bản) "Vec Mul/FMA" x2[32](Port 0, 1) "Vec ALU" x3[33](Port 0, 1, 5)
Gracemont(Anh ngữ bản)

AVX2 VNNI

[Biên tập]

Intel AVX2 Vector Neural Network Instructions (AVX2 VNNI) は chỉnh sổTích hòa diễn toánの hiệu suất hóa を mục đích とした拡 trương mệnh lệnh セットである[34].AVX-512のサブセットとして đạo nhập されたAVX-512 VNNIをAVX2 ( chỉnh sổ ベクトルレジスタ) へバックポートしている. [int8 | int16]・[ phi bão hòa | bão hòa ] の tổ み hợp わせに đối ứng した4 chủng の chỉnh sổTích hòa diễn toán(vpdp[bu|ws]sd[|s]) からなり, tổ み込み quan sổ /intrinsicsとしては[XMM (_mm_) | YMM (_mm256_) ] およびAVX512 VNNIとの khu biệt (_avx) をさらに tổ み hợp わせた kế 16 cá が định nghĩa されている.

Intel CPUでは đệ 12 thế đại Intel Core (Alder Lake) から đối ứng している[35].int8の tràng hợpFMAと đồng じ256bitレジスタを dụng いて4 bội の yếu tố を tích hòa できるため, mệnh lệnh スループットが đồng đẳng なら[36][37]FMA bỉ 4 bội の diễn toán スループットを đắc られる.

IntelAVX-512

[Biên tập]

ZMMレジスタを512ビット trường とし[38],レジスタ sổ も16から32に tăng やした.

Phát biểu されている mệnh lệnh quần には, tráp うデータや処 lý の soa によって, AVX512F, AVX512CD, AVX512DQ, AVX512PF, AVX512ER, AVX512VL, AVX512BW, AVX512IFMA, AVX512VBMI, AVX512VBMI2, AVX512VAES, AVX512BITALG, AVX5124FMAPS, AVX512VPCLMULQDQ, AVX512GFNI, AVX512_VNNI, AVX5124VNNIW, AVX512VPOPCNTDQ, AVX512_BF16といった phân loại がされる mệnh lệnh quần があり, どれをどこまで thật trang しているかは, chế phẩm によって dị なる. Nhất bộ は mệnh lệnh の sĩ dạng だけ công khai されていてまだ chế phẩm に thật trang されていないものもある. このように thật trang レベルが dị なるものが phục sổ tồn tại していることもあり, AVX-512に đối ứng しているといっても, hà をどこまで thật trang されているのか xác nhận が tất yếu な trạng huống になっている.

Duyên cách

[Biên tập]
  • 2016 niên, đệ 2 thế đạiXeon Phiに sơ めて đáp tái ( đệ 1 thế đại Xeon PhiはAVX-512と hỗ hoán tính のない拡 trương mệnh lệnh セット, Intel IMCIを thải dụng[39]).
  • 2017 niên, đệ 1 thế đạiXeonSPプロセッサ (Skylakeマイクロアーキテクチャ) から nhất bộ の mệnh lệnh を đáp tái した[40].
  • 2018 niên, AVX-512 VNNI(AVX-512 Vector Neural Network Instructions)が cơ năng 拡 trương としてIntel, IEEE Hot Chips 30 Symposium (HCS) 2018で phát biểu した. Đệ 2 thế đại Xeon SP (Cascade Lakeマイクロアーキテクチャ) にて thật trang.
  • 2019 niên, Intelの10nm thế đại CPUの đệ 10 thế đại Intel Core (Ice Lakeマイクロアーキテクチャ) にて AVX-512 を tiêu chuẩn đáp tái とした.
  • 2020 niên, đệ 3 thế đại Xeon SP (Cooper Lakeマイクロアーキテクチャ) にて,bfloat16( AVX512_BF16 ) に đối ứng した.
  • 2021 niên, IntelのCPUでは, AVX-512はサーバー hướng けのIntel Xeon SPのみのサポートとなり, パソコン dụng では đệ 12 thế đại Intel Core (Alder Lakeマイクロプロセッサ) dĩ hàng は phi đối ứng になり, thứ はAVX10.2での đối ứng となった. パソコン dụng がAVX2に hậu thối したため, AVX2にVNNIなどの cơ năng truy gia が hành われるようになる.
  • 2022 niên, Intelとは nghịch にAMDはZen 4コアでのAVX-512 đối ứng を biểu minh した[41].

Alder Lake dĩ hàng での vô hiệu hóa

[Biên tập]

Đệ 12 thế đại Intel Core (Alder Lakeマイクロプロセッサ) dĩ hàng のパソコン hướng けでは cơ bổn đích にAVX-512が lợi dụng bất khả になった. Alder Lakeでは2 chủng loại のコアを đáp tái している. PコアのみAVX-512 mệnh lệnh セットが thật hành khả năng となっており, Gracemontアーキテクチャに cơ づくEコアでは phi đối ứng である. Nhất bộ のマザーボードではBIOSバージョンとリビジョンの tổ み hợp わせにより, Eコアを vô hiệu hóa することでAVX-512を hữu hiệu hóa できる.[42][43]Intelは tối tân リビジョンのAlder LakeではAVX-512 mệnh lệnh のサポートをシリコンレベルで đả ち thiết っている.[44]

AVX-512 VNNI

[Biên tập]

AVX-512 Vector Neural Network instructions (AVX-512 VNNI) は畳み込みニューラルネットワークの chỉnh sổ diễn toán ( int8, int16 ) の hiệu suất を mục đích としたAVX-512のサブセットである[45].AVXでは cao hiệu suất のINT8Tích hòa diễn toánとしてVPMADDUBSW/VPMADDWD/VPADDDの3 liên 続 mệnh lệnh が lợi dụng されている ( AVX2なら4 yếu tốTích hòa diễn toánを8レーン đồng thời に thật hành khả năng ). VNNIはこれを VPDPBUSD mệnh lệnh のみでおこなうものである[46].

IntelAVX10

[Biên tập]

2023 niên 7 nguyệt に AVX-512 の hậu 継の AVX10 をインテルは phát biểu した. AVX10 は AVX2 と AVX-512 の thống hợp ベクトルMệnh lệnh セットアーキテクチャ( converged vector ISA )[47]である. また, AVX-512は dạng 々なサポート trạng huống のフラグで quản lý するのが phục tạp だったため, AVX10はAVX10.1, AVX10.2とバージョン phiên hào で quản lý する tương đối đích にシンプルな sĩ tổ みとなった.

AVX10.1

[Biên tập]

AVX10.1はPコアのみのIntel Xeon 6 (Granite Rapids マイクロアーキテクチャ) から đối ứng. XeonのPコアのみ đối ứng する. Khái ねAVX-512をそのまま dẫn き継いだものである.[48][49]

AVX10.2

[Biên tập]

AVX10.2からは, ARM64のScalable Vector Extensionと tự た thủ pháp を thải dụng し, 128, 256, 512ビットレジスタどれであっても động tác するようにして, パソコン dụng を hàm め, PコアでもEコアでも động tác するようになる. インテルのパソコン hướng けCPUはかつてはAVX-512に đối ứng していたが, Eコアを đạo nhập してから, Eコアで512ビットレジスタに đối ứng できないため, AVX2に hậu thối していた.[50]

IntelAMX

[Biên tập]

Intel Advanced Matrix Extensions (AMX) はインテルが2020 niên にAVX-512 VNNIの拡 trương として phát biểu した ( 2 thứ nguyên )Hành liệtを kế toán するために thiết kế された拡 trương mệnh lệnh. Kim までのは ( 1 thứ nguyên )ベクトルKế toán だった.

2023 niên 1 nguyệt 10 nhật phát mại の đệ 4 thế đại Intel Xeon SP (Sapphire Rapidsマイクロアーキテクチャ) から đáp tái されている. Cơ sở となるAMX-TILEの mệnh lệnh quần と, 8bit chỉnh sổ の hành liệt を tráp うAMX-INT8の mệnh lệnh quần と,bfloat16の hành liệt を tráp うAMX-BF16の mệnh lệnh quần から cấu thành されている. Sapphire RapidsマイクロアーキテクチャではTMUL ( Tile Matrix Multiply, タイルHành liệt tích) が thật trang されている.

タイル hành liệt tích の1コアあたりの mệnh lệnh sổ /サイクル[51]

  • Intel AMX-INT8: 2048 (=16 * 64 * 2)
  • Intel AMX-BF16: 1024 (=16 * 32 * 2)

AVX-512はINT8で256op/cycleだったため, 8 bội cao tốc hóa した.

Intel Xeon 6 (Granite Rapids マイクロアーキテクチャ) からAMX-FP16を thật trang[52].

Vị だ khai phát が継続されている mệnh lệnh quần であり, さらなる拡 trương が dư định されている.

Cước chú

[Biên tập]

Chú 釈

[Biên tập]
  1. ^SIMD chỉnh sổ diễn toán に quan してはPentium M,Core DuoやK8では64ビット phúc の diễn toán khí を2つ trì つため, コア toàn thể でのSIMD chỉnh sổ diễn toán のスループットは128ビット/クロックであった.

Xuất điển

[Biên tập]
  1. ^Nguyên ma bố xuân nam (2005 niên 3 nguyệt 4 nhật ). “デュアルコア+HTはゼニが thủ れる kỹ thuật か”.PC Watch.Nguyên ma bố xuân nam の chu khan PCホットライン.2019 niên 12 nguyệt 22 nhậtDuyệt lãm.
  2. ^abcdefHậu đằng hoằng mậu (2006 niên 10 nguyệt 4 nhật ). “SSE4 mệnh lệnh とアクセラレータから kiến えるIntel CPUの phương hướng tính”.PC Watch.Hậu đằng hoằng mậu のWeekly hải ngoại ニュース.2019 niên 12 nguyệt 22 nhậtDuyệt lãm.
  3. ^Hậu đằng hoằng mậu (1998 niên 10 nguyệt 8 nhật ). “MPEG-2のエンコードまで thật hiện できるKatmaiの tân mệnh lệnh”.PC Watch.Hậu đằng hoằng mậu のWeekly hải ngoại ニュース.2019 niên 12 nguyệt 22 nhậtDuyệt lãm.
  4. ^Hậu đằng hoằng mậu (1997 niên 9 nguyệt 8 nhật ). “SGIがWintelワークステーションを lai niên đầu nhập?”.PC Watch.Hậu đằng hoằng mậu のWeekly hải ngoại ニュース.2019 niên 12 nguyệt 22 nhậtDuyệt lãm.
  5. ^Mễ Intel, Coppermine-128kことCeleron 600/566MHz”.PC Watch(2000 niên 3 nguyệt 29 nhật ).2019 niên 12 nguyệt 22 nhậtDuyệt lãm.
  6. ^Lạp nguyên nhất huy (2000 niên 3 nguyệt 31 nhật ). “Coppermine-128K 600/533A MHzをベンチマーク”.PC Watch.AKIBA PC Hotline.2019 niên 12 nguyệt 22 nhậtDuyệt lãm.
  7. ^Linh mộc trực mỹ (2001 niên 8 nguyệt 31 nhật ). “Đệ 179 hồi: 8 nguyệt 20 nhật ~8 nguyệt 24 nhật”.PC Watch.Linh mộc trực mỹ の “PC Watch tiên chu のキーワード”.2019 niên 12 nguyệt 22 nhậtDuyệt lãm.
  8. ^Lạp nguyên nhất huy (2001 niên 10 nguyệt 10 nhật ). “Pentium 4キラーとなりうるAMDの cường lực な tân chế phẩm Athlon XPプロセッサの thật lực を tham る”.PC Watch.AKIBA PC Hotline.2019 niên 12 nguyệt 22 nhậtDuyệt lãm.
  9. ^Hậu đằng hoằng mậu. “ソフト khai phát giả にはSSE2 mệnh lệnh への di hành を thôi thưởng”.PC Watch.2019 niên 12 nguyệt 22 nhậtDuyệt lãm.
  10. ^Thừa toán と gia toán あるいは giảm toán を dung hợp させた mệnh lệnh はAMDのBulldozer dĩ tiền にも, HPのPA-RISCやIBMのPower, PowerPC, インテルのItaniumにも thật trang されていた.
  11. ^abcdHậu đằng hoằng mậu. “AMDのAVXサポートとBulldozerのクラスタ hình マイクロアーキテクチャ”.Hậu đằng hoằng mậu のWeekly hải ngoại ニュース.2019 niên 11 nguyệt 18 nhậtDuyệt lãm.
  12. ^ab“[GDC 2017]AMDの kỹ thuật giả が ngữ る, “Ryzenに hướng けた tối thích hóa のコツ” - 4Gamer.net”.(2017 niên 3 nguyệt 9 nhật ).https://www.4gamer.net/games/300/G030061/20170308070/2017 niên 3 nguyệt 10 nhậtDuyệt lãm.
  13. ^Hisa Ando (2012 niên 10 nguyệt 3 nhật ).“HPC tính năng が đại phúc に cường hóa されたHaswell( tiền biên ) - các コアに256bit trường のFMAを2 cá trang bị”.マイナビニュース.https://news.mynavi.jp/techplus/article/20121003-idf_haswell_hpc_01/2019 niên 11 nguyệt 18 nhậtDuyệt lãm.
  14. ^"CHAPTER 6 INSTRUCTION SET REFERENCE - FMA... FMA INSTRUCTION SET... Performs a set of SIMD multiply-add computation on packed" Intel.Intel® Architecture Instruction Set Extensions Programming Reference.pp.6_1-6_2.
  15. ^Junya Suzuki (2007 niên 8 nguyệt 31 nhật ).“Mễ AMD, 3オペランド mệnh lệnh とFMAをサポートした “SSE5” を phát biểu”.マイナビニュース.https://news.mynavi.jp/article/20070831-a002/2019 niên 11 nguyệt 18 nhậtDuyệt lãm.
  16. ^"to sustain Haswell’s CPU peak (e.g., 16 multiply-adds per cycle)" điền phổ. (2016).What You Must Know about Memory, Caches, and Shared Memory.Tịnh liệt phân tán プログラミング,Đông kinh đại học.
  17. ^"Intel® AVX 2.0 delivers 16 double precision and 32 single precision floating point operations per second per clock cycle within the 256-bit vectors, with up to two 256-bit fused-multiply add (FMA) units." Intel.Intel® Advanced Vector Extensions 512.2022-04-04 duyệt lãm.
  18. ^"__m256 _mm256_fmadd_ps... Throughput (CPI)... Haswell... 0.5"Intel Intrinsics Guide.2022-04-03 duyệt lãm.
  19. ^"12 FMA... 28 AVX" Intel. (2021). Intel® Architecture Instruction Set Extensions and Future Features. p.1_27.
  20. ^abHậu đằng hoằng mậu (2010 niên 9 nguyệt 17 nhật ). “なぜSandy Bridgeはそんなにパフォーマンスが cao いのか”.PC Watch.Hậu đằng hoằng mậu のWeekly hải ngoại ニュース.2019 niên 12 nguyệt 22 nhậtDuyệt lãm.
  21. ^ab2011-01-03 ( mễ điền thông ). “Sandy Bridgeがやってきた! ~プロセッサの cơ bổn tính năng は thuận đương に hướng thượng”.4Gamer.net.2019 niên 12 nguyệt 22 nhậtDuyệt lãm.
  22. ^Bổn gian văn (2010 niên 10 nguyệt 12 nhật ). “AMD, Bulldozerアーキテクチャ thải dụng の tân thế đại CPU “FX” を chính thức phát biểu. Phát mại は10 nguyệt hạ tuần dĩ hàng に”.4Gamer.net.2019 niên 12 nguyệt 22 nhậtDuyệt lãm.
  23. ^Hậu đằng hoằng mậu (2011 niên 3 nguyệt 2 nhật ). “8コアCPUを đê コストに thật hiện したBulldozer”.PC Watch.Hậu đằng hoằng mậu のWeekly hải ngoại ニュース.2019 niên 12 nguyệt 22 nhậtDuyệt lãm.
  24. ^Đại nguyên hùng giới (2012 niên 9 nguyệt 24 nhật ). “インテルCPU tiến hóa luận Haswellで đạo nhập されるCPUの cải lương hậu biên”.ASCII.jp.ロードマップでわかる! Đương thế プロセッサー sự tình.2019 niên 11 nguyệt 18 nhậtDuyệt lãm.
  25. ^“【イベントレポート】AMD, Carrizoを “Đệ 6 thế đại AMD Aシリーズ プロセッサ” として phát biểu - PC Watch”.(2015 niên 6 nguyệt 3 nhật ).https://pc.watch.impress.co.jp/docs/news/event/705132.html2015 niên 12 nguyệt 15 nhậtDuyệt lãm.
  26. ^"Haswellマイクロアーキテクチャの thật hành ユニット... Execution Unit... SIMD Misc... # of Ports... 1... Instructions... (v)pmadd*" p.32 of Intel. (2017).Intel® 64 and IA-32 Architectures Optimization Reference Manual.Order Number: 248966-037 July 2017.iSUS訳.
  27. ^"Haswellマイクロアーキテクチャの thật hành ユニット... Execution Unit... SIMD ALU... # of Ports... 2... Instructions... (v)padd*" p.32 of Intel. (2017).Intel® 64 and IA-32 Architectures Optimization Reference Manual.Order Number: 248966-037 July 2017.iSUS訳.
  28. ^"Skylake Client Microarchitecture Execution Units... Execution Unit... Vec Mul... # of Unit... 2... Instructions... (v)pmadd*" p.2_27 of Intel. (2022).Intel® 64 and IA-32 Architectures Optimization Reference Manual.Order Number: 248966-045 February 2022.
  29. ^"Skylake Client Microarchitecture Execution Units... Execution Unit... Vec ALU... # of Unit... 3... Instructions... (v)paddb/w/d/q" p.2_27 of Intel. (2022).Intel® 64 and IA-32 Architectures Optimization Reference Manual.Order Number: 248966-045 February 2022.
  30. ^"Ice Lake Client Microarchitecture Execution Units... Execution Unit... Vec Mul... # of Unit... 2... Instructions... (v)pmadd*" p.2_13 of Intel. (2022).Intel® 64 and IA-32 Architectures Optimization Reference Manual.Order Number: 248966-045 February 2022.
  31. ^"Ice Lake Client Microarchitecture Execution Units... Execution Unit... Vec ALU... # of Unit... 3... Instructions... (v)paddb/w/d/q" p.2_13 of Intel. (2022).Intel® 64 and IA-32 Architectures Optimization Reference Manual.Order Number: 248966-045 February 2022.
  32. ^"Golden Cove Microarchitecture Execution Units... Execution Unit... Vec Mul/FMA... # of Unit... 2x256-bit (1 or 2)x512-bit... Instructions... (v)pmadd*" p.2_9 of Intel. (2022).Intel® 64 and IA-32 Architectures Optimization Reference Manual.Order Number: 248966-045 February 2022.
  33. ^"Golden Cove Microarchitecture Execution Units... Execution Unit... Vec ALU... # of Unit... 3x256-bit... Instructions... (v)paddb/w/d/q" p.2_8 of Intel. (2022).Intel® 64 and IA-32 Architectures Optimization Reference Manual.Order Number: 248966-045 February 2022.
  34. ^"Intel® AVX2 Vector Neural Network Instructions (AVX2 VNNI) Vector instructions for deep learning extension for AVX2." Intel.Core™ Processors Datasheet, Volume 1 of 2.2022-04-04 duyệt lãm.
  35. ^"Intel® SDP for Desktop Based on Alder Lake S... Supported Technologies... Intel® AVX2 VNNI" Intel.Core™ Processors Datasheet, Volume 1 of 2.2022-04-04 duyệt lãm.
  36. ^"VPDPBUSD_YMMi32_YMMu32_YMMu32... throughput... 0.5... Latency... 5" L.2266 of Intel. (2022).Intel® Processors and Processor Cores based on Golden Cove Microarchitecture.March 2022 Revision 2.0.
  37. ^_mm_dpbusds_epi32( XMM128bit ) では CPIが đồng đẳng の0.5であることが minh kỳ されている.Intel Intrinsics Guide
  38. ^Hậu đằng hoằng mậu (2019 niên 2 nguyệt 1 nhật ). “Intelの10nm thế đại CPUコア “Sunny Cove” のカギとなるAVX-512”.PC Watch.Hậu đằng hoằng mậu のWeekly hải ngoại ニュース.2019 niên 12 nguyệt 22 nhậtDuyệt lãm.
  39. ^インテル® Xeon Phi™ コプロセッサー 7120P (16GB, 1.238 GHz, 61 コア) - chế phẩm sĩ dạng | インテル”.Intel.2024 niên 3 nguyệt 12 nhậtDuyệt lãm.
  40. ^Intel® Architecture Instruction Set Extensions Programming Reference”(pdf) ( anh ngữ ). p. 12(1-2). 2018 niên 4 nguyệt 30 nhật thời điểm のオリジナルよりアーカイブ.2017 niên 11 nguyệt 9 nhậtDuyệt lãm.AVX512F, AVX512CDのみ đáp tái されている chỉ が phán る.
  41. ^“Zen 4” コアでAVX-512 đối ứng を biểu minh”.PC Watch(2019 niên 2 nguyệt 1 nhật ).2022 niên 6 nguyệt 17 nhậtDuyệt lãm.
  42. ^Intel Architecture Day 2021: Alder Lake, Golden Cove, and Gracemont Detailed”( anh ngữ ).AnandTech(2021 niên 8 nguyệt 19 nhật ).2021 niên 8 nguyệt 25 nhậtDuyệt lãm.
  43. ^Alcorn, Paul (2021 niên 8 nguyệt 19 nhật ). “Intel Architecture Day 2021: Alder Lake Chips, Golden Cove and Gracemont Cores”( anh ngữ ).Tom's Hardware.2021 niên 8 nguyệt 21 nhậtDuyệt lãm.
  44. ^Alcorn, Paul (2022 niên 3 nguyệt 2 nhật ). “Intel Nukes Alder Lake's AVX-512 Support, Now Fuses It Off in Silicon”( anh ngữ ).Tom's Hardware.2022 niên 3 nguyệt 7 nhậtDuyệt lãm.
  45. ^"a new Intel AVX-512 extension called Intel DL Boost, which contains the Vector Neural Network instruction (VNNI). Designed to improve the throughput of integer linear algebra" Intel.Code Sample: Intel® AVX512-Deep Learning Boost: Intrinsic Functions.
  46. ^"the new instruction in VNNI VPDPBUSD replaces the three separate FMA instructions VPMADDUBSW, VPMADDWD, and VPADDD." Intel.Code Sample: Intel® AVX512-Deep Learning Boost: Intrinsic Functions.
  47. ^The Converged Vector ISA: Intel® Advanced Vector Extensions 10 Technical Paper”.Intel.8 May 2024Duyệt lãm.
  48. ^Bonshor, Gavin. “Intel Unveils AVX10 and APX Instruction Sets: Unifying AVX-512 For Hybrid Architectures”.AnandTech.4 May 2024Duyệt lãm.
  49. ^Chu thức hội xã インプレス. “Intel, Pコア/Eコア lạng đối ứng の tân 拡 trương mệnh lệnh セット “AVX10””.PC Watch.4 May 2024Duyệt lãm.
  50. ^The Converged Vector ISA: Intel® Advanced Vector Extensions 10
  51. ^Accelerate Artificial Intelligence (AI) Workloads with Intel Advanced Matrix Extensions (Intel AMX)”.Intel.2023 niên 4 nguyệt 13 nhậtDuyệt lãm.
  52. ^インテル cường cố なパフォーマンスと điện lực hiệu suất を đặc trường とするアーキテクチャーに cơ づく thứ thế đại インテル® Xeon® プラットフォームを công khai”.Intel.25 May 2024Duyệt lãm.

Quan liên hạng mục

[Biên tập]