Bước tới nội dung

FLOPS

Bách khoa toàn thư mở Wikipedia

Trongmáy tính,FLOPS(FLoating-point Operations Per Second) là một thước đo hiệu suất máy tính, đặc biệt là trong lĩnh vựctính toán khoa họcsử dụng nhiều các tính toán thập phân trong một giây.

1 tflops, hay 1 teraflops hay one trillion flops, là một nghìn tỷ con tính trong một giây, thường dùng để đo sức mạnh (performance) một hệ thốngsiêu máy tínhsong song. Đây là một khái niệm thường được sử dụng trong phép so sánh nhanh hay chậm giữa các phần cứng của máy tính trong quá trình huấn luyện của mạng neuron trong lĩnh vựctrí tuệ nhân tạo.

FLOPs của một số bộ xử lý

[sửa|sửa mã nguồn]
Vi kiến trúc ISA FP64 FP32 FP16
Intel CPU
Intel 80486 x87(32-bit) ? 0.128[1] ?
IntelP5Pentium
IntelP6Pentium Pro
x87(32-bit) ? 0.5[1] ?
IntelP5PentiumMMX
IntelP6Pentium II
MMX(64-bit) ? 1[2] ?
IntelP6Pentium III SSE(64-bit) ? 2[2] ?
IntelNetburstPentium 4(Willamette, Northwood) SSE2(64-bit) 2 4 ?
IntelP6Pentium M SSE2(64-bit) 1 2 ?
IntelNetburstPentium 4(Prescott, Cedar Mill)
IntelNetburstPentium D(Smithfield, Presler)
IntelP6Core(Yonah)
SSE3(64-bit) 2 4 ?
IntelCore(Merom,Penryn)
IntelNehalem[3](Nehalem,Westmere)
SSSE3(128-bit)
SSE4(128-bit)
4 8 ?
IntelAtom(Bonnell,Saltwell,SilvermontandGoldmont) SSE3(128-bit) 2 4 ?
IntelSandy Bridge(Sandy Bridge,Ivy Bridge) AVX(256-bit) 8 16 0
IntelHaswell[3](Haswell,Devil's Canyon,Broadwell)
IntelSkylake(Skylake,Kaby Lake,Coffee Lake,Comet Lake,Whiskey Lake,Amber Lake)
AVX2&FMA(256-bit) 16 32 0
IntelXeon Phi(Knights Corner) SSE&FMA(256-bit) 16 32 0
IntelSkylake-X(Skylake-X,Cascade Lake)
IntelXeon Phi(Knights Landing,Knights Mill)

IntelIce Lake,Tiger LakeandRocket Lake

AVX-512&FMA(512-bit) 32 64 0
AMD CPU
AMDBobcat AMD64(64-bit) 2 4 0
AMDJaguar
AMDPuma
AVX(128-bit) 4 8 0
AMDK10 SSE4/4a(128-bit) 4 8 0
AMDBulldozer[3](Piledriver,Steamroller,Excavator) AVX(128-bit) Bulldozer-Steamroller

AVX2(128-bit) Excavator

FMA3(Bulldozer)[4]

FMA3/4(Piledriver-Excavator)

4 8 0
AMDZen(Ryzen 1000 series, Threadripper 1000 series, EpycNaples)
AMDZen+[3][5][6][7](Ryzen 2000 series, Threadripper 2000 series)
AVX2&FMA(128-bit, 256-bit decoding)[8] 8 16 0
AMDZen 2[9](Ryzen 3000 series, Threadripper 3000 series, EpycRome))
AMDZen 3(Ryzen 5000 series)
AVX2&FMA(256-bit) 16 32 0
ARM CPU
ARM Cortex-A7, A9, A15 ARMv7 1 8 0
ARM Cortex-A32, A35, A53, A55,A72,A73,A75 ARMv8 2 8 0
ARM Cortex-A57[3] ARMv8 4 8 0
ARM Cortex-A76,A77,A78 ARMv8 8 16 0
ARM Cortex-X1 ARMv8 16 32 ?
QualcommKrait ARMv8 1 8 0
QualcommKryo(1xx - 3xx) ARMv8 2 8 0
QualcommKryo(4xx - 5xx) ARMv8 8 16 0
SamsungExynosM1 and M2 ARMv8 2 8 0
SamsungExynosM3 and M4 ARMv8 3 12 0
IBM PowerPCA2(Blue Gene/Q) ? 8 8 (as FP64) 0
Hitachi SH-4[10][11] SH-4 1 7 0
Nvidia GPU
NvidiaCurie(GeForce 6 seriesandGeForce 7 series) PTX ? 8 ?
NvidiaTesla2.0 (GeForce GTX 260-295) PTX ? 2 ?
NvidiaFermi(chỉ tính GeForce GTX 465–480, 560 Ti, 570-590) PTX 1/4 (locked by driver, 1 in hardware) 2 0
NvidiaFermi(chỉ tính Quadro 600-2000) PTX 1/8 2 0
NvidiaFermi(chỉ tính Quadro 4000–7000, Tesla) PTX 1 2 0
NvidiaKepler(GeForce (trừTitan and Titan Black), Quadro (except K6000), Tesla K10) PTX 1/12 (forGK110 2 0
NvidiaKepler(GeForce GTX Titan and Titan Black, Quadro K6000, Tesla (trừ K10)) PTX 2/3 2 0
NvidiaMaxwell
NvidiaPascal(không tính Quadro GP100 and Tesla P100)
PTX 1/16 2 1/32
NvidiaPascal(chỉ tính Quadro GP100 and Tesla P100) PTX 1 2 4
NvidiaVolta[12] PTX 1 2 (FP32) + 2 (INT32) 16
NvidiaTuring(chỉ tính GeForce16XX) PTX 1/16 2 (FP32) + 2 (INT32) 4
NvidiaTuring(không tính GeForce16XX) PTX 1/16 2 (FP32) + 2 (INT32) 16
NvidiaAmpere[13][14](chỉ tính Tesla A100/A30) PTX 2 2 (FP32) + 2 (INT32) 32
NvidiaAmpere(gồm GeForce và Quadro, Tesla A40/A10) PTX 1/32 2 (FP32) + 0 (INT32)or1 (FP32) + 1 (INT32) 8
AMD GPU
AMDTeraScale 1(Radeon HD 4000 series) TeraScale 1 0.4 2 ?
AMDTeraScale 2(Radeon HD 5000 series) TeraScale 2 1 2 ?
AMDTeraScale 3(Radeon HD 6000 series) TeraScale 3 1 4 ?
AMDGCN(chỉ tính Radeon Pro W 8100-9100) GCN 1 2 ?
AMDGCN(không tính Radeon Pro W 8100-9100, Vega 10-20) GCN 1/8 2 4
AMDGCN Vega 10 GCN 1/8 2 4
AMDGCN Vega 20(chỉ tính Radeon VII) GCN 2 4
AMDGCN Vega 20(chỉ tính Radeon Instinct MI50 / MI60 and Radeon Pro VII) GCN 1 2 4
AMDRDNA[15][16]
AMDRDNA 2
RDNA 1/8 2 4
AMDCDNA CDNA 1 4 (Tenxơ)[17] 16
AMDCDNA 2 CDNA 2 4 (Tenxơ) 4 (Tenxơ) 16
Qualcomm GPU
QualcommAdreno5x0 Adreno5xx 1 2 4
QualcommAdreno6x0 Adreno6xx 1 2 4
Graphcore
Graphcore Colossus GC2[18][19][20](values estimated) ? 0 18 72
Graphcore Colossus GC200 Mk2[21](values estimated) ? 0 36 144
Supercomputer
ENIAC@ 100 Khz with 385 Flops[22]
48-bit processor @ 208kHzinCDC 1604in 1960
60-bit processor @ 10 Mhz inCDC6600in 1964 0.3 (FP60)
60-bit processor @ 10 Mhz inCDC7600in 1967 1.0 (FP60)[23]
Cray-1@ 80 Mhz in 1976 2
CDC Cyber205 @ 50 Mhz in 1981 FORTRANcompiler

(ANSI 77 with vector extensions)

8 16
Vi kiến trúc ISA FP64 FP32 FP16

Source:[24]

  1. ^ab“home.iae.nl”.Bản gốclưu trữ ngày 19 tháng 10 năm 2021.
  2. ^ab“Computing Power throughout History”.alternatewars.Bản gốclưu trữ ngày 28 tháng 2 năm 2021.Truy cập ngày 13 tháng 2 năm 2021.
  3. ^abcdeDolbeau, Romain (2017). “Theoretical Peak FLOPS per instruction set: a tutorial”.Journal of Supercomputing.74(3): 1341–1377.doi:10.1007/s11227-017-2177-5.S2CID3540951.
  4. ^“New instructions support for Bulldozer (FMA3) and Piledriver (FMA3+4 and CVT,BMI,TBM)”(PDF).
  5. ^“Agner's CPU blog - Test results for AMD Ryzen”.
  6. ^“AMD's moment of Zen: Finally, an architecture that can compete”.Ars Technica.Truy cập 5 tháng 9 năm 2023.
  7. ^Mike Clark (23 tháng 8 năm 2016).A New x86 Core Architecture for the Next Generation of Computing(PDF).HotChips 28. AMD.Bản gốc(PDF)lưu trữ ngày 31 tháng 7 năm 2020.Truy cập ngày 9 tháng 11 năm 2021.page 7
  8. ^“The microarchitecture of Intel and AMD CPUs”(PDF).
  9. ^“AMD CEO Lisa Su's COMPUTEX 2019 Keynote”.youtube.
  10. ^“Entertainment Systems and High-Performance Processor SH-4”(PDF).Hitachi Review.Hitachi.48(2): 58–63. 1999.Truy cập ngày 21 tháng 6 năm 2019.
  11. ^“SH-4 Next-Generation DSP Architecture for VoIP”(PDF).Hitachi.2000.Truy cập ngày 21 tháng 6 năm 2019.
  12. ^“Inside Volta: The World's Most Advanced Data Center GPU”.10 tháng 5 năm 2017.
  13. ^“NVIDIA Ampere Architecture In-Depth”.14 tháng 5 năm 2020.
  14. ^“NVIDIA A100”.
  15. ^“Alles zu Navi: Radeon RX 5700 XT ist RDNA mit GDDR6”.
  16. ^“AMD Radeon RX 5700 XT”.
  17. ^“AMD Instinct MI100 Accelerator”.
  18. ^“6 threads per core imply that IPC is a multiple of 6, 1216 cores per chip”.youtube.
  19. ^“250 TFLOPs/s for two chips with FP16 mixed precision”.youtube.
  20. ^“Estimation via power consumption that FP32 is 1/4 of FP16 and that clock frequency is below 1.5GHz”.youtube.
  21. ^“Introducing Graphcore's Mk2 IPU systems”.youtube.
  22. ^“Computers of Yore”.clear.rice.edu.Truy cập ngày 26 tháng 2 năm 2021.
  23. ^“CDC 7600”,Wikipedia(bằng tiếng Anh), 16 tháng 9 năm 2020,truy cập ngày 26 tháng 2 năm 2021
  24. ^“Floating-Point Operations Per Second (FLOPS)”.