NVIDIA giới thiệu GPU Pascal GP100 với 3840 nhân CUDA
NVIDIA giới thiệu GPU Pascal GP100 với 3840 nhân CUDA, trong đó kiến trúc Pascal là 1 kiến trúc đồ họa hoàn toàn mới. Mỗi 1 Streaming Multiprocessor của Pascal có 64 nhân CUDA (Maxwell là 128) mà Pascal có 60 SMx tức sẽ có 3840 nhân CUDA. Ngoài ra, 1 SM có 4 TMU nên tổng cộng ta sẽ có 240 TMUs. Mỗi SM có tỉ lệ 2:1 của FP32 so với FP64, điều nầy đồng nghĩa với hiệu suất FP64 của nó được cải thiện rất nhiều so với Kepler và Maxwell. GPU được sản xuất dựa tên tiến trình 16nm FINFET, nó có 16 GB bộ nhớ HBM2 với 8 bộ điều khiển bộ nhớ 512 bit cho tổng giao tiếp bộ nhớ là 4096 bit và đạt mức băng thông công bố là 720 GB/s. Thật không may là trên trang blog của NVIDIA lại không ghi đầy đủ hết và 1 điểm đáng chú ý là con Tesla P100 lại không phải dùng 1 phiên bản GP100 đầy đủ nầy.
Tính năng nổi bật chính của GPU Pascal GP100:
++ Hiệu năng tính toán cực cao High performance computing
++ Giao tiếp NVLink™ cho tốc độ giao tiếp với các thành phần khác cực cao
++ Bộ nhớ HBM2 có hiệu suất nhanh nhất với kiến trúc bộ nhớ xếp chồng
++ Unified Memory và Compute Preemption...tối ưu cho lập trình gì đó
++ Sản xuất với tiến trình 16nm FinFET có nhiều tính năng hơn, hiệu năng cao hơn và hiệu quả năng lượng tốt hơn
Tesla | K40 | M40 | P100 |
GPU | GK110 (Kepler) | GM200 (Maxwell) | GP100 (Pascal) |
SMs | 15 | 24 | 56 |
TPCs | 15 | 24 | 28 |
FP32 CUDA Cores / SM | 192 | 128 | 64 |
FP32 CUDA Cores / GPU | 2880 | 3072 | 3584 |
FP64 CUDA Cores / SM | 64 | 4 | 32 |
FP64 CUDA Cores / GPU | 960 | 96 | 1792 |
Base Clock | 745 MHz | 948 MHz | 1328 MHz |
Boost Clock | 810/875 MHz | 1114 MHz | 1480 MHz |
FP64 GFLOPs | 1680 | 213 | 5304 |
Texture Units | 240 | 192 | 224 |
Memory Interface | 384 bit GDDr5 | 384 bit GDDr5 | 4096 bit HBM2 |
Memory Size | 12 GB | 24 GB | 16 GB |
L2 Cache Size | 1536 KB | 3072 KB | 4096 KB |
Register File Size / SM | 256 KB | 256 KB | 256 KB |
Register File Size / GPU | 3840 KB | 6144 KB | 14336 KB |
TDP | 235W | 250W | 300W |
Transistors | 7.1 billion | 8 billion | 15.3 billion |
GPU Die Size | 551 mm2 | 601 mm2 | 610 mm2 |
Manufacturing Process | 28nm | 28nm | 16nm |
Compute Capability đã được NVIDIA update lên 6.0
GPU | Kepler GK110 | Maxwell GM200 | Pascal GP100 |
Compute Capability | 3.5 | 5.3 | 6.0 |
Threads/Warp | 32 | 32 | 32 |
Max Warps / Multiprocessor | 64 | 64 | 64 |
Max Threads / Multiprocessor | 2048 | 2048 | 2048 |
Max Thread Blocks / Multiprocessor | 16 | 32 | 32 |
Max 32-bit Registers / SM | 65536 | 65536 | 65536 |
Max Registers / Block | 65536 | 32768 | 65536 |
Max Registers / Thread | 255 | 255 | 255 |
Max Thread Block Size | 1024 | 1024 | 1024 |
CUDA Cores / SM | 192 | 128 | 64 |
Shared Memory Size / SM Configurations (bytes) | 16K/32K/48K | 96K | 64K |