NVIDIA giới thiệu GPU Pascal GP100 với 3840 nhân CUDA

Như vậy là tại GPU Technology Conference 2016 năm nay thì NVIDIA đã chính thức giới thiệu GPU Pascal GP100 với 3840 nhân CUDA. Đây chính là những thông tin quan trọng của con GPU mà chúng ta hay gọi là Big Pascal

Tags: card màn hình

NVIDIA giới thiệu GPU Pascal GP100 với 3840 nhân CUDA

NVIDIA giới thiệu GPU Pascal GP100 với 3840 nhân CUDA

NVIDIA giới thiệu GPU Pascal GP100 với 3840 nhân CUDA, trong đó kiến trúc Pascal là 1 kiến trúc đồ họa hoàn toàn mới. Mỗi 1 Streaming Multiprocessor của Pascal có 64 nhân CUDA (Maxwell là 128) mà Pascal có 60 SMx tức sẽ có 3840 nhân CUDA. Ngoài ra, 1 SM có 4 TMU nên tổng cộng ta sẽ có 240 TMUs. Mỗi SM có tỉ lệ 2:1 của FP32 so với FP64, điều nầy đồng nghĩa với hiệu suất FP64 của nó được cải thiện rất nhiều so với Kepler và Maxwell. GPU được sản xuất dựa tên tiến trình 16nm FINFET, nó có 16 GB bộ nhớ HBM2 với 8 bộ điều khiển bộ nhớ 512 bit cho tổng giao tiếp bộ nhớ là 4096 bit và đạt mức băng thông công bố là 720 GB/s. Thật không may là trên trang blog của NVIDIA lại không ghi đầy đủ hết và 1 điểm đáng chú ý là con Tesla P100 lại không phải dùng 1 phiên bản GP100 đầy đủ nầy.

Tính năng nổi bật chính của GPU Pascal GP100:
++ Hiệu năng tính toán cực cao High performance computing
++ Giao tiếp NVLink™ cho tốc độ giao tiếp với các thành phần khác cực cao
++ Bộ nhớ HBM2 có hiệu suất nhanh nhất với kiến trúc bộ nhớ xếp chồng
++ Unified Memory và Compute Preemption...tối ưu cho lập trình gì đó
++ Sản xuất với tiến trình 16nm FinFET có nhiều tính năng hơn, hiệu năng cao hơn và hiệu quả năng lượng tốt hơn

Tesla K40 M40 P100
GPU GK110 (Kepler) GM200 (Maxwell) GP100 (Pascal)
SMs 15 24 56
TPCs 15 24 28
FP32 CUDA Cores / SM 192 128 64
FP32 CUDA Cores / GPU 2880 3072 3584
FP64 CUDA Cores / SM 64 4 32
FP64 CUDA Cores / GPU 960 96 1792
Base Clock 745 MHz 948 MHz 1328 MHz
Boost Clock 810/875 MHz 1114 MHz 1480 MHz
FP64 GFLOPs 1680 213 5304
Texture Units 240 192 224
Memory Interface 384 bit GDDr5 384 bit GDDr5 4096 bit HBM2
Memory Size 12 GB 24 GB 16 GB
L2 Cache Size 1536 KB 3072 KB 4096 KB
Register File Size / SM 256 KB 256 KB 256 KB
Register File Size / GPU 3840 KB 6144 KB 14336 KB
TDP 235W 250W 300W
Transistors 7.1 billion 8 billion 15.3 billion
GPU Die Size 551 mm2 601 mm2 610 mm2
Manufacturing Process 28nm 28nm 16nm

Compute Capability đã được NVIDIA update lên 6.0

GPU Kepler GK110 Maxwell GM200 Pascal GP100
Compute Capability 3.5 5.3 6.0
Threads/Warp 32 32 32
Max Warps / Multiprocessor 64 64 64
Max Threads / Multiprocessor 2048 2048 2048
Max Thread Blocks / Multiprocessor 16 32 32
Max 32-bit Registers / SM 65536 65536 65536
Max Registers / Block 65536 32768 65536
Max Registers / Thread 255 255 255
Max Thread Block Size 1024 1024 1024
CUDA Cores / SM 192 128 64
Shared Memory Size / SM Configurations (bytes) 16K/32K/48K 96K 64K