NVIDIA Volta: Kiến trúc đồ họa dành cho AI và deep learning

Cụ thể hóa bằng chip Volta GV100 và bộ xử lý Tesla V100, NVIDIA giới thiệu nhân Tensor lần đầu tiên xuất hiện trong một kiến trúc đồ họa. Đây là loại nhân được NVIDIA phát triển nhằm phục vụ cho nhu cầu giải toán ma trận dành cho AI và deep learning, tăng cường sức mạnh cho những siêu máy chủ điện toán dùng trong hoạt động nghiên cứu khoa học.

Tái hiện sau 4 năm

Được NVIDIA công bố lần đầu tiên tại sự kiện Graphics Technology Conference 2013, Volta được xem là kiến trúc đồ họa nối tiếp Maxwell (tạo nên GTX 900 series) nhưng thực tế thì kiến trúc Pascal (tạo nên GTX 10 series) lại xuất hiện “xen ngang”, đẩy Volta thành kiến trúc đồ họa của tương lai.

Cho đến thời điểm hiện tại thì những bộ xử lý đồ họa dựa trên kiến trúc Pascal như GeForce GTX 1080 Ti hay Titan Xp mới ra mắt vẫn thống trị phân khúc đồ họa cao cấp dành cho game, dù loạt GPU Radeon kiến trúc Vega của đối thủ AMD dự kiến sẽ ra mắt vào cuối tháng 6 này. Tuy nhiên, với công bố được thiết kế để giúp người dùng làm việc hiệu quả trên các ứng dụng phức tạp và đa dạng hơn những kiến trúc cũ thì kiến trúc Volta phần nào chặn bớt “gió” của AMD về Radeon Vega Frontier Edition, ngay cả khi bộ xử lý đồ họa Tesla V100 (dùng kiến trúc Volta) được giới thiệu là sẽ nhắm vào các hệ thống siêu máy chủ tập trung xử lý dữ liệu.

Tương tự như lần ra mắt kiến trúc Pascal với chip GP100 năm ngoái, NVIDIA giới thiệu Volta bắt đầu với vị trí hàng đầu với chip “ngôi vương” GV100 dành cho những siêu máy tính như cỗ máy Oak Ridge. Theo thông tin đã công bố, GV100 là chip đồ họa kiến trúc Volta đầu tiên hỗ trợ lập lịch trình chuỗi độc lập, cho phép đồng bộ và kết hợp tốt hơn các luồng xử lý dữ liệu song song trong cùng một ứng dụng. Thông qua mô tả chi tiết của cỗ máy Oak Ridge, chip Volta GV100 sử dụng bộ nhớ HBM2 (dung lượng 16GB) cho băng thông bộ nhớ đạt đến 900GB/s và hỗ trợ giao tiếp NVLink chứ không dùng giao tiếp PCIe 3.0 thông dụng. 

Chắc chắn một điều rằng chẳng bao giờ NVIDIA nhắm đến việc sản xuất card đồ họa dùng chip GV100 cho người dùng cá nhân, bởi lẽ “gấu” như giới game thủ chuyên nghiệp sẽ chưa cần đến sức mạnh tuyệt đỉnh của Volta (do việc ứng dụng vào phát triển game sẽ chưa thể theo kịp công nghệ) và giá bán sản phẩm còn ở… “trên trời”. Thay vào đó, có thể NVIDIA sẽ tung ra những biến thể của Volta với khả năng bỏ qua loạt một loạt tính năng không nhất thiết phải có, như chuyển đổi bộ nhớ HBM2 và giao tiếp NVLink sang bộ nhớ mới GDDR6 của SK Hynix và giao tiếp PCIe 3.0 với mục đích giảm giá thành sản xuất. 

 

Chip “vương” Volta GV100 

Được chế tạo trên quy trình mới 12nm FFN do nhà sản xuất TSMC tùy chỉnh riêng cho NVIDIA, chip Volta GV100 phiên bản đầy đủ có 21,1 tỷ bóng bán dẫn trên diện tích 815 mm2, bao gồm 6 cụm xử lý đồ họa GPC (Graphics Processing Cluster), 84 bộ xử lý đa luồng SM (Streaming Multiprocessor), 42 cụm xử lý kết cấu bề mặt TPC (Texture Processing Cluster) và 8 trình điều khiển bộ nhớ 512-bit (tổng giao thức bộ nhớ 4.069-bit và hỗ trợ bộ nhớ 16GB chuẩn HBM2). Và do mỗi bộ xử lý đa luồng SM có 64 nhân FP32, 64 nhân INT32, 32 nhân FP64 và 8 nhân Tensor nên chip Volta GV100 bản đầy đủ có 5.376 nhân FP32, 5.376 nhân INT32, 2.688 nhân FP64 và 672 nhân Tensor. 

Tiếp tục đơn giản hóa việc lập trình và ứng dụng cho bộ xử lý đồ họa, chip Volta GV100 còn cải thiện việc sử dụng tài nguyên của GPU nhằm mang lại hiệu suất tính toán đáng kể và có thêm nhiều tính năng mới so với bản tiền nhiệm Pascal GP100. Mặt khác, NVIDIA cũng hứa hẹn GV100 là bộ xử lý cực kỳ tiết kiệm năng lượng, mang lại hiệu suất vượt trội cho từng Watt. 

Trong từng SM của kiến trúc Volta, việc kết hợp bộ đệm dữ liệu L1 và bộ nhớ chia sẻ vào một khối bộ nhớ đệm duy nhất cung cấp hiệu suất tổng thể tốt hơn cho cả hai nhu cầu truy cập bộ nhớ (bộ đệm và bộ nhớ chia sẻ), đảm bảo bộ nhớ đệm của chip GV100 có độ trễ thấp hơn nhiều và băng thông cao hơn bộ đệm L1 trong những chip đồ họa NVIDIA đời trước. Việc kết hợp cũng cho phép các hoạt động bằng bộ đệm L1 đạt được những lợi ích của hiệu suất như bằng ở bộ nhớ chia sẻ, giúp cải thiện đáng kể hiệu năng đồng thời đơn giản hoá việc lập trình, nhắm đến đạt hiệu suất ứng dụng tiệm cận mức cao nhất. 

Với dung lượng kết hợp đạt 128KB/SM, bộ nhớ đệm của chip Volta GV100 lớn hơn 7 lần so với chip Pascal GP100. Bộ nhớ đệm này có thể được sử dụng làm bộ đệm cho các ứng dụng không sử dụng bộ nhớ chia sẻ. Mặc dù bộ nhớ chia sẻ vẫn là sự lựa chọn tốt nhất cho nhu cầu tìm kiếm hiệu năng tối đa nhưng thiết kế kết hợp mới của kiến trúc Volta sẽ cho phép lập trình viên đạt được hiệu suất ứng dụng tuyệt vời và nhanh chóng với chip GV100 trong khi công sức lập trình ít hơn.

 

Bộ xử lý đồ họa Tesla V100

Là bộ xử lý đồ họa đời mới ứng dụng chip Volta GV100, Tesla V100 được NVIDIA giới thiệu là GPU hiệu năng cao nhất thế giới bởi được “tăng lực” bằng nhiều công nghệ đột phá. Bộ xử lý đồ họa tiên tiến này cung cấp nền tảng vượt trội cho các hệ thống máy tính hiệu năng cao (HPC) cả về khoa học tính toán (trong mô phỏng khoa học) và khoa học dữ liệu, có thể giúp các nhà khoa học giải quyết nhiều vấn đề mà trước đây không thể thực hiện. Bên cạnh đó, Tesla V100 còn được NVIDIA hướng tới cung cấp sức mạnh cho trí thông minh nhân tạo AI, huấn luyện deep training cùng một số công việc liên quan đến đồ họa cao cấp. 

Như NVIDIA công bố, Tesla V100 có 5.120 nhân CUDA, 21,1 tỷ bóng bán dẫn và xung nhịp đạt 1.455MHz. Trong khi đó, bộ xử lý đồ họa “gấu” nhất trong kiến trúc Pascal là Tesla P100 cũng chỉ có 3.840 nhân CUDA7 và 15 tỷ bóng bán dẫn, còn card đồ họa chơi game GeForce GTX 1060 thì “bèo” hơn hẳn với 1.280 nhân CUDA – bằng ¼ Tesla V100.

Thực tế, bộ xử lý đồ họa Tesla V100 không đủ 84 bộ xử lý đa luồng SM như chip GV100 bản đầy đủ mà có 4 SM bị vô hiệu. Với 80 SM được kích hoạt, số lượng SM trên Tesla V100 vẫn nhiều hơn đến 33% so với Tesla P100. Mặt khác, tuy thiếu 4 SM nên Tesla V100 chỉ còn 640 nhân Tensor (thiếu 32 nhân) nhưng chừng đó nhân Tensor cũng đã khiến Tesla V100 là bộ xử lý đồ họa đầu tiên trên thế giới phá vỡ ngưỡng 100 TFLOPS về hiệu suất deep learning. 

Tính năng đặc trưng trong kiến trúc đồ họa Volta

Bộ xử lý đa luồng SM (Streaming Multiprocessor) mới tối ưu hóa cho deep learning: Volta được tái thiết kế bộ xử lý đa luồng nên cho hiệu suất sử dụng năng lượng cao hơn kiểu thiết kế trong kiến trúc Pascal tới khoảng 50%. Với sự hỗ trợ của các nhân Tensor được thiết kế đặc biệt, Tesla V100 (Volta) cung cấp hiệu năng huấn luyện deep learning đạt trên 100 TFLOPs, gấp 5 lần so với Tesla P100 (Pascal). Sự kết hợp giữa bộ đệm dữ liệu L1 (Data Cache) và bộ nhớ chia sẻ (Shared Memory) tăng cường đáng kể hiệu năng phần cứng trong khi vẫn đơn giản hóa việc lập trình ứng dụng. 

NVLink thế hệ thứ 2: giao tiếp tốc độ cao NVIDIA NVLink cho băng thông cao hơn giao tiếp thông dụng PCIe 3.0 hiện nay từ 5-12 lần, có thể đạt tối đa lên đến 25GB/s, có nhiều kết nối hơn và cải thiện khả năng mở rộng cho những cấu hình hệ thống máy tính chạy đồ họa kép GPU hoặc đa GPU/CPU. Hiện tại, những siêu máy tính trang bị bộ xử lý đồ họa Tesla V100 có khả năng mở rộng cho đào tạo deep learning siêu nhanh qua 6 giao tiếp NVLink, nâng tổng băng thông lên đến 300GB/s.

Bộ nhớ HBM2: bộ nhớ mới của Samsung có thể đạt băng thông bộ nhớ đến 900GB/s. Nhờ đó, sự kết hợp của bộ nhớ HBM2 và trình điều khiển bộ nhớ thế hệ mới trong chip Volta GV100 có khả năng cung cấp băng thông bộ nhớ nhiều gấp 1,5 lần so với chip Pascal GP100.

Multi-Process Service (MPS): đây là đặc trưng mới của kiến trúc Volta cung cấp khả năng tăng tốc phần cứng của những thành phần quan trọng của máy chủ CUDA MPS, cho phép cải thiện hiệu suất và chất lượng dịch vụ tốt hơn trong nhiều ứng dụng đa tính toán cần chia sẻ GPU. Volta MPS cũng tối đa hóa gấp 3 lần số lượng MPS client, từ 16 ở kiến trúc Pascal lên con số 48.

Tùy chọn giữa 2 chế độ Sức mạnh tối đa và Hiệu suất tối đa. Trong chế độ Sức mạnh tối đa (Maximum Performance) Tesla V100 sẽ hoạt động không giới hạn hết mức TDP 300W nhằm khai thác hết mức những ứng dụng đòi hỏi tốc độ tính toán nhanh nhất và tốc độ truyền tải dữ liệu cao nhất. Ở chế độ Hiệu suất tối đa (Maximum Efficiency), nhà quản lý trung tâm dữ liệu có thể điều chỉnh mức độ sử dụng điện năng của Tesla V100 để hoạt động với hiệu suất tối ưu trên mỗi Watt. Mức giới hạn năng lượng có thể áp dụng cho nhiều GPU cùng lúc, giúp giảm đáng kể năng lượng tiêu thụ nhưng vẫn đảm bảo đạt được hiệu quả hoạt động cần thiết.

Giao tiếp NVIDIA NVLink thế hệ thứ hai không chỉ cho phép Tesla V100 liên kết đa GPU mà còn đạt tốc độ truyền tải dữ liệu tối đa giữa CPU và GPU lên đến 300GB/s, tăng cường sức mạnh cho những siêu máy chủ điện toán. Trong những thử nghiệm do NVIDIA thực hiện, Tesla V100 huấn luyện mạng nơ-ron nhân tạo (deep neural network) ResNet-50 nhanh hơn Tesla P100 khoảng 2,4 lần. Hơn thế nữa, với độ trễ mục tiêu mỗi hình ảnh khoảng 7ms, Tesla V100 có khả năng thực hiện suy luận bằng ResNet-50 nhanh hơn Tesla P100 khoảng 3,7 lần. Nhờ đó, những mô hình AI vốn tiêu tốn hàng tuần hoặc hàng tháng tài nguyên hệ thống giờ đây có thể được huấn luyện chỉ trong vài ngày. 

Tuy vậy, hình ảnh sản phẩm giới thiệu trên trang web của NVIDIA cho thấy Tesla V100 vẫn có phiên bản dùng giao tiếp PCIe 3.0.

 

Game thủ và Volta: tương lai còn xa

Sẽ không có tác động ngay lập tức nào gây ra bởi kiến trúc đồ họa Volta lên giới game thủ khi mà những biến thể của chip GV100 chưa xuất hiện, bởi NVIDIA sẽ không tung ra những card đồ họa dùng bộ nhớ HBM2 quá đắt đỏ dành cho game thủ. Điều này tương tự như phiên bản AMD Radeon Vega Frontier Edition sẽ chẳng bao giờ nhắm đến những người mê game. Tuy nhiên, những thông tin đầu tiên về Volta mở ra những gợi ý về năng lực của những bộ xử lý đồ họa GeForce thế hệ kế tiếp của NVIDIA. 

Có vẻ như còn khá lâu nữa NVIDIA mới tung thế hệ GPU GeForce kiến trúc Volta ra thị trường, bởi họ chỉ mới phát hành GTX 1080 Ti và Titan Xp. Thêm vào đó, Volga từng xuất hiện trên lịch trình của NVIDIA cho năm 2018, nên những game thủ mê công nghệ sẽ phải chờ thêm ít nhất là vài tháng nữa mới được sờ tận tay card đồ họa GeForce kiến trúc Volta. 

PC World VN 06/2017

Từ khóa: AI, AMD, card đồ hoạ, Deep Learing, GeForce, Hồng Linh, NVIDIA, Testla V100