NVIDIA tạo video chuyển động siêu chậm mượt mà bằng GPU Tesla V100

Kỹ thuật này được gọi là "nội suy đa khung độ dài thay đổi", sử dụng công nghệ machine learning để lấp đầy khoảng trống giữa các khung hình của video để tạo các phiên bản chuyển động chậm, mượt mà.

Thực tế cho thấy có nhiều người thích xem video chuyển động chậm (slow-motion). Ví dụ, kênh YouTube có tên The Slow Mo Guys của Gavin Free và Dan Gruchy rất được ưa thích với 1,5 tỷ lượt xem và trên 11 triệu lượt người theo dõi. Tuy nhiên, việc tạo nên video chuyển động chậm là không thực tế đối với hầu hết mọi người bởi chi phí thiết bị quay tốc độ cao cực kỳ tốn kém, mà khả năng lưu trữ những đoạn video siêu chậm cũng là vấn đề nan giải.

NVIDIA đã phát triển một kỹ thuật sử dụng mạng neural (neural network) để tạo nên đoạn video chuyển động chậm mượt mà từ cảnh quay chuẩn, với tốc độ khung hình mỗi giây lên đến 240fps. Trong đó, khả năng nội suy đa khung hình có độ dài thay đổi (variable-length multi-frame interpolation) ứng dụng tính năng máy học để chuyển đổi "ảo giác" giữa các khung hình, sáng tạo nên những khung hình “giả” và chèn chúng vào giữa những khung hình thật để làm nên đoạn video siêu mượt.

Kỹ thuật mới bao gồm hai mạng neural xoắn ốc (convolutional neural networks) song song. Mạng neural xoắn ốc đầu tiên sẽ làm ước tính khả năng tiến và lùi của dòng quang học giữa các khung hình, sau đó tạo ra “vùng chảy” (flow field) – vector 2D của chuyển động được dự đoán (sẽ được chèn vào giữa các khung hình thật. Mạng neural xoắn ốc thứ hai sẽ nội suy dòng quang học, tinh chỉnh “vùng chảy” xấp xỉ và dự đoán các bản đồ hiển thị để loại trừ những điểm ảnh bị che lấp trong khung hình.

Cuối cùng, các bản đồ hiển thị được áp dụng cho hình ảnh đầu vào cùng “vùng chảy” quang học trung gian được sử dụng để làm cong (bóp méo) theo cách sao cho khung hình trước chuyển tiếp mượt mà sang khung hình tiếp theo.

Kỹ thuật tạo video chuyển động siêu chậm nói trên này sử dụng GPU Nvidia Tesla V100 và giải pháp học sâu (deep learning) PyTorch.

Đại diện NVIDIA cho biết hệ thống tạo video chuyển động siêu chậm nói trên còn cần tối ưu hóa rất nhiều trước khi được sử dụng chính thức. Ngay cả khi hệ thống được thương mại hóa, hầu hết quá trình xử lý sẽ phải được thực hiện trên đám mây do giới hạn về phần cứng. 

Từ khóa: Hoàng Kim, khoa học máy tính, machine learning, NVIDIA