در جریان نمایشگاه CES 2025، دیجیتال فاندری درباره DLSS 4 و پیشرفتهای بسیار آن در Super Resolution و Ray Reconstruction و Frame Generation با برایان کاتانزارو، معاون تحقیقات Deep Learning انودیا، مصاحبه کرد.
کاتانزارو در مورد مدل Transformer جدیدی صحبت کرد که جایگزین CNN برای Super Resolution و Ray Reconstruction میشوند.
این مدل بسیار باهوشتر است که میتواند روی مجموعه دادههای بزرگتر آموزش داده شود و در نتیجه انتخابهای بهتری انجام دهد و کاستیهای تاریخی NVIDIA DLSS مانند شیمرینگ یا گوستینگ را بهبود ببخشد.
به عنوان مثال، مدل جدید Super Resolution، چهار برابر محاسبات بیشتری نسبت به مدل قبلی دارد.
کاتانزارو درباره هزینه پرفورمنس این مدل اطلاعات بیشتری ارائه نکرد، اما گفت که انویدیا معتقد است که این بهترین راه برای بازی کردن روی کارتهای گرافیک جدید GeForce RTX 50 مجهز به Blackwell است که اواخر این ماه عرضه میشوند.
کاتانزاور گفت:
وقتی در سری RTX40 انودیا DLSS 3 Frame Generation را ساختیم، چون بر اساس الگوریتم کار میکرد به محاسبه Optical Flow توسط شتاب دهنده سخت افزاری نیاز داشت.
ما در این سری( RTX40) هسته های تنسور کافی نداشتیم و فقط قادر به استفاده از الگوریتم توسط Optical Flow بودیم.
بنابراین در سری RTX40 ما از شتابدهنده Optical Flow استفاه کردیم که انویدیا سالها آن را بهعنوان تحولی در فناوری رمزگذار ویدیویی استفاده کرده بود و همچنین بخشی از شتابدهنده بینایی کامپیوتر برای خودروهای خودران بود.
که خب برای ما منطقی بود که Optical Flow برای DLSS 3 Frame Generation استفاده کنیم. اما بخش سخت در مورد هر نوع پیاده سازی سخت افزاری الگوریتمی مانند Optical Flow این است که اپتیمایز کردن آن واقعاً دشوار است.
ما مشکلات استفاده از سخت افزار Opical Flow را نمیتوانستیم با یک شبکه عصبی هوشمندتر جبران کنیم تا زمانی که تصمیم گرفتیم آن سخت افزار را بطور کامل جایگزین کنیم و آن چیزی نبود به جز استفاده از هسته های Tensor.
حال نیاز داشتیم یک راهحل کاملاً مبتنی بر هوش مصنوعی جدید بر مبنای Chatgpt ایجاد کنیم که از Tensor استفاده میکند و نه شتاب دهنده Optical Flow.
بدین ترتیب DLSS 4 خلق شد که مدل جدید Frame Generation روی Tensor Cores فرایند پذیر تر میشود که کمی سنگینتر است، اما در عوض از VRAM کمتری استفاده میکند و کیفیت تصویر بهبودیافتهای را ارائه میدهد (که Catanzaro آن را حیاتی میداند، به ویژه برای نسل جدید Multi Frame موجود در پردازندههای گرافیکی جدید RTX 50) و همچنین کارآمدتر است و طبق ادعای او هزینه پرفرمنس آن به چند فریم بیشتر محدود نمیشود.
سپس DF سپس پرسید که آیا مدل جدید می تواند به سخت افزارهای قدیمی مانند GeForce RTX 30 Series منتقل شود یا خیر، و رئیس NVIDIA DLSS این گزینه را رد نکرد.
کاتانزارو گفت:
من فکر می کنم این در درجه اول یک مورد کاملا مربوط به تیم بهینه سازی و همچنین تیم مهندسی و سپس تجربه نهایی کاربر است. ما فعلا در حال راهاندازی فریم جنریشن در سری RTX50 هستیم و خواهیم دید که آیا در آینده میتوانیم روی سخت افزار های قدیمی تر بررسی هایی داشته باشیم یا خیر.
به عنوان یادآوری، زمانی که انودیا فریم جنریشن را با کارتهای گرافیک RTX 40 معرفی کرد، خود کاتانزارو توضیح داد که این ویژگی منحصر به GPUهای جدید آن زمان است زیرا سری RTX40 شتابدهنده سختافزاری Optical Flow بسیار بهبود یافتهای نسبت به سری RTX 30 داشت. در آن زمان، او همچنین گفت که از نظر تئوری امکان پورت آن به سختافزار قدیمیتر وجود دارد، اگرچه احتمالاً این کار چندان سودمند نخواهد بود.
با حذف شتابدهنده سختافزاری Optical Flow و استفاده از هسته های Tensor در مدل جدید RTX50، به نظر میرسد درها برای استفاده از فریم جنریشن بر روی سری RTX30 نیز باز باشد.
با این حال، کاتانزارو همچنین گفت که در مدل فریم جنریشن جدید میزان استفاده از Tensor بالاتر میرود و بدیهی است که معماری Tensor های قدیمیتر عملکرد بدتری دارد. خواهیم دید که آیا انودیا واقعاً می تواند آن را محقق کند یا خیر.
در جای دیگری از مصاحبه، برایان کاتانزارو اهمیت جداسازی فلیپ مترینگ به روز شده از CPU را برای کاهش تغییرپذیری فریم تایم (و در نتیجه بهبود سرعت فریم) با ضرایب پنج تا ده نسبت به قبل را برجسته کرد.
در آخر او ادعا کرد که انجام یک بازی با Reflex 2 (که همچنین مبتنی بر هوش مصنوعی است) بسیار بیشتر حس "ارتباط" را القا میکند و او معتقد است که گیمرهای حساس به زمان تاخیر بسیار آن را دوست خواهند داشت.