نسل جدید پردازنده‌های گرافیکی RTX 2080 Ti

علمی و تکنولوژیرایانه و سخت افزار

- 97/08/09
نسل جدید پردازنده‌های گرافیکی RTX 2080 Tiسرانجام انویدیا به انتظارها پایان داد و مدتی پیش نسل جدید پردازنده‌های گرافیکی خود را با معماری تورینگ معرفی کرد.

زمان آن رسیده که نگاهی عمیق به پردازنده‌های سری RTX-20، نسل جدید پردازنده‌های گرافیکی انویدیا بیندازیم تا ببینیم شرکت تایوانی برایمان چه‌ چیز به ارمغان آورده است.

این پردازنده‌ها اولین سری هسته‌های گرافیکی هستند که توانایی اجرای رهگیری پرتو (یک فناوری که با دنبال نمودن خط نور تأثیر نور بر اشیاء و محیط را به‌صورت دقیق رندر می‌کند) را به‌ صورت بلادرنگ (Real-Time) دارا هستند. این قابلیت با بهره‌گیری از هسته‌های جدید RT و Tensor امکان‌پذیر شده است. اما علاوه‌ بر این‌ها پردازنده‌های گرافیکی جدید انویدیا به‌گونه‌ای طراحی شده‌اند که کارایی و گرافیک بازی‌های کنونی را نیز به‌صورت محسوسی بهبود ببخشند تا لذت بازی با نرخ فریم رزولوشن 4K را به کابران هدیه دهند.

انویدیا در مراسم رونمایی از GeForce RTX 2080 Ti اعداد و ارقام متنوعی از بهبود‌های صورت‌گرفته روی این پردازنده ارائه داد که شامل افزایش پهنای باند حافظه، فرکانس کاری، تعداد هسته‌های CUDA و... می‌شود. ما می‌خواهیم در این بررسی به اعماق پردازنده گرافیکی جدید انویدیا برویم و تغییرات معماری نسل Turing نسبت به Pascal را بررسی کنیم. همچنین به امکانات و ابزارهای جدید انویدیا می‌پردازیم که قدرت پردازنده‌های جدید را باز هم بیشتر می‌کند و می‌تواند توانایی پردازش هوش مصنوعی ابررایانه Saturn V را به کارت‌های گرافیک بیاورد.
مرور کلی پردازنده‌های Turing انویدیا

ابتدا با هم مشخصات کلی پردازنده گرافیکی TU102 به‌کاررفته در GeForce RTX 2080 Ti‌ را از زبان خود انویدیا مرور کنیم:

پردازنده TU102 از ۶ خوشه پردازش گرافیکی (GPCs)، ۳۶ خوشه پردازشی بافت (TPCs)، ۷۲ پردازنده چندگانه استریمینگ (SMs) تشکیل شده است. هر یک از خوشه‌های پردازش گرافیکی از یک موتور شطرنجی (Raster Engine) جانبی و ۶ پردازنده بافت - که هریک دو پردازنده استریمینگ دارند - تشکیل شده است. هر موتور استریمینگ نیز دارای ۶۴ هسته CUDA، هشت هسته Tensor با ۲۵۶ کیلوبایت ثبات (Register)، چهار واحد بافت و ۹۶ کیلوبایت حافظه مشترک سطح یک (L1) است که البته این حافظه می‌تواند با توجه به میزان فشار پردازشی مورد نظر روی مقادیر بیشتر یا کمتر تنظیم شود.

در کنار هر پردازنده استریمینگ یک هسته پردازشی RT وجود دارد که مجموعا می‌شود ۷۲ هسته. هر چه به سمت مدل‌های پایین‌تر پردازنده‌های سری ۲۰ برویم، تعداد این هسته‌ها کمتر می‌شود. برای مثال در RTX 2080 تعداد ۴۶ و در RTX 2070 تعداد ۳۶ هسته RT خواهید یافت.

حالا که این اعداد و ارقام را خواندید، اندازه و قدرت پردازنده‌های جدید گرافیکی انویدیا باید برایتان قابل توجه باشد. مساحت سیلیکون به‌کاررفته در این پردازنده ۷۵۴ میلی‌متر مربع است که نسبت به نسل قبلی یعنی RTX 1080 Ti با مساحت ۴۷۱ میلی‌متر مربع بسیار بزرگ به حساب می‌آید.

بهبود حافظه و Shading


می‌خواهیم قبل از اینکه به بررسی هسته‌های Tensor و RT برسیم، به بهبودهای صورت‌گرفته در عملکرد حافظه نسل جدید بپردازیم.

انویدیا مدعی است که GeForce RTX 2080‌ می‌تواند در بازی‌های معمولی تا ۵۰ درصد بهتر از GTX 1080 عمل کند. بسیاری از مقایسه‌ها درمورد بازی‌هایی انجام شده که دارای HDR هستند و پردازنده‌های سری GTX 10 را به زحمت می‌اندازند. انویدیا می‌گوید پردازنده‌های جدید RTX 2080‌ در بازی‌هایی که از فناوری DLSS پشتیبانی می‌کنند، عملکردی تا دو برابر بهتر از خود نشان می‌دهند و می‌تواند تا ۶۰ فریم بر ثانیه را برای بهترین بازی‌ها با رزولوشن 4K و HDR خروجی بدهد.

در بازی‌ها فقط حجم عملیات Shading نیست که سرعت اجرا را تعیین می‌کند. پهنای باند حافظه نیز می‌تواند به صورت مستقیم روی کیفیت اجرای بازی تأثیر بگذارد. معماری تورینگ فناوری فشرده‌سازی حافظه‌ی پاسکال را بهبود داده و همچنین برای اولین بار در RTX 2080 و RTX 2080 Ti از حافظه‌های GDDR6 شرکت مایکرون استفاده شده است که دارای پهنای باند ۱۴ گیگابیت در ثانیه‌ بوده و نسبت به نسل قبلی یعنی GDDR5X حدود ۲۰ درصد مصرف توان کمتری دارد. همچنین انویدیا در معماری تورینگ تداخل اطلاعات را ۴۰ درصد کاهش داده است.

همه این‌ها در کنار هم، بهبودی ۵۰ درصدی در پهنای باند حافظه را برای پردازنده RTX 2080 Ti نسبت به GTX 1080 Ti به ارمغان آورده است. در دنیای واقعی این بهبود موجب می‌شود پهنای باند کارت‌های حافظه جدید به ۶۱۶ گیگابایت بر ثانیه برسد که نسبت پردازنده‌های قبلی با پهنای باند ۴۸۴ گیگابایت بر ثانیه در همان اسلات یک پیشرفت بزرگ به حساب می‌آید. این قدرت را مدیون حافظه‌های نسل جدید GDDR6 هستیم.

همانطور که از معرفی یک معماری جدید انتظار می‌رود، انویدیا مجموعه‌ای از فناوری‌های جدید رونمایی کرده که توسعه‌دهندگان و بازی‌سازها می‌توانند از آن‌ها برای بهبود کارایی و جلوه‌های تصویری استفاده کنند.

فناوری Mesh Shading می‌تواند بخشی از بار پردازنده اصلی (CPU) را در حین ساختن تصاویر پیچیده بصری با ده‌ها هزار شئ به دوش بکشد. این فناوری از دو طبقه Shader تشکیل شده است. یک سطح، وظیفه‌ی تشخیص بخش‌هایی از صحنه را دارد که نیاز به رندر شدن دارند و سطح دیگر تشخیص می‌دهد هریک از این بخش‌ها به چه میزان جزییات نیاز دارند. برای مثال اشیاء نزدیک به جزییات بیشتر و اشیاء دور به جزییات کمتری در رندر نیازمند هستند.

انویدیا قدرت فناوری Mesh Shading را با یک دمو بسیار قابل توجه از پرواز یک سفینه فضایی با بیش از ۳۰۰ هزار فضانورد نمایش داد. دمو با نرخ رفرش ۵۰ فریم بر ثانیه به روز می‌شود. میزان جزییات این صحنه بسیار زیاد بود اما فناوری انویدیا توانسته بود با تشخیص صحیح، تعداد مثلث‌های رسم شده را از ۳ هزار میلیارد عدد ممکن به ۱۳ هزار عدد مؤثر کاهش دهد که کار خارق‌العاده‌ای است.

و در نهایت انویدیا فناوری Shading حوزه بافت (Texture Space Shading) را معرفی کرده است که به توسعه‌دهندگان اجازه می‌دهد به جای رندر یک صحنه، تمام محیط اطراف یک شئ را رندر کنند تا به این ترتیب به آن‌ها امکان دهد با یک بار رندر کردن تمام فضا آن را در فریم‌ها و پرسپکتیور‌های مختلف مورد استفاده قرار دهند.

تورینگ چگونه فریم‌ها را پردازش می‌کند؟


برای یک معماری استاندارد پردازنده گرافیکی، شاید همین اطلاعات کافی باشد، اما برای تورینگ نه! جزییات و ویژگی‌های فراوانی باقی مانده که به آن‌ها بپردازیم. اما قبل از این‌که بیشتر جلو برویم بیایید یک بار روند پردازش یک فریم در این معماری را با هم مرور کنیم.

اما احتمالا می‌دانید که پیاده‌سازی چنین قابلیتی در بازی‌ها برای کارت گرافیک چقدر پرهزینه است. حتی وجود هسته‌های اختصاصی RT نیز نمی‌تواند رهگیری پرتو واقعی را به بازی‌ها بیاورد. کاری که این هسته‌ها انجام می‌دهند به نوعی شبیه‌سازی این قابلیت است. اتفاقی که در واقع رخ می‌دهد این است که پردازنده گرافیکی ابتدا صحنه را بر اساس روش‌های معمول رندر می‌کند، سپس هسته‌های RT تأثیر نور، سایه‌ها و بازتاب‌ها را بر روی صحنه رندر شده بازسازی می‌کنند. نتیجه این روش بسیار خوب و قابل توجه از آب در می‌آید.

نحوه پیاده‌سازی رهگیری پرتو‌ از طریق محدود کردن حجم محاسبات در طی چند مرحله (Bounding volume hierarchy) است. در این روش پردازنده ابتدا بررسی می‌کند که کدام اشیاء در معرض تابش نور قرار گرفته‌اند. سپس به جای آن‌که تمام شئ را به مثلث‌ها تبدیل کرده و رندر کند، آن را به تعدادی مکعب تقسیم می‌کند و بررسی می‌کند که کدام مکعب‌ها در معرض شعاع نور هستند. سپس بار دیگر آن مکعب‌ها را بررسی و آن‌هایی که در معرض نور هستند به مکعب‌های کوچکتر تبدیل می‌کند و این روند را آن‌قدر ادامه می‌دهد تا به کوچک‌ترین مکعب‌های ممکن برسد. در آخرین مرحله محدوده هریک از مکعب‌ها را به مثلث تبدیل کرده و تأثیر نور بر آن‌ها را اعمال نموده و نتیجه کار را به شئ اصلی برمی‌گرداند.

روش انویدیا در تقسیم وظایف بین دو بخش برای انجام عملیات رهگیری پرتو باعث شده نتیجه بسیار شگفت‌انگیزی رقم بخورد. انویدیا می‌گوید نسل پردازنده‌های گرافیکی GTX 1080 Ti در بهترین حالت می‌توانستند به پردازش ۱/۱ میلیارد پرتو در ثانیه برسند در حالی که پردازنده گرافیکی جدید RTX 2080 Ti‌ می‌تواند در هر ثانیه بیش از ۱۰ میلیارد پرتو را پردازش کند و این یعنی پردازش بلادرنگ پرتو – چیزی که تا پیش از این تصور می‌کردیم صنعت بازی سال‌ها با آن فاصله داشته باشد - حاصل فناوری هیبرید Geforce RTX است.
هسته‌های Tensor و NGX

آنطور که انویدیا می‌گوید هسته‌های Tensor به صورت اختصاصی برای استفاده در هوش مصنوعی توسعه داده شده‌اند.

هسته‌های Tensor به صورت اختصاصی برای اجرای عملیات برداری/ماتریسی که هسته اصلی محاسبات یادگیری عمیق است طراحی شده‌اند.

در واقع Geforce RTX 20180 Ti ‌ و RTX 2080 اولین پردازنده‌های گرافیکی هستند که دارای هسته‌ی تنسور هستند. این هسته‌ها پیش از این در پردازنده‌های گران‌قیمت اختصاصی مراکز داده انویدیا (ولتا) دیده شده بودند. برخلاف ولتا، هسته‌های Tensor جدید دارای دو حالت INT4 و INT8 مورد استفاده در محاسبات غیر گرافیکی (که سطوحی از کوانتیزه شدن اعداد در آن‌ها امکان‌پذیر است) هستند. در واقع می‌توان گفت حالت FP16 در بازی‌ها مورد استفاده قرار می‌گیرد و کاربرد دو حالت جدید در عملیات و محاسبات هوش مصنوعی است. البته عملیات اعداد شناور در بازی‌ها بسیار ضروری و تأثیرگذار است و معماری تورینگ می‌تواند تا ۱۱۴ ترافلاپس از این نوع عملیات را در ثانیه اجرا کند.

تنور نیستا نویدیا کاربردهای جذاب دیگری نیز دارد


این شرکت ابررایانه Saturn V خود را به‌کار گرفته تا هوش مصنوعی را برای هرچه بهتر کردن بازدهی هسته‌های NGX آموزش دهد و سپس شبکه‌ی عصبی تربیت شده را هنگام نصب برنامه Nvidia experience به رایانه کاربران منتقل کند. پس از نصب این برنامه این هسته‌ها برای تطبیق هرچه بیشتر هوش مصنوعی انویدیا با رایانه شما بیشتر و بیشتر آن را آموزش می‌دهند.

ارزش سهام انویدیا به بالاترین سطح خود رسید


و در نهایت می‌رسیم به بخش مدیریت نمایشگر پردازنده‌های جدید. انویدیا در پردازنده‌های گرافیکی Geforce RTX 2070 ،2080 ،2080 Ti پشتیبانی از VirtualLink را برای انتقال تصویر، صدا و سایر داده‌های مورد نیاز در هدست‌های واقعیت مجازی از طریق USB-C افزوده است. معماری تورینگ همچنین از HDR بومی با تأخیر اندک به همراه Tone mapping تا رزولوشن 8K و نرخ به‌روز رسانی ۶۰ فریم بر ثانیه روی دو نمایشگر پشتیبانی می‌کند. انویدیا همچنین بهبودهایی در نحوه‌ی Encoding ‌و Decoding ویدئوها داده که می‌تواند برای علاقه‌مندان به پخش زنده فیلم و ویدئو جالب باشد.

در این مقاله سعی کردیم نگاهی عمیق داشته باشیم به پیشرفت‌ها و امکانات جدید که انویدیا در مرکز پردازنده‌های گرافیکی جدید خود قرار داده است. منتظر می‌مانیم تا این غول‌های پردازشی به دستمان برسد و آن‌چه توصیف شده را با چشم خودمان ببینیم.
advertising