سلسلة وحدات معالجة الرسومات RTX 3000 من NVIDIA: إليك الجديد

أنفيديا

في الأول من سبتمبر 2020 ، كشفت NVIDIA عن مجموعتها الجديدة من وحدات معالجة الرسومات للألعاب: سلسلة RTX 3000 ، بناءً على معمارية Ampere الخاصة بها. سنناقش الجديد ، البرنامج المدعوم بالذكاء الاصطناعي المرفق به ، وجميع التفاصيل التي تجعل هذا الجيل رائعًا حقًا.

تعرف على وحدات معالجة الرسومات RTX 3000 Series

أنفيديا

كان إعلان NVIDIA الرئيسي هو وحدات معالجة الرسومات الجديدة اللامعة ، وكلها مبنية على عملية تصنيع مخصصة 8 نانومتر ، وكلها جلبت تسريعًا كبيرًا في كل من أداء التنقيط وتتبع الأشعة .

في الطرف الأدنى من التشكيلة ، هناك RTX 3070 ، والذي يأتي بسعر 499 دولارًا. إنها مكلفة بعض الشيء بالنسبة لأرخص بطاقة كشفت عنها NVIDIA في الإعلان الأولي ، لكنها سرقة مطلقة بمجرد أن تعلم أنها تتفوق على بطاقة RTX 2080 Ti الحالية ، وهي أعلى بطاقة تباع بانتظام بأكثر من 1400 دولار. ومع ذلك ، بعد إعلان NVIDIA ، انخفض سعر بيع الطرف الثالث ، حيث تم بيع عدد كبير منها على موقع eBay مقابل أقل من 600 دولار.

لا توجد معايير قوية حتى الإعلان ، لذلك ليس من الواضح ما إذا كانت البطاقة حقًا "أفضل" بشكل موضوعي من 2080 Ti ، أو ما إذا كانت NVIDIA تحرف التسويق قليلاً. كانت المعايير التي تم إجراؤها عند 4K ومن المحتمل أن يكون RTX قيد التشغيل ، مما قد يجعل الفجوة تبدو أكبر مما ستكون عليه في الألعاب النقطية البحتة ، حيث ستعمل سلسلة Ampere المستندة إلى أكثر من ضعف أداء Turing في تتبع الأشعة. ولكن ، مع كون تتبع الأشعة الآن شيئًا لا يضر بالأداء كثيرًا ، ويتم دعمه في أحدث جيل من وحدات التحكم ، فمن نقاط بيع رئيسية أن يتم تشغيله بسرعة مثل الرائد من الجيل الأخير لما يقرب من ثلث السعر.

من غير الواضح أيضًا ما إذا كان السعر سيبقى على هذا النحو. تضيف تصميمات الجهات الخارجية بانتظام ما لا يقل عن 50 دولارًا إلى السعر ، ومع مدى ارتفاع الطلب المحتمل ، لن يكون من المفاجئ رؤيتها تبيع مقابل 600 دولار في أكتوبر 2020.

تأتي RTX 3080 بسعر 699 دولارًا ، والذي يجب أن يكون أسرع بمرتين من RTX 2080 ، ويأتي أسرع بحوالي 25-30٪ من 3080.

ثم ، في النهاية ، الرائد الجديد هو RTX 3090 ، وهو ضخم كوميدي. تدرك NVIDIA جيدًا ، وقد أشارت إليها باسم "BFGPU" ، والتي تقول الشركة إنها تعني "وحدة معالجة الرسومات الكبيرة الشرسة".

أنفيديا

لم تعرض NVIDIA أي مقاييس أداء مباشرة ، لكن الشركة أظهرت أنها تشغل ألعاب 8K بسرعة 60 إطارًا في الثانية ، وهو أمر مثير للإعجاب. من المؤكد أن NVIDIA تستخدم DLSS للوصول إلى هذه العلامة ، لكن ألعاب 8K هي ألعاب 8K.

بالطبع ، سيكون هناك في النهاية 3060 ، وأشكال أخرى من البطاقات الموجهة نحو الميزانية ، ولكن هذه عادة ما تأتي لاحقًا.

لتبريد الأشياء فعليًا ، احتاج NVIDIA إلى تصميم أكثر برودة مجددًا. تم تصنيف 3080 لـ 320 واط ، وهو مرتفع جدًا ، لذلك اختارت NVIDIA تصميم مروحة مزدوجة ، ولكن بدلاً من كلا المعجبين vwinf الموضوعة في الأسفل ، وضعت NVIDIA مروحة في الطرف العلوي حيث تذهب اللوحة الخلفية عادةً. تقوم المروحة بتوجيه الهواء لأعلى نحو مبرد وحدة المعالجة المركزية وأعلى الهيكل.

تؤدي المروحة الصاعدة في وحدة معالجة الرسومات إلى تدفق هواء أفضل للحالة

أنفيديا

بالحكم على مقدار الأداء الذي يمكن أن يتأثر بتدفق الهواء السيئ في حالة ما ، فإن هذا منطقي تمامًا. ومع ذلك ، فإن لوحة الدوائر ضيقة للغاية بسبب هذا ، مما قد يؤثر على أسعار بيع الطرف الثالث.

DLSS: ميزة البرمجيات

لا يعد تتبع الشعاع الفائدة الوحيدة لهذه البطاقات الجديدة. حقا، كل شيء قليلا من الإختراق-سلسلة RTX 2000 و 3000 سلسلة لا أن الكثير أفضل في القيام راي اقتفاء الأثر الفعلي، بالمقارنة مع الأجيال الأكبر سنا من البطاقات. عادةً ما يستغرق Ray الذي يتتبع مشهدًا كاملاً في برنامج ثلاثي الأبعاد مثل Blender بضع ثوانٍ أو حتى دقائق لكل إطار ، لذا فإن فرضه الغاشم في أقل من 10 مللي ثانية أمر غير وارد.

بالطبع ، هناك أجهزة مخصصة لتشغيل حسابات الأشعة ، تسمى RT cores ، ولكن إلى حد كبير ، اختارت NVIDIA نهجًا مختلفًا. قامت NVIDIA بتحسين خوارزميات تقليل الضوضاء ، والتي تسمح لوحدات معالجة الرسومات بتقديم ممر واحد رخيص للغاية يبدو فظيعًا ، وبطريقة ما - من خلال سحر الذكاء الاصطناعي - تحول ذلك إلى شيء يريد اللاعب النظر إليه. عند دمجها مع التقنيات التقليدية القائمة على التنقيط ، فإنها توفر تجربة ممتعة معززة بتأثيرات راي تراك.

تم تنعيم الصورة المشوشة باستخدام جهاز NVIDIA denoiser

أنفيديا

ومع ذلك ، للقيام بذلك بسرعة ، أضافت NVIDIA أنوية معالجة خاصة بالذكاء الاصطناعي تسمى أنوية Tensor. هذه تعالج كل الرياضيات المطلوبة لتشغيل نماذج التعلم الآلي ، وتقوم بذلك بسرعة كبيرة. إنها مغيّر شامل للعبة AI في مساحة الخادم السحابي ، حيث يتم استخدام الذكاء الاصطناعي على نطاق واسع من قبل العديد من الشركات.

بالإضافة إلى تقليل الضوضاء ، يُطلق على الاستخدام الرئيسي لنوى Tensor للاعبين اسم DLSS ، أو أخذ العينات الفائقة للتعلم العميق. يأخذ في إطار منخفض الجودة ويقوم بترقيته إلى جودة أصلية كاملة. هذا يعني أنه يمكنك اللعب باستخدام إطارات مستوى 1080 بكسل ، أثناء النظر إلى صورة بدقة 4K.

يساعد هذا أيضًا في أداء تتبع الأشعة إلى حد ما - تُظهر المعايير من PCMag تحكم RTX 2080 Super قيد التشغيل بجودة فائقة ، مع كل إعدادات تتبع الأشعة إلى أقصى حد. عند 4K ، تكافح مع 19 إطارًا في الثانية فقط ، ولكن مع تشغيل DLSS ، تحصل على 54 إطارًا في الثانية أفضل بكثير. DLSS هو أداء مجاني لـ NVIDIA ، أصبح ممكنًا بفضل نوى Tensor على Turing و Ampere. يمكن لأي لعبة تدعمها وتكون مقتصرة على GPU أن تشهد تسريعًا خطيرًا فقط من البرنامج وحده.

DLSS ليست جديدة ، وقد تم الإعلان عنها كميزة عندما تم إطلاق سلسلة RTX 2000 قبل عامين. في ذلك الوقت ، كانت مدعومة بعدد قليل جدًا من الألعاب ، حيث تطلبت من NVIDIA تدريب وضبط نموذج التعلم الآلي لكل لعبة فردية.

ومع ذلك ، في ذلك الوقت ، أعادت NVIDIA كتابتها بالكامل ، واستدعت الإصدار الجديد DLSS 2.0. إنها واجهة برمجة تطبيقات للأغراض العامة ، مما يعني أن أي مطور يمكنه تنفيذها ، وقد تم التقاطها بالفعل من قبل معظم الإصدارات الرئيسية. بدلاً من العمل على إطار واحد ، فإنه يأخذ بيانات متجه الحركة من الإطار السابق ، على غرار TAA. تكون النتيجة أكثر وضوحًا من DLSS 1.0 ، وفي بعض الحالات ، تبدو في الواقع أفضل وأكثر وضوحًا من الدقة الأصلية ، لذلك لا يوجد سبب كبير لعدم تشغيلها.

هناك مشكلة واحدة - عند تبديل المشاهد تمامًا ، كما هو الحال في المشاهد المقطوعة ، يجب أن يعرض DLSS 2.0 الإطار الأول بجودة 50٪ أثناء انتظار بيانات متجه الحركة. يمكن أن يؤدي هذا إلى انخفاض طفيف في الجودة لبضعة أجزاء من الثانية. ولكن ، سيتم تقديم 99٪ من كل شيء تنظر إليه بشكل صحيح ، ولا يلاحظه معظم الأشخاص في الممارسة العملية.

معمارية Ampere: مُصممة خصيصًا للذكاء الاصطناعي

أمبير سريع. سريع للغاية ، خاصة في حسابات الذكاء الاصطناعي. يعتبر RT core أسرع 1.7 مرة من Turing ، ونواة Tensor الجديدة أسرع بـ 2.7 مرة من Turing. يعتبر الجمع بين الاثنين نقلة نوعية حقيقية في أداء راي تراك.

أنفيديا

في وقت سابق من شهر مايو ، أصدرت NVIDIA وحدة معالجة الرسومات Ampere A100 ، وهي وحدة معالجة رسومات مركز بيانات مصممة لتشغيل AI. مع ذلك ، قاموا بتفصيل الكثير مما يجعل Ampere أسرع بكثير. بالنسبة لأحمال عمل الحوسبة عالية الأداء ومركز البيانات ، فإن Ampere أسرع بنحو 1.7 مرة من Turing. بالنسبة لتدريب الذكاء الاصطناعي ، فهو أسرع بما يصل إلى 6 مرات.

أنفيديا

مع Ampere ، تستخدم NVIDIA تنسيقًا جديدًا للأرقام مصممًا ليحل محل معيار الصناعة "Floating-Point 32 ،" أو FP32 ، في بعض أحمال العمل. تحت الغطاء ، يأخذ كل رقم يعالجه جهاز الكمبيوتر الخاص بك عددًا محددًا مسبقًا من وحدات البت في الذاكرة ، سواء كان ذلك 8 بت أو 16 بت أو 32 أو 64 أو حتى أكبر. يصعب معالجة الأرقام الأكبر حجمًا ، لذا إذا كان بإمكانك استخدام حجم أصغر ، سيكون لديك قدر أقل من الطحن.

يخزن FP32 رقمًا عشريًا 32 بت ، ويستخدم 8 بتات لنطاق الرقم (ما مدى كبرها أو صغرها) ، و 23 بتًا للدقة. يدعي NVIDIA أن هذه البتات الـ 23 ليست ضرورية تمامًا للعديد من أحمال عمل الذكاء الاصطناعي ، ويمكنك الحصول على نتائج مماثلة وأداء أفضل بكثير من 10 منها فقط. يؤدي تقليل الحجم إلى 19 بتًا فقط ، بدلاً من 32 ، إلى إحداث فرق كبير عبر العديد من العمليات الحسابية.

يسمى هذا التنسيق الجديد Tensor Float 32 ، وتم تحسين Tensor Cores في A100 للتعامل مع التنسيق ذي الحجم الغريب. هذا ، بالإضافة إلى تقلصات القالب وزيادة العد الأساسي ، كيف يحصلون على تسريع هائل 6x في تدريب الذكاء الاصطناعي.

أنفيديا

علاوة على تنسيق الأرقام الجديد ، يشهد Ampere تسريعًا كبيرًا في الأداء في حسابات محددة ، مثل FP32 و FP64. لا تترجم هذه بشكل مباشر إلى المزيد من FPS للشخص العادي ، ولكنها جزء مما يجعلها أسرع بثلاث مرات تقريبًا في عمليات Tensor.

أنفيديا

بعد ذلك ، لتسريع العمليات الحسابية بشكل أكبر ، أدخلوا مفهوم التباين المنظم الدقيق ، وهي كلمة رائعة جدًا لمفهوم بسيط جدًا. تعمل الشبكات العصبية مع قوائم كبيرة من الأرقام ، تسمى الأوزان ، والتي تؤثر على الناتج النهائي. كلما زاد عدد الأعداد المطلوب حلها ، كان ذلك أبطأ.

ومع ذلك ، ليست كل هذه الأرقام مفيدة بالفعل. بعضها حرفيًا على الصفر ، ويمكن التخلص منه بشكل أساسي ، مما يؤدي إلى زيادة السرعة الهائلة عندما يمكنك معالجة المزيد من الأرقام في نفس الوقت. يعمل التباين بشكل أساسي على ضغط الأرقام ، الأمر الذي يتطلب جهدًا أقل لإجراء الحسابات باستخدامها. تم تصميم "Sparse Tensor Core" الجديد للعمل على البيانات المضغوطة.

على الرغم من التغييرات ، تقول NVIDIA أن هذا لا ينبغي أن يؤثر بشكل ملحوظ على دقة النماذج المدربة على الإطلاق.

أنفيديا

بالنسبة لحسابات Sparse INT8 ، وهي واحدة من أصغر تنسيقات الأرقام ، فإن ذروة الأداء لوحدة معالجة رسومات واحدة A100 تزيد عن 1.25 PetaFLOPs ، وهو رقم مرتفع بشكل مذهل. بالطبع ، هذا فقط عند معالجة نوع معين من الأرقام ، لكنه مثير للإعجاب مع ذلك.

مرحبا أنا تقنية

سلسلة وحدات معالجة الرسومات RTX 3000 من NVIDIA: إليك الجديد

تعرف على وحدات معالجة الرسومات RTX 3000 Series

DLSS: ميزة البرمجيات

معمارية Ampere: مُصممة خصيصًا للذكاء الاصطناعي

Default