क्या मुझे स्थिर प्रसार के लिए एक GPU की आवश्यकता है? पीसी गाइड, स्टेबल डिफ्यूजन बेंचमार्क: जो GPU AI सबसे फास्टेस्ट (अद्यतन) चलाता है | टॉम एस हार्डवेयर

स्थिर प्रसार बेंचमार्क: कौन सा GPU AI सबसे तेज़ (अद्यतन) चलाता है

हम एक पल में कुछ अन्य सैद्धांतिक कम्प्यूटेशनल प्रदर्शन संख्याओं को प्राप्त करेंगे, लेकिन फिर से RTX 2080 TI और RTX 3070 TI को एक उदाहरण के रूप में मानें. 2080 टीआई टेंसर कोर स्पार्सिटी का समर्थन नहीं करते हैं और FP16 गणना के 108 Tflops तक हैं. RTX 3070 Ti FP16 के 174 Tflops, या 87 Tflops FP16 के साथ स्पार्सिटी का समर्थन करता है. तथ्य यह है कि 2080 ti 3070 ti धड़कता है स्पष्ट रूप से इंगित करता है कि स्पार्सिटी एक कारक नहीं है. एक ही तर्क 2060 और 3050, या 2070 सुपर और 3060 टीआई जैसे अन्य तुलनाओं पर लागू होता है.

क्या मुझे स्थिर प्रसार के लिए एक GPU की आवश्यकता है?

क्या आप सोच रहे हैं कि क्या आपको स्थिर प्रसार के लिए GPU की आवश्यकता है या नहीं? आप सही जगह पर आए है.

स्थिर प्रसार निस्संदेह एक तेज और सहज ज्ञान युक्त एआई आर्ट-जनरेटिंग टूल जैसे डल-ई और मिडजॉर्नी है. इसके परिणाम प्रभावशाली हैं, इसलिए इसके लाखों उपयोगकर्ता अभी हैं. हालांकि, यदि आप इसे अपने पीसी पर उपयोग करना चाहते हैं, तो सुनिश्चित करें कि आवश्यकताएं पूरी हो जाए, खासकर जब यह ग्राफिक्स कार्ड की बात आती है. जिसके बारे में बोलते हुए, हम इस बारे में बात करेंगे कि क्या स्थिर प्रसार जीपीयू के बिना काम कर सकता है, या यदि आपको अभी भी ठीक से काम करने के लिए ग्राफिक्स कार्ड की आवश्यकता है.

जीपीयू, या ग्राफिक्स कार्ड, टेक के छोटे टुकड़े हैं जो किसी भी गेमिंग या रचनात्मक पेशेवर अनुभव को गंभीरता से अपग्रेड करेंगे. वे अधिक वाणिज्यिक या पेशेवर स्तर पर एआई उत्पन्न कला बनाने के लिए एक आवश्यक हैं.

आवश्यक एआई उपकरण

एक्सक्लूसिव डील 10,000 फ्री बोनस क्रेडिट

. Jasper के साथ वास्तविक सामग्री बनाने वाले 100,000+ ग्राहक. एक एआई टूल, सभी बेहतरीन मॉडल.

एआई सामग्री जनरेटर की पूरी शक्ति का अनुभव करें जो सेकंड में प्रीमियम परिणाम प्रदान करता है. 8 मिलियन उपयोगकर्ता ब्लॉग लिखने का आनंद लेते हैं 10x तेजी से, आसानी से उच्च परिवर्तित सोशल मीडिया पोस्ट या अधिक आकर्षक ईमेल लिखना. . और पढ़ें

केवल $ 0.00015 प्रति शब्द!

विंस्टन एआई: सबसे भरोसेमंद एआई डिटेक्टर. विंस्टन एआई चैट, जीपीटी -4, बार्ड, बिंग चैट, क्लाउड, और कई और अधिक एलएलएम के साथ उत्पन्न एआई सामग्री की जांच में मदद करने के लिए उद्योग अग्रणी एआई सामग्री का पता लगाने वाला उपकरण है।. और पढ़ें

केवल $ 0.

मौलिकता एआई डिटेक्टर

मोलिकता.एआई सबसे सटीक एआई का पता लगाने वाला है.1200 डेटा नमूनों के एक परीक्षण डेटा सेट के पार इसने 96% की सटीकता हासिल की, जबकि इसके निकटतम प्रतियोगी ने केवल 35% हासिल किया. उपयोगी क्रोम विस्तार. ईमेल, Google डॉक्स और वेबसाइटों पर पता लगाता है. और पढ़ें

*कीमतों में बदलाव हो सकता है. पीसी गाइड पाठक-समर्थित है. जब आप हमारी साइट पर लिंक के माध्यम से खरीदते हैं, तो हम एक संबद्ध आयोग कमा सकते हैं. और अधिक जानें

तो क्या आपको काम करने के लिए स्थिर प्रसार से ग्राफिक्स कार्ड की आवश्यकता है? या कोई दूसरे को बदल सकता है? चलो पता करते हैं.

स्थिर प्रसार के लिए एक GPU आवश्यक है?

हां, बिना किसी समस्या के सुचारू रूप से काम करने के लिए स्थिर प्रसार के लिए, आपके पास अपने पीसी पर एक GPU होना चाहिए. न्यूनतम के लिए, 8-10 gb nvidia मॉडल देखें. इसके अलावा, सुनिश्चित करें कि आपके पास किसी भी अस्थिरता से बचने के लिए पीसी सिस्टम में 16 जीबी पीसी रैम है.

GPU धीमी प्रतिक्रिया गति जैसे मुद्दों में दौड़ने के बिना स्थिर प्रसार चलाएगा. यह कहने के लिए कि स्थिर प्रसार विशेष रूप से ग्राफिक्स कार्ड पर सबसे अच्छा चलता है. . ये किट के गंभीर रूप से शक्तिशाली टुकड़े हैं जो आपको एक त्वरित सेवा की गारंटी देंगे.

क्या एएमडी जीपीयू पर स्थिर प्रसार चलाना संभव है?

हां, आप एनवीडिया सीरीज़ मॉडल के अलावा, एएमडी जीपीयू पर भी स्थिर प्रसार चला सकते हैं. हालांकि, एएमडी का उपयोग करने के लिए, सुनिश्चित करें कि आपके पास RX470 के ऊपर एक मॉडल है. इसके अलावा, सर्वोत्तम परिणामों के लिए, किसी भी असुविधा से बचने के लिए एक और 8GB या उससे ऊपर होना सुनिश्चित करें.

पूछे जाने वाले प्रश्न

Apple मैक प्रोसेसर पर स्थिर प्रसार कार्य कर सकते हैं?

हां, स्थिर प्रसार Apple मैक पुस्तकों का समर्थन करता है. . इससे पहले कोई भी मॉडल सर्वोत्तम परिणामों के लिए नहीं है. यहां तक ​​कि एक पुराना M1 और M2 मॉडल भी ठीक हो जाएगा यदि यह आवश्यकताओं को पूरा करता है.

निष्कर्ष

. GPU या अन्य ग्राफिकल सपोर्ट के लिए नवीनतम और सबसे तेज़ मॉडल रखने की कोशिश करें. इसलिए, स्थिर प्रसार के लिए, GPU होना सबसे अच्छा है. हालांकि इसे जीपीयू के बिना इसे चलाने के कुछ तरीके हैं, वे उतने विश्वसनीय नहीं हैं जितना वे लग सकते हैं. तो, सबसे अच्छा परिणाम के लिए स्थिर प्रसार चलाने से पहले एक अच्छा ग्राफिक्स कार्ड सुनिश्चित करें.

एक ग्राफिक्स कार्ड भी आपके पीसी का अधिकतम लाभ उठाने के लिए एक अच्छा विचार है. वे गेमिंग और रचनात्मक अनुभवों को दस गुना सुधारते हैं. यदि आपको उन विचारों की आवश्यकता है, जिनके पास जाना है, तो हमारे यहाँ बहुत अच्छे ग्राफिक्स कार्ड के राउंड-अप की जाँच करें.

स्थिर प्रसार बेंचमार्क: कौन सा GPU AI सबसे तेज़ (अद्यतन) चलाता है

स्थिर प्रसार नमूना चित्र

आर्टिफिशियल इंटेलिजेंस और डीप लर्निंग लगातार इन दिनों सुर्खियों में हैं, चाहे वह चैट हो, गरीब सलाह, सेल्फ-ड्राइविंग कारें, कलाकारों को एआई का उपयोग करने का आरोप लगाया जा रहा है, एआई से चिकित्सा सलाह, और बहुत कुछ. इन उपकरणों में से अधिकांश प्रशिक्षण के लिए बहुत सारे हार्डवेयर के साथ जटिल सर्वर पर भरोसा करते हैं, लेकिन प्रशिक्षित नेटवर्क का उपयोग करके आपके पीसी पर, इसके ग्राफिक्स कार्ड का उपयोग करके किया जा सकता है. लेकिन एआई इंट्रेंस करने के लिए उपभोक्ता जीपीयू कितनी तेजी से हैं?

. यदि आप संयोग से स्थिर प्रसार को प्राप्त करने और अपने स्वयं के पीसी पर चलने की कोशिश करते हैं, तो आपके पास कितना जटिल है – या सरल हो सकता है! – वो हो सकता है. संक्षिप्त सारांश यह है कि NVIDIA का GPU रोस्ट पर शासन करता है, जिसमें अधिकांश सॉफ़्टवेयर CUDA और अन्य NVIDIA टूलसेट का उपयोग करके डिज़ाइन किए गए हैं. लेकिन इसका मतलब यह नहीं है कि आप अन्य GPU पर स्थिर प्रसार नहीं कर सकते हैं.

हमने अपने परीक्षण के लिए तीन अलग -अलग स्थिर प्रसार परियोजनाओं का उपयोग किया, ज्यादातर इसलिए कि हर जीपीयू पर कोई एकल पैकेज काम नहीं करता है. NVIDIA के लिए, हमने स्वचालित 1111 के Webui संस्करण का विकल्प चुना; इसने सबसे अच्छा प्रदर्शन किया, अधिक विकल्प थे, और चलाने के लिए आसान था. एएमडी जीपीयू का परीक्षण एनओडी का उपयोग करके किया गया था.एआई का शार्क संस्करण – हमने एनवीडिया जीपीयू (वल्कन और क्यूडा मोड दोनों में) पर प्रदर्शन की जाँच की और पाया कि यह था. अभाव. इंटेल का आर्क जीपीयू चलाना समर्थन की कमी के कारण थोड़ा अधिक कठिन था, लेकिन स्थिर प्रसार ओपनविनो ने हमें कुछ दिया बहुत मूल कार्यक्षमता.

अस्वीकरण क्रम में हैं. हमने इनमें से किसी भी टूल को कोड नहीं किया, लेकिन हमने उन सामानों की तलाश की, जिन्हें रनिंग (विंडोज के नीचे) करना आसान था जो कि उचित रूप से अनुकूलित लग रहा था. हम अपेक्षाकृत आश्वस्त हैं कि NVIDIA 30-Series परीक्षण इष्टतम प्रदर्शन के करीब निकालने का एक अच्छा काम करते हैं-विशेष रूप से जब Xformers सक्षम होता है, जो प्रदर्शन में अतिरिक्त ~ 20% बढ़ावा प्रदान करता है (हालांकि कम सटीकता पर जो गुणवत्ता को प्रभावित कर सकता है). आरटीएक्स 40-सीरीज़ के परिणाम इस बीच शुरू में कम थे, लेकिन जॉर्ज एसवी 8 आरजे ने यह फिक्स प्रदान किया, जहां पाइटोरच क्यूडा डीएलएल की जगह पर प्रदर्शन को एक स्वस्थ बढ़ावा मिला।.

AMD परिणाम भी एक मिश्रित बैग का एक सा है: rDNA 3 GPU बहुत अच्छा प्रदर्शन करते हैं जबकि rDNA 2 GPUs बल्कि औसत दर्जे का लगता है. सिर हिलाकर सहमति देना.AI हमें बताएं. अंत में, इंटेल जीपीयू पर, भले ही अंतिम प्रदर्शन एएमडी विकल्पों के साथ शालीनता से लाइन करता है, व्यवहार में रेंडर करने का समय काफी लंबा होता है – वास्तविक पीढ़ी के कार्य से पहले 5-10 सेकंड लगते हैं, और शायद बहुत कुछ अतिरिक्त पृष्ठभूमि सामान हो रहा है जो इसे धीमा कर देता है.

हम सॉफ्टवेयर परियोजनाओं की पसंद के कारण विभिन्न स्थिर प्रसार मॉडल का भी उपयोग कर रहे हैं. सिर हिलाकर सहमति देना.AI का शार्क संस्करण SD2 का उपयोग करता है.1, जबकि स्वचालित 1111 और OpenVino SD1 का उपयोग करते हैं.4 (हालांकि यह SD2 को सक्षम करना संभव है.1 स्वचालित 1111 पर). फिर, यदि आपके पास स्थिर प्रसार के कुछ ज्ञान है और विभिन्न ओपन सोर्स प्रोजेक्ट्स की सिफारिश करना चाहते हैं, जो हमारे द्वारा उपयोग किए गए से बेहतर चल सकते हैं, तो हमें टिप्पणियों में बताएं (या सिर्फ ईमेल करें).

हमारे परीक्षण पैरामीटर सभी GPU के लिए समान हैं, हालांकि इंटेल संस्करण पर एक नकारात्मक शीघ्र विकल्प के लिए कोई विकल्प नहीं है (कम से कम, ऐसा नहीं कि हम पा सकते हैं). उपरोक्त गैलरी NVIDIA GPU पर स्वचालित 1111 के Webui का उपयोग करके उत्पन्न की गई थी, जिसमें उच्च रिज़ॉल्यूशन आउटपुट (जो बहुत अधिक लेता है), अधिकता पूरा करने के लिए). यह एक ही संकेत है, लेकिन 512×512 के बजाय 2048×1152 को लक्षित करना हमने अपने बेंचमार्क के लिए उपयोग किया था. ध्यान दें कि हमारे द्वारा चुनी गई सेटिंग्स को तीनों एसडी परियोजनाओं पर काम करने के लिए चुना गया था; कुछ विकल्प जो थ्रूपुट में सुधार कर सकते हैं वे केवल स्वचालित 1111 के निर्माण पर उपलब्ध हैं, लेकिन बाद में उस पर अधिक. यहाँ प्रासंगिक सेटिंग्स हैं:

सकारात्मक शीघ्र:
Postapocalyptic स्टीमपंक सिटी, अन्वेषण, सिनेमाई, यथार्थवादी, हाइपर विस्तृत, फोटोरिअलिस्टिक अधिकतम विवरण, वॉल्यूमेट्रिक लाइट, ((फोकस)), वाइड-एंगल, ((उज्ज्वल रूप से जलाया)), ((वनस्पति)), लाइटनिंग , बेलों, विनाश, तबाही, वार्टोर्न, खंडहर

नकारात्मक संकेत:
(((धुंधली))), ((धूमिल)), ((अंधेरा)), ((मोनोक्रोम)), सूर्य, ((((क्षेत्र की गहराई))))

कदम:
100

क्लासिफायर मुक्त मार्गदर्शन:
15.0

नमूना एल्गोरिथ्म:
कुछ यूलर संस्करण (स्वचालित 1111 पर पैतृक, एएमडी पर शार्क यूलर असतत)

सैंपलिंग एल्गोरिथ्म प्रदर्शन को प्रमुख रूप से प्रभावित नहीं करता है, हालांकि यह आउटपुट को प्रभावित कर सकता है. स्वचालित 1111 सबसे अधिक विकल्प प्रदान करता है, जबकि इंटेल ओपनविनो बिल्ड आपको कोई विकल्प नहीं देता है.

यहाँ AMD RX 7000/6000-सीरीज़, NVIDIA RTX 40/30-सीरीज़, और इंटेल आर्क ए-सीरीज़ जीपीयू के हमारे परीक्षण के परिणाम हैं।. ध्यान दें कि प्रत्येक NVIDIA GPU के दो परिणाम हैं, एक डिफ़ॉल्ट कम्प्यूटेशनल मॉडल (धीमी और काले रंग में) का उपयोग करके और फेसबुक से तेजी से “Xformers” लाइब्रेरी का उपयोग करके एक दूसरा (तेज और हरे रंग में).

. टार्च के लिए डीएलएल फिक्स के साथ, आरटीएक्स 4090 एक्सफॉर्मर के साथ आरटीएक्स 3090 टीआई की तुलना में 50% अधिक प्रदर्शन करता है, और एक्सफॉर्मर के बिना 43% बेहतर प्रदर्शन. प्रत्येक छवि को उत्पन्न करने में सिर्फ तीन सेकंड से अधिक समय लगता है, और यहां तक ​​कि RTX 4070 Ti 3090 Ti से पिछले भाग में सक्षम है (लेकिन यदि आप Xformers को अक्षम करते हैं).

Nvidia GPUs के लिए शीर्ष कार्ड से एक सुंदर सुसंगत फैशन में चीजें गिरती हैं, 3090 से 3050 तक नीचे तक. इस बीच, AMD का RX 7900 XTX RTX 3090 Ti (अतिरिक्त रिटेस्टिंग के बाद) को जोड़ता है, जबकि RX 7900 XT RTX 3080 TI को जोड़ता है. 7900 कार्ड काफी अच्छे लगते हैं, जबकि हर RTX 30-सीरीज़ कार्ड AMD के RX 6000-सीरीज़ पार्ट्स (अभी के लिए) की पिटाई करता है. अंत में, इंटेल आर्क जीपीयू लगभग आखिरी में आते हैं, केवल A770 के साथ RX 6600 को पछाड़ने के लिए प्रबंधन. आइए विसंगतियों के बारे में थोड़ी और बात करते हैं.

उचित अनुकूलन आरएक्स 6000-सीरीज़ कार्ड पर प्रदर्शन को दोगुना कर सकता है. सिर हिलाकर सहमति देना.एआई का कहना है कि इसे आने वाले दिनों में आरडीएनए 2 के लिए मॉडल करना चाहिए था, जिस बिंदु पर समग्र रूप से स्टैंडिंग को सैद्धांतिक प्रदर्शन के साथ बेहतर संबंध बनाना शुरू करना चाहिए. नट की बात करना.एआई, हमने उस परियोजना का उपयोग करके कुछ एनवीडिया जीपीयू के कुछ परीक्षण भी किए, और वल्कन मॉडल के साथ एनवीडिया कार्ड स्वचालित 1111 के निर्माण की तुलना में काफी धीमे थे (15).52 IT/S 4090, 13 पर.31 4080 पर, 11.3090 टीआई पर 41, और 10.3090 पर 76 – हम अन्य कार्डों का परीक्षण नहीं कर सके क्योंकि उन्हें पहले सक्षम करने की आवश्यकता है).

ट्यून किए गए मॉडल का उपयोग करके 7900 कार्ड के प्रदर्शन के आधार पर, हम एनवीडिया कार्ड के बारे में भी उत्सुक हैं और वे अपने टेंसर कोर से कितना लाभान्वित करने में सक्षम हैं. कागज पर, 4090 में RX 7900 XTX – और 2 के प्रदर्शन का पांच गुना अधिक है.7 बार प्रदर्शन भले ही हम कमी को छूट दें. व्यवहार में, अभी 4090 XTX की तुलना में केवल 50% तेज है, हमारे द्वारा उपयोग किए जाने वाले संस्करणों के साथ (और यदि हम कम सटीकता Xformers परिणाम को छोड़ देते हैं तो केवल 13% तक गिरता है). वही तर्क इंटेल के आर्क कार्ड पर भी लागू होता है.

इंटेल के एआरसी जीपीयू वर्तमान में बहुत निराशाजनक परिणाम प्रदान करते हैं, खासकर जब से वे FP16 XMX (मैट्रिक्स) संचालन का समर्थन करते हैं, जो नियमित रूप से FP32 संगणना के रूप में 4x थ्रूपुट तक पहुंचाना चाहिए. हमें वर्तमान स्थिर प्रसार ओपनविनो प्रोजेक्ट पर संदेह है कि हमने उपयोग किया है कि सुधार के लिए बहुत सारी जगह छोड़ दें. संयोग से, यदि आप एक आर्क जीपीयू पर एसडी की कोशिश करना और चलाना चाहते हैं, तो ध्यान दें कि आपको ‘stable_diffusion_engine’ संपादित करना होगा.PY ‘फ़ाइल और “CPU” को “GPU” में बदलें – अन्यथा यह गणना के लिए ग्राफिक्स कार्ड का उपयोग नहीं करेगा और काफी अधिक समय लेता है.

कुल मिलाकर, निर्दिष्ट संस्करणों का उपयोग करते हुए, एनवीडिया के आरटीएक्स 40-सीरीज़ कार्ड सबसे तेज़ विकल्प हैं, इसके बाद 7900 कार्ड, और फिर आरटीएक्स 30-सीरीज़ जीपीयू. आरएक्स 6000-सीरीज़ अंडरपरफॉर्म, और आर्क जीपीयू आम तौर पर गरीब दिखते हैं. अद्यतन सॉफ्टवेयर के साथ चीजें मौलिक रूप से बदल सकती हैं, और एआई की लोकप्रियता को देखते हुए हमें उम्मीद है कि बेहतर ट्यूनिंग देखने से पहले यह केवल कुछ समय है (या सही परियोजना को खोजने के लिए पहले से ही बेहतर प्रदर्शन करने के लिए तैयार है).

हमने लीगेसी जीपीयू, विशेष रूप से एनवीडिया की ट्यूरिंग आर्किटेक्चर (आरटीएक्स 20- और जीटीएक्स 16-सीरीज़) और एएमडी की आरएक्स 5000-सीरीज़ पर कुछ परीक्षण भी किए।. RX 5600 XT विफल हो गया, इसलिए हमने RX 5700 पर परीक्षण के साथ छोड़ दिया, और GTX 1660 सुपर काफी धीमा था कि हमें कम टियर भागों के आगे के परीक्षण की आवश्यकता नहीं थी. लेकिन यहाँ परिणाम काफी दिलचस्प हैं.

सबसे पहले, RTX 2080 Ti ने RTX 3070 TI को बेहतर बनाया. यह सामान्य रूप से नहीं होता है, और खेलों में भी वेनिला 3070 पूर्व चैंपियन को हरा देता है. इससे भी महत्वपूर्ण बात यह है कि इन नंबरों से पता चलता है कि एम्पीयर आर्किटेक्चर में एनवीडिया के “स्पार्सिटी” अनुकूलन का उपयोग बिल्कुल भी नहीं किया जा रहा है – या शायद वे बस लागू नहीं हैं.

हम एक पल में कुछ अन्य सैद्धांतिक कम्प्यूटेशनल प्रदर्शन संख्याओं को प्राप्त करेंगे, लेकिन फिर से RTX 2080 TI और RTX 3070 TI को एक उदाहरण के रूप में मानें. 2080 टीआई टेंसर कोर स्पार्सिटी का समर्थन नहीं करते हैं और FP16 गणना के 108 Tflops तक हैं. RTX 3070 Ti FP16 के 174 Tflops, या 87 Tflops FP16 के साथ स्पार्सिटी का समर्थन करता है. तथ्य यह है कि 2080 ti 3070 ti धड़कता है स्पष्ट रूप से इंगित करता है कि स्पार्सिटी एक कारक नहीं है. एक ही तर्क 2060 और 3050, या 2070 सुपर और 3060 टीआई जैसे अन्य तुलनाओं पर लागू होता है.

AMD के rDNA कार्ड, RX 5700 XT और 5700 के लिए, प्रदर्शन में एक विस्तृत अंतर है. 5700 XT भूमि 6650 XT से आगे है, लेकिन 6600 के नीचे 5700 भूमि. कागज पर, XT कार्ड 22% तक तेजी से होना चाहिए. हमारे परीक्षण में, हालांकि, यह 37% तेज है. किसी भी तरह से, न तो पुराने NAVI 10 GPU में से कोई भी विशेष रूप से हमारे प्रारंभिक स्थिर प्रसार बेंचमार्क में प्रदर्शन कर रहा है.

अंत में, कागज पर GTX 1660 सुपर 1/5 के बारे में 1/5 होना चाहिए।. यदि हम FP16 के साथ Shader प्रदर्शन का उपयोग करते हैं (Turing में FP16 Shader Code पर थ्रूपुट को दोगुना कर दिया जाता है). लेकिन हमारे परीक्षण में, GTX 1660 सुपर केवल 1/10 RTX 2060 की गति है.

फिर, यह स्पष्ट नहीं है कि इनमें से कोई भी परियोजना कितनी अनुकूलित है. यह भी स्पष्ट नहीं है कि ये परियोजनाएं पूरी तरह से एनवीडिया के टेंसर कोर या इंटेल के एक्सएमएक्स कोर जैसी चीजों का लाभ उठा रही हैं. जैसे, हमने सोचा कि विभिन्न GPU से अधिकतम सैद्धांतिक प्रदर्शन (TFLOPS) को देखना दिलचस्प होगा. निम्नलिखित चार्ट प्रत्येक GPU के लिए सैद्धांतिक FP16 प्रदर्शन दिखाता है (केवल हाल के ग्राफिक्स कार्डों को देखते हुए), टेंसर/मैट्रिक्स कोर का उपयोग करके जहां लागू होता है. NVIDIA के परिणामों में कमी भी शामिल है – मूल रूप से एक मैट्रिक्स में आधी कोशिकाओं के लिए 0 से गुणन को छोड़ने की क्षमता, जो कि गहरी सीखने के कार्यभार के साथ एक बहुत लगातार घटना है।.

Nvidia पर उन टेंसर कोर स्पष्ट रूप से एक पंच पैक करते हैं (ग्रे/ब्लैक बार्स बिना स्पर्सिटी के हैं), और जाहिर है कि हमारा स्थिर प्रसार परीक्षण इन आंकड़ों के साथ बिल्कुल मेल नहीं खाता है – करीब भी नहीं. उदाहरण के लिए, कागज पर RTX 4090 (FP16 का उपयोग करके) RTX 3090 TI की तुलना में 106% तक तेजी से है, जबकि हमारे परीक्षणों में यह Xformers के बिना 43% तेज था, और Xformers के साथ 50% तेजी से. यह भी ध्यान दें कि हम हमारे द्वारा उपयोग किए गए स्थिर प्रसार परियोजना को मान रहे हैं (स्वचालित 1111) ADA LoveLace GPU पर नए FP8 निर्देशों का लाभ नहीं उठाता है, जो संभावित रूप से RTX 40-series पर फिर से प्रदर्शन को दोगुना कर सकता है।.

इस बीच, आर्क जीपीयू को देखें. उनके मैट्रिक्स कोर को RTX 3060 TI और RX 7900 XTX, दे या लेने के लिए समान प्रदर्शन प्रदान करना चाहिए, A380 के साथ RX 6800 के आसपास नीचे. व्यवहार में, आर्क जीपीयू उन निशानों के पास कहीं नहीं हैं. RX 6600 और RX 6600 XT के बीच सबसे तेज A770 GPUS भूमि, A750 RX 6600 के ठीक पीछे है, और A380 A750 की गति के बारे में एक चौथाई है।. तो वे सभी अपेक्षित प्रदर्शन के एक चौथाई के बारे में हैं, जो कि XMX कोर का उपयोग नहीं किया जा रहा है, तो समझ में आता है.

आर्क पर आंतरिक अनुपात सही के बारे में दिखते हैं, हालांकि. A380 पर सैद्धांतिक गणना का प्रदर्शन A750 के बारे में एक-चौथाई है, और यह वह जगह है जहाँ यह स्थिर प्रसार प्रदर्शन के संदर्भ में है. सबसे अधिक संभावना है, एआरसी जीपीयू गणनाओं के लिए शेड्स का उपयोग कर रहे हैं, पूर्ण सटीक FP32 मोड में, और कुछ अतिरिक्त अनुकूलन से गायब हैं.

ध्यान देने वाली दूसरी बात यह है कि AMD के RX 7900 XTX/XT पर सैद्धांतिक गणना RX 6000-सीरीज़ की तुलना में बहुत सुधार हुआ है. .AI ने कहा कि यह rDNA 2 पर प्रदर्शन में 2x सुधार के बारे में उम्मीद करता है. मेमोरी बैंडविड्थ एक महत्वपूर्ण कारक नहीं था, कम से कम 512×512 लक्ष्य रिज़ॉल्यूशन के लिए हमारे द्वारा उपयोग किया गया था – 3080 10GB और 12GB मॉडल भूमि अपेक्षाकृत एक साथ बंद हो जाते हैं.

यहाँ सैद्धांतिक FP16 प्रदर्शन पर एक अलग नज़र है, इस बार केवल इस बात पर ध्यान केंद्रित कर रहा है कि विभिन्न GPU Shader कम्प्यूटेशन के माध्यम से क्या कर सकते हैं. NVIDIA के एम्पीयर और ADA आर्किटेक्चर FP16 को FP32 के समान गति से चलाते हैं, क्योंकि धारणा FP16 को टेंसर कोर का उपयोग करने के लिए कोडित किया जा सकता है. इसके विपरीत एएमडी और इंटेल जीपीयू एफपी 32 की तुलना में FP16 Shader गणनाओं पर दोहरा प्रदर्शन करते हैं.

स्पष्ट रूप से, FP16 कंप्यूट पर यह दूसरा नज़र हमारे वास्तविक प्रदर्शन से टेंसर और मैट्रिक्स कोर के साथ चार्ट की तुलना में बेहतर नहीं है, लेकिन शायद मैट्रिक्स गणना स्थापित करने में अतिरिक्त जटिलता है और इसलिए पूर्ण प्रदर्शन की आवश्यकता है. . जो हमें एक आखिरी चार्ट में लाता है.

यह अंतिम चार्ट हमारे उच्च संकल्प परीक्षण के परिणामों को दर्शाता है. हमने नए एएमडी जीपीयू का परीक्षण नहीं किया, क्योंकि हमें एएमडी आरएक्स 6000-सीरीज़ कार्ड पर लिनक्स का उपयोग करना था, और जाहिर है कि आरएक्स 7000-सीरीज़ को एक नए लिनक्स कर्नेल की आवश्यकता है और हम इसे काम नहीं कर सके।. लेकिन आरटीएक्स 40-सीरीज़ परिणाम देखें, टार्च डीएलएल के साथ प्रतिस्थापित.

RTX 4090 अब Xformers के बिना 3090 Ti की तुलना में 72% तेज है, और xformers के साथ 134% तेजी से. 4080 भी 3090 TI को 55%/18% के साथ/बिना xformers के साथ धड़कता है. .

ऐसा लगता है कि 2048×1152 के अधिक जटिल लक्ष्य संकल्प संभावित गणना संसाधनों का बेहतर लाभ उठाना शुरू करते हैं, और शायद लंबे समय तक चलने का मतलब है कि टेंसर कोर पूरी तरह से अपनी मांसपेशी को फ्लेक्स कर सकते हैं.

अंततः, यह स्थिर प्रसार प्रदर्शन के समय में सबसे अच्छा स्नैपशॉट है. हम लगातार प्रोजेक्ट अपडेट देख रहे हैं, विभिन्न प्रशिक्षण पुस्तकालयों के लिए समर्थन, और बहुत कुछ. हम आने वाले वर्ष में इस विषय को और अधिक फिर से देखेंगे, उम्मीद है कि सभी विभिन्न GPU के लिए बेहतर अनुकूलित कोड के साथ.

कटिंग एज पर रहें

उत्साही पीसी टेक न्यूज पर अंदर के ट्रैक के लिए टॉम के हार्डवेयर को पढ़ने वाले विशेषज्ञों से जुड़ें – और 25 से अधिक वर्षों के लिए हैं. हम CPU, GPU, AI, निर्माता हार्डवेयर और अधिक सीधे अपने इनबॉक्स के ब्रेकिंग न्यूज और गहन समीक्षा भेजेंगे.

.

जारड वाल्टन

Jarred Walton टॉम के हार्डवेयर में एक वरिष्ठ संपादक है जो सब कुछ GPU पर ध्यान केंद्रित करता है. वह 2004 से एक तकनीकी पत्रकार के रूप में काम कर रहे हैं, आनंदटेक, अधिकतम पीसी और पीसी गेमर के लिए लिख रहे हैं. पहले S3 विर्ज ‘3 डी डेक्लेरेटर्स’ से लेकर आज के जीपीयू तक, जारड सभी नवीनतम ग्राफिक्स ट्रेंड के साथ रहता है और खेल के प्रदर्शन के बारे में पूछने वाला एक है.