انویدیا منتشر کرد: نسخه‌ای از مدل لاما 3.1 که کوچک‌تر و قوی‌تر از DeepSeek R1 است

انویدیا منتشر کرد: نسخه‌ای از مدل لاما 3.1 که کوچک‌تر و قوی‌تر از DeepSeek R1 است علمی

بزرگنمايي:

پیام سپاهان - دیجیاتو / این مدل جدید باوجود اندازه کوچک‌تر عملکردی بهتر از DeepSeek R1 دارد.
متا همچنان درگیر پاسخ به پرسش‌ها و انتقادات درباره خانواده مدل‌های جدید Llama 4 است اما شرکت انویدیا با معرفی مدل زبان بزرگ (LLM) متن‌باز و قدرتمند، توجه‌ها را به خود جلب کرده است. این مدل که Llama-3.1 Nemotron Ultra نام دارد، بر پایه نسخه قبلی مدل‌های Llama-3.1-405B-Instruct متا توسعه یافته و به گفته انویدیا، عملکردی نزدیک به برترین مدل‌های موجود دارد.
مدل Llama-3.1-Nemotron-Ultra-253B-v1 با 253 میلیارد پارامتر برای وظایفی مانند استدلال پیشرفته، پیروی از دستورات و ایفای نقش دستیار هوش مصنوعی طراحی شده است.
این مدل نخستین‌ بار مارس در کنفرانس سالانه GTC انویدیا معرفی شده بود و اکنون کامل و متن‌باز در پلتفرم Hugging Face در دسترس قرار گرفته است. کد مدل، وزن‌ها و داده‌های پس از آموزش آن نیز عمومی منتشر شده‌اند.

پیام سپاهان

بازار

مدل جدید انویدیا با استفاده از فرایند جستجوی معماری عصبی (NAS) توسعه یافته که در آن نوآوری‌هایی مانند حذف لایه‌های توجه، شبکه‌های Fused feedforward و فشرده‌سازی متغیر در ساختار مدل اعمال شده‌اند. این معماری به گونه‌ای طراحی شده که مدل با کاهش مصرف حافظه و منابع محاسباتی، همچنان کیفیت خروجی بالایی ارائه دهد و بتوان آن را فقط با 8 کارت گرافیک H100 اجرا کرد.
علاوه‌بر H100، این مدل با معماری‌های پیشرفته‌تر انویدیا مانند B100 و Hopper نیز سازگار بوده و در حالت‌های دقت BF16 و FP8 عملکرد مطلوبی دارد.
انویدیا برای ارتقای توانایی‌های مدل از فرایند پس‌آموزش چندمرحله‌ای بهره برده که شامل آموزش نظارت‌شده در حوزه‌هایی مانند ریاضی، تولید کد، چت و استفاده از ابزارها بوده است. همچنین برای بهبود عملکرد در دنبال‌کردن دستورات و توانایی استدلال، از الگوریتم GRPO (بهینه‌سازی نسبی سیاست گروهی) استفاده شده است.
عملکرد مدل جدید انویدیا در برابر رقبا

مدل جدید انویدیا در آزمون‌های معتبر مختلف عملکرد خیره‌کننده‌ای داسته است. برای مثال، در آزمون MATH500، عملکرد مدل از 80.40 درصد در حالت عادی به 97 درصد در حالت استدلال افزایش یافته است. همچنین در آزمون AIME25، امتیاز آن از 16.67 درصد به 72.50 درصد و در LiveCodeBench از 29.03 درصد به 66.31 درصد رسیده است.
این مدل در پاسخ به پرسش‌های عمومی (GPQA) در حالت استدلال فعال به امتیاز 76.01 درصد دست یافته که از DeepSeek R1 (با امتیاز 71.5 درصد) پیشی گرفته است. همچنین در آزمون IFEval برای پیروی از دستورات، امتیاز 89.45 درصد در برابر 83.3 درصد رقیب ثبت شده و در LiveCodeBench نیز اندکی بهتر عمل کرده است.
البته باید توجه کرد که مدل DeepSeek R1 در برخی آزمون‌های ریاضی سنگین همچنان بهتر عمل می‌کند، ازجمله در AIME25 با امتیاز 79.8 درصد برابر 72.50 درصد مدل انویدیا.
این مدل از زبان‌های متعددی ازجمله انگلیسی، آلمانی، فرانسوی، ایتالیایی، پرتغالی، هندی، اسپانیایی و تایلندی پشتیبانی می‌کند و برای کاربردهایی مانند چت‌بات، ساخت عامل‌های هوش مصنوعی، تولید کد و تولید با روش بازیابی-افزوده (RAG) قابل‌استفاده است.

چهارشنبه ۲۰ فروردين ۱۴۰۴ - ۲۰:۳۷:۵۹
۸۹ بازديد
پیام سپاهان

https://www.payamesepahan.ir/Fa/News/954565/

ترکیب احتمالی ذوب‌آهن مقابل مس رفسنجان

ترکیب احتمالی سپاهان مقابل هوادار

استقبال مردم خمینی‌شهر و خوانسار از خادمان حرم رضوی

آغاز کشتی آزاد جام تختی با حضور سرمربی تیم ملی/ روسیه با 2 کشتی‌گیر به اصفهان آمد

آخرين مطالب

انویدیا منتشر کرد: نسخه‌ای از مدل لاما 3.1 که کوچک‌تر و قوی‌تر از DeepSeek R1 است علمی

نظرات شما

ساير مطالب

یاران قالیباف و پایداری‌ها در نبرد تازه بهارستان؛ پشت پرده عدم برگزاری انتخابات هیات رئیسه فراکسیون انقلاب اسلامی!

20 میلیارد برای کشتی، سرمایه‌ای برای غرور ملی است/ اصفهان میزبان شش رویداد جهانی دیگر در سال 1404

20 میلیارد برای کشتی، سرمایه‌ای برای غرور ملی است

ادای احترام دانش آموز فولادشهری به ساحت مقدس امام رضا (ع) در روز ولادت + فیلم

سپاهان یا پرسپولیس؛ نیم سهمیه لیگ نخبگان در تهران است یا اصفهان!

روزگار از من گرفت

به اتمام رساندن داستان Death Stranding 2 ممکن است 75 ساعت طول بکشد

سامسونگ برای مقابله با تعرفه‌ها ظرفیت تولید گلکسی S25 را افزایش می‌دهد

چرا یک توافق هسته‌ای جدید به نفع مسکو است؟

شاعرانه/ رفت عمر من از دست من

ضربه کاری اپل به گوگل؛ عرضه گزینه‌های جست‌وجوی هوش مصنوعی در سافاری

کانون‌های فعال گرد و غبار اصفهان نیازمند مدیریت جدی‌ است

میزبانی با الگو نظم ورزشی

روزی شلوغ البته نه برای همه!

آپدیت One UI 7 برای Galaxy S22 Ultra سامسونگ به ایران رسید

بهبود شرایط دریایی در استان هرمزگان؛ تنگه هرمز و دریای عمان آرام‌تر می‌شوند

چشم نوازی کاکتوس‌ها از مزارع آران و بیدگل + فیلم

زن 50 ساله در استخر کشاورزی در فلاورجان غرق شد

شاعرانه/باغ جان را صبوحی آب دهید

هیولای گیمینگ با نمایشگر سه‌بعدی و بدنه فیبر کربن؛ این لپ‌تاپ جدید لنوو است

افشای تجارت مقامات اوکراینی با پیکر سربازان کشته‌شده

چانگان های سایپا به تاکسی های بابک زنجانی تبدیل شدند؟

عینک هوشمند با توانایی تشخیص چهره؛ متا پروژه بزرگی در سر دارد

معاون وزیر آموزش و پرورش: از نسل جدید جاماندیم

احتمال یک اشتباه محاسباتی

سردرگمی در آمریکا بر سر جنگ اوکراین

بازی تهران و ترامپ با تحریف احتمالی نام خلیج فارس به هم می‌خورد؟

ساخت 39 مدرسه جدید در بهارستان کلید خورد

رسمی؛ نساجی مازندران به لیگ دسته یک سقوط کرد

پسندیده : بازی در خور و شأن خوزستان را انجام دادیم

معنی ضرب المثل "نفسش از جای گرم درمی‌آید"

کتاب‌های تازه محمدرضا شفیعی کدکنی در نمایشگاه امسال

قیمت کنسول بازی ممکن است تا 70 درصد به دلیل تعرفه‌های ترامپ افزایش یابد

این ربات کوچک 25 گرمی می‌تواند دنیا را نجات دهد

گوگل مپ از این‌ پس اسکرین‌شات‌های شما را اسکن می‌کند

اپلیکیشن هوش مصنوعی جمنای برای آیپد سرانجام منتشر شد

ما به تو افتخار می‌کنیم

تنها راه نجات تهران از زیر زمین می‌گذرد

جلف و سخیف نباش وزیر سابق!

حذف خاموش مکمل‌‏های دارویی رایگان برای زنان باردار

کیش، قطب تجاری جدید ایران و پاکستان؛ تأکید بر آغاز عملیاتی همکاری‌ها از امروز

مسابقه بزرگ فرهنگی «شهدای خدمت»برگزار می‌شود

برگزاری نشست بررسی مطالبات خانواده‌های شهدا و ایثارگران استان مازندران با حضور رئیس بنیاد شهید

گز، مزه ماندگار هویت ایرانی؛ اصفهان صحنه شیرین یک رویداد ملی شد

نتایج زنده 8 دیدار لیگ‌برتر فوتبال تا دقیقه 40/ پرسپولیس و تراکتور گل خوردند

مجموعه کامل آثار نادر ابراهیمی در نمایشگاه کتاب تهران

آپدیت One UI 7 برای گلکسی A35 منتشر شد

رفراندوم علیه پاپ فرانسیس

تکلیف خانواده قربانیان مفقود چیست؟

علیه هم‌صدایی با نتانیاهو؛ واکنش مدیرمسئول «هم میهن» به منتقدانش

تبليغات