پیام سپاهان

آخرين مطالب

مدل‌های هوش مصنوعی استدلالگر جدید OpenAI بیشتر دچار توهم می‌شوند علمی

مدل‌های هوش مصنوعی استدلالگر جدید OpenAI بیشتر دچار توهم می‌شوند
  بزرگنمايي:

پیام سپاهان - دیجیاتو / طبق تست‌های OpenAI، 2 مدل استدلا‌ل‌گر جدید این شرکت، o3 و o4-mini، بیشتر از مدل‌های قبلی دچار توهم می‌شوند.
چند روز قبل OpenAI از مدل‌های استدلالگر جدیدش، o3 و o4-mini، رونمایی کرد که از بسیاری جهات از مدل‌های قبلی این شرکت پیشرفت کرده‌اند. البته طبق گزارش‌های جدید این مدل‌ها هنوز دچار توهم می‌شوند؛ یعنی چیزهایی می‌گویند که واقعیت ندارد.
براساس گزارش تک‌کرانچ، 2 مدل استدلا‌لگر o3 و o4-mini شرکت OpenAI توهم زیادی دارند. طبق تست‌های OpenAI، این 2 مدل استدلالگر بیشتر از مدل‌های استدلالگر قبلی شرکت، o1 ،o1-mini و o3-mini، همچنین مدل‌های معمولی OpenAI مانند GPT-4o توهم ایجاد می‌کنند.
بازار
درکل توهمات یکی از بزرگ‌ترین مسائل هوش مصنوعی است که برطرف‌کردن آنها بسیار دشوار است. بااین‌حال مدل‌های جدید کمی در بخش توهم بهبود می‌یابند و کمتر از مدل قبلی خود دچار توهم می‌شوند اما این امر درباره o3 و o4-mini صادق نیست.
توهم در مدل‌های هوش مصنوعی جدید OpenAI
نکته نگران‌کننده‌تر این است که OpenAI واقعاً نمی‌داند چرا این اتفاق می‌افتد. سازنده ChatGPT در گزارش فنی خود برای o3 و o4-mini می‌نویسد: «به تحقیقات بیشتری نیاز است تا بفهمیم چرا توهمات با پیشرفت مدل‌های استدلالی افزایش یافته است.»
O3 و o4-mini در برخی زمینه‌ها ازجمله کارهای مربوط به کدنویسی و ریاضی عملکرد بهتری دارند اما ازآنجایی‌که آنها «درکل ادعاهای بیشتری دارند»، طبق گزارش OpenAI، اغلب همان‌قدر که ادعاهای دقیق‌تری می‌کنند، ادعاهای نادرست و متوهم‌تری نیز ارائه می‌دهند.
OpenAI می‌گوید o3 در پاسخ به 33 درصد سؤالات PersonQA (بنچمارک داخلی شرکت برای سنجش دقت دانش مدل درباره اشخاص) توهم ایجاد می‌کند. این تقریباً دو برابر میزان توهم مدل‌های استدلال‌گر قبلی o1 و o3-mini است که به‌ترتیب امتیاز بنچمارک‌ آنها 16 درصد و 14.8 درصد بود. مدل O4-mini نیز عملکرد بدتری در PersonQA دارد: 48 درصد.
توهمات ممکن است به مدل‌ها کمک کند به ایده‌های جالبی برسند و خلاق باشند اما این امر برای کسب‌وکارها و کاربرانی که نیاز به دقت بالایی در خروجی هوش مصنوعی دارند، مشکل‌ساز است. یکی از روش‌های امیدوارکننده برای افزایش دقت مدل‌ها، داشتن قابلیت جستجوی وب مدل‌هاست؛ برای مثال مدل GPT-4o با قابلیت جستجوی وب، امتیاز 90 درصدی در SimpleQA (یکی دیگر از بنچمارک‌های سنجش دقت) به دست آورد.

لینک کوتاه:
https://www.payamesepahan.ir/Fa/News/958207/

نظرات شما

ارسال دیدگاه

Protected by FormShield
مخاطبان عزیز به اطلاع می رساند: از این پس با های لایت کردن هر واژه ای در متن خبر می توانید از امکان جستجوی آن عبارت یا واژه در ویکی پدیا و نیز آرشیو این پایگاه بهره مند شوید. این امکان برای اولین بار در پایگاه های خبری - تحلیلی گروه رسانه ای آریا برای مخاطبان عزیز ارائه می شود. امیدواریم این تحول نو در جهت دانش افزایی خوانندگان مفید باشد.

ساير مطالب

تصویر سازی متفاوت با کیسه های چای شهرزاد

اصفهان فقط نصف جهان‌ نیست، ساحل پر از مروارید هندبال ایران است

پایان مسابقات ووشو قهرمانی جوانان دختر کشور/ کرمانشاه قهرمان شد

«چهارشنبه‌های تجربه‌نوردی» در حوزه علمیه اصفهان

اوگانداتجارت با اصفهان درزمینه تجهیزات پزشکی وتولیدماهی راافزایش میدهد

پایان مسابقات ووشو قهرمانی و انتخابی تیم ملی جوانان دختر

ضرب‌آهنگ چوگان در نقش جهان

صحبت های دلنشین دکتر انوشه

حکم حیرت‌انگیز دادگاه؛ اپل به اجبار سیاست‌هایش را در قبال اپ استور اصلاح می‌کند

تراشه گلکسی زد فلیپ 7 و زد فولد 7 سامسونگ مشخص شد

سرمقاله همشهری/ نمی‌دانند چرا و چگونه؟

سرمقاله جام جم/ منافع ملی، خط قرمز است

هوای اصفهان همچنان غبارآلود؛ در منزل بمانید

پای درس ایثار | روایت مدیر ورزنه‌ای که با کل خانواده پای کار مدرسه ایستاده‌اند

اعلام آمادگی اوگاندا در توسعه تجارت با اصفهان

پیام استاندار اصفهان به مناسبت روز جهانی کار و کارگر

پیام استاندار اصفهان به مناسبت روزملی خلیج فارس

افتتاح آزمایشگاه بتن سنگ ومصالح ساختمانی در دانشگاه آزاد خمینی‌شهر

نامگذاری معابر به نام شهدا، راهی برای ترویج فرهنگ ایثار

تاکید مدیر کل بنیاد مازندران بر ترویج فرهنگ جهاد، ایثار و شهادت

برخورد قاطع قضایی با کافه‌های فاقد مجوز در بهارستان

ادعای نماینده نزدیک به سعید جلیلی درباره نمایندگان جنجالی شد/ حقوق مجلسی ها 40 میلیون است/ فقط از دانشگاه حقوق می گیرم/ برخی‌ ها صاحب 50 ملک شدند

دختران روستا‌ها و عشایر پرچم‌داران با غیرت ورزش کشورند

برخورد مینی‌بوس و پراید در آران و بیدگل 6 مصدوم داشت

دختران روستا‌ها و عشایر پرچم‌داران با غیرت ورزش کشور هستند

کارگران طلایه داران اقتصاد کشور هستند

درباره «برادران کارامازوف»

آشکارسازهای هوش مصنوعی از نمونه‌های ساخته دست بشر بهتر است

ساندار پیچای: طرح دولت آمریکا می‌تواند به پایان موتور جستجوی گوگل منجر شود

سرمقاله اعتماد/ سلول‌های خودسر

کانال اروپایی مذاکرات هسته‌ای؟

سرمقاله کیهان/ به‌جای گنده‌گویی بدهی خود را تسویه کنید!

انحراف خودرو با یک فوتی در محور تیران – نجف آباد

صحبت های شنیدنی از اردشیر رستمی

سرمقاله آرمان ملی/ بازخوانی معادله ایران و آمریکا

جلوگیری از تحمیل تورم با انحلال بانک‌های غیرقابل اصلاح

بی‌بی‌سی: ترامپ اقتصاد و جامعه آمریکا را به‌هم ریخت

اصفهان آماده توسعه تعامل با سودان در زمینه خدمات مهندسی و صنعتی است

شکست بزرگ برای اپل در دادگاه؛ فورتنایت در آستانه بازگشت به اپ استور

شریعتمداری: مکانیسم ماشه تفنگ بی‌فشنگ است، فریب نخورید!

سرمقاله هم میهن/ چند پرسش درباره یک پرونده

شاهدی بر زندگی مردم فلسطین زیر سایه آپارتاید صهیونیستی

حالا می‌توانید در واتس‌اپ از هوش مصنوعی Perplexity استفاده کنید

سرمقاله دنیای اقتصاد/ «طرحی نو» لازم است

سرمقاله سازندگی/ مذاکره با اروپایی‌ها

سلامت مردم، نتیجه تعهد و ایثار مدافعان آن است

هوای اصفهان برای گروه‌های حساس ناسالم است

عاشقانه‌های غمگین در «سلمآه»؛ دست و دلم به شعر شاد نمی‌رود

تراشه Snapdragon 8 Elite 2 در دو نسخه متفاوت توسط سامسونگ و TSMC تولید می‌شود

سرمقاله خراسان/ هدف از زیارت امام(علیه‌السلام)