پیام سپاهان

آخرين مطالب

مدل‌های هوش مصنوعی استدلالگر جدید OpenAI بیشتر دچار توهم می‌شوند علمی

مدل‌های هوش مصنوعی استدلالگر جدید OpenAI بیشتر دچار توهم می‌شوند
  بزرگنمايي:

پیام سپاهان - دیجیاتو / طبق تست‌های OpenAI، 2 مدل استدلا‌ل‌گر جدید این شرکت، o3 و o4-mini، بیشتر از مدل‌های قبلی دچار توهم می‌شوند.
چند روز قبل OpenAI از مدل‌های استدلالگر جدیدش، o3 و o4-mini، رونمایی کرد که از بسیاری جهات از مدل‌های قبلی این شرکت پیشرفت کرده‌اند. البته طبق گزارش‌های جدید این مدل‌ها هنوز دچار توهم می‌شوند؛ یعنی چیزهایی می‌گویند که واقعیت ندارد.
براساس گزارش تک‌کرانچ، 2 مدل استدلا‌لگر o3 و o4-mini شرکت OpenAI توهم زیادی دارند. طبق تست‌های OpenAI، این 2 مدل استدلالگر بیشتر از مدل‌های استدلالگر قبلی شرکت، o1 ،o1-mini و o3-mini، همچنین مدل‌های معمولی OpenAI مانند GPT-4o توهم ایجاد می‌کنند.
بازار
درکل توهمات یکی از بزرگ‌ترین مسائل هوش مصنوعی است که برطرف‌کردن آنها بسیار دشوار است. بااین‌حال مدل‌های جدید کمی در بخش توهم بهبود می‌یابند و کمتر از مدل قبلی خود دچار توهم می‌شوند اما این امر درباره o3 و o4-mini صادق نیست.
توهم در مدل‌های هوش مصنوعی جدید OpenAI
نکته نگران‌کننده‌تر این است که OpenAI واقعاً نمی‌داند چرا این اتفاق می‌افتد. سازنده ChatGPT در گزارش فنی خود برای o3 و o4-mini می‌نویسد: «به تحقیقات بیشتری نیاز است تا بفهمیم چرا توهمات با پیشرفت مدل‌های استدلالی افزایش یافته است.»
O3 و o4-mini در برخی زمینه‌ها ازجمله کارهای مربوط به کدنویسی و ریاضی عملکرد بهتری دارند اما ازآنجایی‌که آنها «درکل ادعاهای بیشتری دارند»، طبق گزارش OpenAI، اغلب همان‌قدر که ادعاهای دقیق‌تری می‌کنند، ادعاهای نادرست و متوهم‌تری نیز ارائه می‌دهند.
OpenAI می‌گوید o3 در پاسخ به 33 درصد سؤالات PersonQA (بنچمارک داخلی شرکت برای سنجش دقت دانش مدل درباره اشخاص) توهم ایجاد می‌کند. این تقریباً دو برابر میزان توهم مدل‌های استدلال‌گر قبلی o1 و o3-mini است که به‌ترتیب امتیاز بنچمارک‌ آنها 16 درصد و 14.8 درصد بود. مدل O4-mini نیز عملکرد بدتری در PersonQA دارد: 48 درصد.
توهمات ممکن است به مدل‌ها کمک کند به ایده‌های جالبی برسند و خلاق باشند اما این امر برای کسب‌وکارها و کاربرانی که نیاز به دقت بالایی در خروجی هوش مصنوعی دارند، مشکل‌ساز است. یکی از روش‌های امیدوارکننده برای افزایش دقت مدل‌ها، داشتن قابلیت جستجوی وب مدل‌هاست؛ برای مثال مدل GPT-4o با قابلیت جستجوی وب، امتیاز 90 درصدی در SimpleQA (یکی دیگر از بنچمارک‌های سنجش دقت) به دست آورد.

لینک کوتاه:
https://www.payamesepahan.ir/Fa/News/958207/

نظرات شما

ارسال دیدگاه

Protected by FormShield
مخاطبان عزیز به اطلاع می رساند: از این پس با های لایت کردن هر واژه ای در متن خبر می توانید از امکان جستجوی آن عبارت یا واژه در ویکی پدیا و نیز آرشیو این پایگاه بهره مند شوید. این امکان برای اولین بار در پایگاه های خبری - تحلیلی گروه رسانه ای آریا برای مخاطبان عزیز ارائه می شود. امیدواریم این تحول نو در جهت دانش افزایی خوانندگان مفید باشد.

ساير مطالب

حضور قدرتمند گروه فولاد مبارکه در هفتمین نمایشگاه بین‌المللی ایران‌ اکسپو 2025

از تزیین کیک تا بازی آنلاین؛ نوآوری در جشن دخترانه فولاد مبارکه

هزینه عمل بینی در بیمارستان دولتی اصفهان

کرمانشاه قهرمان مسابقات ووشو دختران کشور شد

برنامه‌های رفاهی جدید صندوق بازنشستگی کشوری

بعد از اصفهان و تهران، نوبت به شیراز رسید/ پیامک حجاب+ عکس

تماشای تلویزیون بدون نیاز به اینترنت و وای‌فای؛ مالک نوکیا گوشی متفاوتی می‌سازد

رده بندی بهترین دوربین گوشی جهان در ماه آوریل؛ خبری از سامسونگ نیست

نان و ملیت؛ درباره پیشنهاد برداشتن یارانه مهاجران افغانستانی

خطای خانم وزیر

اطلاعات: محموله خطرناک را چه کسی به بندر آورد؟

بازخوانی تاریخی مهم ترین فجایع رخ داده در بنادر دنیا

چرا اسرائیل از عادی شدن روابط ایران و آمریکا نگران است؟

روایتی از پشت پرده حمله عراقچی به دولت بایدن و نتانیاهو

گردوغبار پروازهای فرودگاه کاشان را لغو کرد

برخورد مینی‌بوس و پراید در آران و بیدگل 6 مصدوم بر جای گذاشت

دستور صریح استاندار مازندران برای پیگیری بحث مسکن ایثارگران

وزش باد شدید در 5 روز آینده در نوار غربی کشور

اعلام برنامه خاموشی استان قم در روز پنجشنبه

باز آمدم چون ماه نو!

شاعرانه/ نه دست مانده نه تاب و توان به پیکر من

پوکو F7 حالا فاصله چندانی تا عرضه رسمی ندارد

گام بلند سامسونگ برای ایجاد انقلاب در گوشی های آینده

ایرلاین هفت دست؛ هواپیما هیچی!

پاس گل ناخواسته ترامپ به لیبرال‌های کانادا

کودکان غزه در مرز مرگ از گرسنگی

کدام کشورها به مردم ایران تسلیت نگفتند؟

دستاوردهای دولت شهید رئیسی در بزرگداشت شهدای خدمت بیان شود

بزرگداشت شهدای خدمت مظهر وحدت‌بخشی باشد

امیدآفرینی و توجه به محرومان محور بزرگداشت شهدای خدمت باشد

روایتی از توانمندی‌های اصفهان در بازدید هیأت آفریقایی از ذوب‌آهن

توسعه تعاملات تجاری با حضور فعالان اقتصادی آفریقا در صنایع اصفهان

پروژه‌های زیرساختی رشته اسکیت در سراسر استان تکمیل شود

پیگیری عوارض سبز دردیدارمدیران‌کل دفتر امور شهری وامور مالیاتی استان اصفهان

تأکید استاندار اصفهان بر ضرورت سرمایه‌گذاری در فرآوری و فناوری‌های نوین سنگ

بازی چادرملو – ذوب آهن فصل آینده در اصفهان با 50 درصد تماشاگران

حمایت همه‌جانبه ارشاد تهران از هنرمندان و رسانه‌های بهارستان

زمان تسویه حساب کسورات معوقه بازنشستگان اعلام شد

طرح ویژه مقابله با دور دور / 51 دستگاه خودرو در کاشان توقیف شد!

کاهش متراژ غرفه‌ها برای حضور تعداد بیشتر ناشران است

احتمال وجود بخش چندنفره در بازی Assassin’s Creed: Shadows قوت گرفت

سامسونگ بار دیگر به گوشی تاشو سه لایه خود اشاره کرد

سفرای ایران در پکن و مسکو روی استیج

بی اعتمادی کردها به نظام جولانی

پازل بهارستانی ها برای استیضاح «صادق»

سقوط در دریای سرخ

چاقویی در چمدان؛ ماجرای قتل‏‌های خانگی زنان مهاجر ایرانی

انعقاد تفاهم‌نامه همکاری فولاد مبارکه و بانک سپه

رژه یکدست کامیون‌داران به خیابان‌ها بندرعباس هم رسید | فیلم

چالش‌های صادرات فولاد مبارکه در پنل تخصصی ایران اکسپو 2025 بررسی شد