دوشنبه ۲۳ تير ۱۴۰۴ - 2025 July 14 - ۱۷ محرم ۱۴۴۷
۲۲ تير ۱۴۰۴ - ۲۲:۴۱

هوش مصنوعی «اوپن ای‌آی» قهرمان شد

مدل هوش مصنوعی «o3» در حوزه پاسخ به سوالات علمی در صدر جدول قرار گرفت.
هوش مصنوعی «اوپن ای‌آی» قهرمان شد
کد خبر: ۸۱۹۸۹۷

به گزارش ایران اکونومیست، یک مدل هوش مصنوعی موسوم به «o3» که توسط شرکت «اوپن ای‌آی»(OpenAI) توسعه یافته است، بهترین ابزار هوش مصنوعی برای پاسخ به سوالات علمی در چندین رشته شناخته شد.

به نقل از نیچر، طی یک ارزیابی در پلتفرم «SciArena» ساخت «موسسه هوش مصنوعی آلن»(Ai2) روی «مدل زبانی بزرگ»(LLM) که کیفیت پاسخ‌ها توسط ۱۰۲ دانشمند داوری شده است، مدل «o3» با بیش از ۱۳ هزار رأی در پاسخ به سوالات علوم طبیعی، مراقبت‌های بهداشتی، مهندسی و علوم انسانی و اجتماعی، بهترین رتبه را کسب کرد.

«آرمان کوهان»(Arman Cohan)، دانشمند پژوهشی می‌گوید: ترجیح کاربران به «o3» ممکن است ناشی از تمایل این مدل به ارائه جزئیات فراوان در مورد مقالات علمی ارجاع شده و تولید پاسخ‌های فنی دقیق باشد، اما توضیح اینکه چرا عملکرد مدل‌ها متفاوت است، دشوار است، زیرا اطلاعات بیشتر آنها خصوصی است. تفاوت در داده‌های آموزشی و اینکه مدل برای چه چیزی بهینه‌سازی شده است، می‌تواند تا حدی این موضوع را توضیح دهد.

این پلتفرم، جدیدترین پلتفرمی است که برای ارزیابی نحوه عملکرد مدل‌های هوش مصنوعی در وظایف خاص توسعه یافته است و یکی از اولین پلتفرم‌هایی است که عملکرد را در وظایف علمی با استفاده از بازخورد جمع‌سپاری شده رتبه‌بندی می‌کند.

«راهول شوم»(Rahul Shome) پژوهشگر رباتیک و هوش مصنوعی در دانشگاه ملی استرالیا می‌گوید: این پلتفرم تلاشی مثبت است که ارزیابی دقیق وظایف مربوط به متون علمی با کمک «مدل زبانی بزرگ» را تشویق می‌کند.

این پلتفرم از دانشمندان خواست تا برای رتبه‌بندی ۲۳ «مدل زبانی بزرگ»، سوالات علمی خود را ارسال کنند. آنها پاسخ‌هایی را از دو مدل که به صورت تصادفی انتخاب شده بودند، دریافت کردند. این پاسخ‌ها با ارجاع به یک ابزار تحقیقاتی موسوم به «سمانتیک اسکالر»(Semantic Scholar) که توسط «موسسه آلن» توسعه یافته است، حمایت می‌شدند. سپس کاربران رأی دادند که آیا مدلی پاسخ بهتری را ارائه کرده است، دو مدل باهم برابر هستند یا هر دو عملکرد ضعیفی داشتند؟

این پلتفرم اکنون در دسترس عموم است و به کاربران اجازه می‌دهد سوالات تحقیقاتی را به صورت رایگان بپرسند. همه کاربران پاسخ‌هایی را از دو مدل دریافت می‌کنند و می‌توانند به عملکرد آنها رأی دهند، اما تنها آراء کاربران تأیید شده‌ای که با شرایط موافقت می‌کنند، در جدول امتیازات گنجانده می‌شود که به‌ طور مکرر به‌روز می‌شود.

«جاناتان کامرفلد»(Jonathan Kummerfeld) پژوهشگر هوش مصنوعی در دانشگاه سیدنی استرالیا می‌گوید: توانایی پرسیدن سوالات علمی از «مدل‌های زبانی بزرگ» و اطمینان به پاسخ‌ها به دانشمندان کمک می‌کند تا از آخرین مقالات علمی در حوزه خود آگاه شوند و به‌روز بمانند. این موضوع به آنها کمک می‌کند تا مسائلی را پیدا کنند که در غیر این صورت ممکن بود از دست بدهند.

وی افزود: این پلتفرم همچنین می‌تواند نوآوری در مدل‌های هوش مصنوعی را هدایت کند، زیرا جدول امتیازات راهی شفاف برای سنجش پیشرفت فراهم می‌کند. به نظر می‌رسد این پلتفرم به خوبی طراحی شده تا از مسائلی مانند دستکاری امتیاز توسط کاربران جلوگیری کند. همچنین یکی از مسائل بالقوه، اتکای پلتفرم به مشارکت کاربران است. 

وی ادامه داد: کاربران در ازای دسترسی به ابزار، وقت خود را می‌گذرانند. تا زمانی که آنها این معامله را مفید بدانند، می‌تواند موفق باشد، اما اگر احساس کنند که ارزشی دریافت نمی‌کنند، ممکن است در جذب مشارکت کافی با مشکل مواجه شویم. این پلتفرم با رایگان بودن و به‌روزترین مدل‌ها به کاربران انگیزه می‌دهد. علاوه بر این، ارجاعات ارائه شده از طریق ابزار «سمانتیک اسکالر»، به این معنی است که پاسخ‌های آن برای دانشمندان مفید است.

«شوم» خاطرنشان کرد: دانشمندان باید در نظر داشته باشند که «مدل‌های زبانی بزرگ» می‌توانند متنی تولید کنند که با مقالات استناد شده مغایرت دارد، ممکن است اصطلاحات را اشتباه درک کنند و قادر به پاسخگویی دقیق به سوالات نباشند. همچنین به خاطر داشته باشند که خواندن خلاصه‌های مطالعات تولید شده توسط این سامانه‌ها، جایگزین خواندن خود مطالعات نمی‌شود.

 

آخرین اخبار