به گزارش تیکنا و به نقل از فیوچریسم، شرکت اوپن ای آی یک معیار جدید به نام «پرسش و پاسخ ساده» (SimpleQA) ارائه کرده که هدف آن اندازه گیری دقت خروجی مدل های هوش مصنوعی خود و شرکت های دیگر است.
این شرکت هوش مصنوعی با انجام چنین اقدامی نشان داد مدل های جدید فناوری مذکور در فراهم کردن پاسخ درست به سوالات عملکرد بدی دارند. نسخه هوش مصنوعی o۱-preview این شرکت که ماه گذشته ارائه شد در آزمون جدید به نرخ موفقیت ۴۲.۷ درصد دست یافت.
به بیان دیگر حتی برترین مدل های بزرگ زبانی که به تازگی معرفی شده اند احتمال زیادی دارد به جای پاسخ درست، جوابی اشتباه به کاربر بدهند. با توجه به آنکه این فناوری در بسیاری از وجوه مختلف زندگی انسان ها نفوذ کرده، چنین امری نگران کننده است.
مدل های هوش مصنوعی رقیب مانند محصول شرکت «آنتروپیک» در آزمون SimpleQA امتیاز پایین تری کسب کردند، به طوریکه مدل تازه منتشر شده Claude-۳.۵-sonnet این شرکت فقط به ۲۸.۹ درصد سوالات پاسخ درست داد. با این وجود مدل مذکور بیشتر تمایل داشت عدم قطعیت خود را نشان دهد و از پاسخ دادن خودداری کند، که این امر با توجه به نتایج ناامید کننده احتمالا گزینه بهتری است.
در این میان اوپن ای آی متوجه شد مدل های هوش مصنوعی خود این شرکت توانمندی هایشان را فراتر از حد معمول تخمین می زنند. این ویژگی احتمالا سبب می شود تا مدل ها نسبت به پاسخ های اشتباهی که می سازند، اطمینان بیشتری داشته باشند.
مدل های زبانی بزرگ از مدت ها قبل با اشتباهات یا «توهمات» دست وپنجه نرم می کنند. این اصطلاحی است که شرکت های هوش مصنوعی برای تمایل محصولاتشان به تولید پاسخ های بی ربط به کارمی برند.
جدیدترین یافته های اوپن ای آی یک نشانه نگران کننده مهم در خود دارد و حاکی از آن است که مدل های زبانی بزرگ نمی توانند حقیقت را بیان کنند.