تحقیقات جدید نشان‌ می‌دهد که دقت Chat GPT با گذشته زمان، کاهش یافته است

۰ ۲۸۶ زمان مطالعه یک دقیقه

به نظر می‌رسد عملکرد چت ربات ChatGPT مبتنی بر هوش مصنوعی OpenAI با گذشت زمان بدتر می‌شود و محققان نمی‌توانند دلیل آن را دریابند. در مطالعه‌ای در ۱۸ جولای، محققان استنفورد و دانشگاه برکلی دریافتند که جدیدترین مدل‌های ChatGPT در عرض چند ماه، بسیار کمتر از گذشته قادر به ارائه پاسخ‌های دقیق به مجموعه‌ای از سؤالات یکسان شده‌اند.

محققان در این مطالعه نتوانستند پاسخ روشنی در مورد این که چرا قابلیت‌های این چت ربات هوش مصنوعی بدتر شده است، ارائه دهند.

محققین Lingjiao Chen، Matei Zaharia و James Zou برای آزمایش این که مدل‌های مختلف ChatGPT چقدر قابل اعتماد هستند، از مدل‌های ChatGPT-3.5 و ChatGPT-4 برای حل یک سری مسائل ریاضی، پاسخ به سؤالات حساس، نوشتن کد‌های جدید و انجام استدلال فضایی استفاده کردند.

طبق تحقیقات انجام شده، ChatGPT-4 در ماه مارس قادر به شناسایی اعداد اول با دقت ۹۷.۶ درصد بود. سپس در تکرار همان آزمایش که در ژوئن انجام شد، دقت GPT-4 به تنها ۲.۴ درصد کاهش یافت.در مقابل، مدل قبلی GPT-3.5 در شناسایی اعداد اول در همان چارچوب زمانی بهبود یافته بود.

وقتی نوبت به ایجاد کد‌های جدید رسید، توانایی‌های هر دو مدل بین مارس و ژوئن به طور قابل‌توجهی کاهش یافته بود.این مطالعه همچنین نشان داد که پاسخ‌های ChatGPT به سؤالات حساس (مثال‌هایی که تمرکز بر قومیت و جنسیت را نشان می‌دهد) مختصرتر شده‌اند.

در ماه‌های اولیه، چت‌بات دلایل خود را به تفصیل برای اینکه چرا نمی‌تواند به برخی سؤالات حساس پاسخ دهد توضیح می‌داد. با این حال، در ماه‌های بعد، مدل‌ها بدون توضیح از کاربر عذرخواهی و از پاسخ دادن خودداری کردند.

محققان با اشاره به نیاز به نظارت مستمر بر کیفیت مدل هوش مصنوعی نوشتند: رفتار سرویس (مدل زبان بزرگ) می‌تواند در مدت زمان نسبتاً کوتاهی تغییر کند.

محققان به کاربران و شرکت‌هایی که به خدمات LLM به‌عنوان جزئی از جریان کار خود متکی هستند، توصیه کردند که نوعی تحلیل نظارتی را برای اطمینان از به‌روز ماندن ربات چت انجام دهند.

در ۶ ژوئن، OpenAI از برنامه‌های خود برای ایجاد تیمی پرده‌برداری کرد که به مدیریت خطرات ناشی از یک سیستم هوش مصنوعی فوق هوشمند کمک می‌کند، چیزی که انتظار می‌رود در دهه آینده به آن برسد.

برچسب ها