ويژگي جديد «چت‌جي‌پي‌تي» به سادگي هك مي‌شود!

۱۴۰۴/۱۱/۰۷ - ۰۱:۳۲:۰۳
کد خبر: ۳۷۵۱۳۳

دو پژوهشگر دريافته‌اند كه هك كردن جديدترين ويژگي «چت‌جي‌پي‌تي» به‌طور شگفت‌آوري آسان به نظر مي‌رسد و مي‌توان آن را براي رسيدن به مقاصد خطرناك تحت كنترل درآورد.

دو پژوهشگر دريافته‌اند كه هك كردن جديدترين ويژگي «چت‌جي‌پي‌تي» به‌طور شگفت‌آوري آسان به نظر مي‌رسد و مي‌توان آن را براي رسيدن به مقاصد خطرناك تحت كنترل درآورد. به گزارش ايسنا، ويژگي «ترجمه چت‌جي‌پي‌تي»كه جايگزين شركت «اوپن‌اي‌آي» براي «ترجمه گوگل» به شمار مي‌رود، به تازگي توسط پژوهشگران هك شده است. به نقل از يوسي استراتژيز، دو پژوهشگر اخيرا نشان دادند كه چت‌جي‌پي‌تي به راحتي محدوديت‌هاي خود را هنگام تزريق يك پرس‌وجو فراموش مي‌كند. همچنين، آنها دريافتند كه چت‌جي‌پي‌تي هيچ مشكلي در ارايه دستور تهيه كوكتل مولوتوف نمي‌بيند. با كشف اين حفره‌هاي ديجيتال مي‌توان تعادل پيچيده‌اي را بين نوآوري‌هاي فناوري و خطرات سوءاستفاده مشاهده كرد. به محض اينكه ويژگي جديد چت‌جي‌پي‌تي به صورت عمومي منتشر شد، «تام بارنيا» و «كرن كاتز» پژوهشگران امنيت سايبري شركت «Tenable» تلاش كردند تا ترجمه با چت‌جي‌پي‌تي را تحت فشار قرار دهند. آنها مي‌خواستند بدانند كه آيا مي‌توان چت‌بات را دستكاري كرد و از مكانيسم‌هاي امنيتي اوپن‌اي‌آي گذشت. اين دو متخصص براي فهميدن اين موضوع، مجموعه‌اي از آزمايش‌ها را انجام دادند. بارنيا و كاتز به عنوان بخشي از آزمايش‌ها، يك حمله تزريق پرس‌وجو عليه چت‌جي‌پي‌تي انجام دادند. اين نوع حمله شامل جاسازي دستورالعمل‌هاي مخرب در پرس‌وجوي ارسالي به هوش مصنوعي است. سپس هوش مصنوعي دستورالعمل‌ها را مورد پردازش قرار مي‌دهد و اگر درخواست‌هاي مهاجمان به درستي فرمول‌سازي شده باشد، از آنها پيروي مي‌كند. چالش كلي براي مهاجمان اين است كه هوش مصنوعي را به ناديده گرفتن برنامه‌نويسي خود مجبور كنند. كاتز توضيح داد كه چت‌بات به سرعت از مسير خود منحرف شد. چت‌بات قرار بود متني را از انگليسي به كره‌اي ترجمه كند، اما كاتز موفق شد آن را دستكاري كند تا جزييات كامل دستورالعمل ساخت كوكتل‌مولوتوف را شرح دهد. كاتز گفت: ويژگي ترجمه چت‌جي‌پي‌تي فقط يك روز است كه عرضه شده و در حال حاضر از دستورالعمل ساخت كوكتل‌مولوتوف تعريف و تمجيد مي‌كند. ما از مدل ترجمه خواستيم متن ما را از انگليسي به كره‌اي تبديل كند اما در عوض، از دستورالعمل‌هاي موجود در متن پيروي كرد و دستورالعمل ساخت كوكتل مولوتوف را نشان داد. تزريق سريع در قلب يك چالش منحصربه‌فرد امنيت سايبري قرار دارد كه هوش مصنوعي با آن روبرو شده است. اين روش شامل جاسازي دستورالعمل‌هاي گمراه‌كننده يا مخرب در پرس‌وجوهاي مشروع فرستاده‌شده به يك مدل هوش مصنوعي است. اگرچه بيشتر افراد صرفاً به دنبال ترجمه متن هستند، اما افرادي با نيت‌هاي بد ممكن است درخواست‌هايي را طراحي كنند كه اين سيستم‌ها را بسيار فراتر از هدف اصلي خود سوق دهد. اثرات بي‌ثبات‌كننده اغلب در مدل‌هاي ترجمه تخصصي برجسته‌تر هستند. اين سيستم‌ها به جاي اينكه كاملاً به وظايف ترجمه پايبند باشند، ممكن است از دستورالعمل‌هاي پنهان پيروي كنند و خروجي‌هاي غيرمنتظره يا حتي نامناسبي را ارايه دهند. اين سناريو صرفاً يك فرضيه نيست. پژوهشگران امنيتي مواردي را مستند كرده‌اند كه در آنها مدل‌هاي ترجمه اختصاصي سهواً اطلاعات يا توصيه‌هايي را بسيار خارج از كاربرد مورد نظر خود ارايه داده‌اند. مقابله با تزريق سريع نيازمند راهكارهاي تطبيقي است كه در كنار روش‌هاي جديد حمله تكامل يابند. بررسي‌هاي چندلايه، نظارت مستمر و داده‌هاي آموزشي به‌روزرساني‌شده، پايه و اساس اين كار را تشكيل مي‌دهند، اما توسعه‌دهندگان بايد فراتر بروند. تعبيه روال‌هاي تحليل پويا كه عبارت‌هاي ناآشنا يا تغييرات ناگهاني در هدف را در اواسط عمليات شناسايي مي‌كنند، دفاع را تقويت خواهد كرد. برخي سازمان‌ها اطلاعات مربوط به حوادث دنياي واقعي را براي ايجاد پلتفرم‌هاي مقاوم‌تر به اشتراك مي‌گذارند. برخي ديگر، مستندسازي شفاف منطق تصميم‌گيري را در اولويت قرار مي‌دهند و به كاربران و حسابرسان امكان مي‌دهند كه دقيقاً بفهمند يك مدل چگونه نتايج را توليد مي‌كند. آموزش مداوم نيز بسيار مهم است و تضمين مي‌كند كه گروه‌ها تلاش‌هاي دستكاري ظريف را به موقع شناسايي كنند و به‌طور موثر به آنها پاسخ دهند. تزريق سريع، درس مهمي را درباره اعتماد كردن به هوش مصنوعي مدرن و تأييد آن ارايه مي‌دهد. حتي موتورهاي ترجمه‌اي كه به‌شدت كنترل مي‌شوند نيز مي‌توانند قرباني تله‌هاي طراحي‌شده‌ تخصصي شوند. ذي‌نفعان با تحليل تلاش‌هاي دستكاري موفق و ناموفق، درباره نقاط ضعف سيستم شفاف‌سازي مي‌كنند و مسيرهايي را براي محافظت قوي‌تر ارايه مي‌دهند.