ويژگي جديد «چتجيپيتي» به سادگي هك ميشود!
دو پژوهشگر دريافتهاند كه هك كردن جديدترين ويژگي «چتجيپيتي» بهطور شگفتآوري آسان به نظر ميرسد و ميتوان آن را براي رسيدن به مقاصد خطرناك تحت كنترل درآورد.
دو پژوهشگر دريافتهاند كه هك كردن جديدترين ويژگي «چتجيپيتي» بهطور شگفتآوري آسان به نظر ميرسد و ميتوان آن را براي رسيدن به مقاصد خطرناك تحت كنترل درآورد. به گزارش ايسنا، ويژگي «ترجمه چتجيپيتي»كه جايگزين شركت «اوپنايآي» براي «ترجمه گوگل» به شمار ميرود، به تازگي توسط پژوهشگران هك شده است. به نقل از يوسي استراتژيز، دو پژوهشگر اخيرا نشان دادند كه چتجيپيتي به راحتي محدوديتهاي خود را هنگام تزريق يك پرسوجو فراموش ميكند. همچنين، آنها دريافتند كه چتجيپيتي هيچ مشكلي در ارايه دستور تهيه كوكتل مولوتوف نميبيند. با كشف اين حفرههاي ديجيتال ميتوان تعادل پيچيدهاي را بين نوآوريهاي فناوري و خطرات سوءاستفاده مشاهده كرد. به محض اينكه ويژگي جديد چتجيپيتي به صورت عمومي منتشر شد، «تام بارنيا» و «كرن كاتز» پژوهشگران امنيت سايبري شركت «Tenable» تلاش كردند تا ترجمه با چتجيپيتي را تحت فشار قرار دهند. آنها ميخواستند بدانند كه آيا ميتوان چتبات را دستكاري كرد و از مكانيسمهاي امنيتي اوپنايآي گذشت. اين دو متخصص براي فهميدن اين موضوع، مجموعهاي از آزمايشها را انجام دادند. بارنيا و كاتز به عنوان بخشي از آزمايشها، يك حمله تزريق پرسوجو عليه چتجيپيتي انجام دادند. اين نوع حمله شامل جاسازي دستورالعملهاي مخرب در پرسوجوي ارسالي به هوش مصنوعي است. سپس هوش مصنوعي دستورالعملها را مورد پردازش قرار ميدهد و اگر درخواستهاي مهاجمان به درستي فرمولسازي شده باشد، از آنها پيروي ميكند. چالش كلي براي مهاجمان اين است كه هوش مصنوعي را به ناديده گرفتن برنامهنويسي خود مجبور كنند. كاتز توضيح داد كه چتبات به سرعت از مسير خود منحرف شد. چتبات قرار بود متني را از انگليسي به كرهاي ترجمه كند، اما كاتز موفق شد آن را دستكاري كند تا جزييات كامل دستورالعمل ساخت كوكتلمولوتوف را شرح دهد. كاتز گفت: ويژگي ترجمه چتجيپيتي فقط يك روز است كه عرضه شده و در حال حاضر از دستورالعمل ساخت كوكتلمولوتوف تعريف و تمجيد ميكند. ما از مدل ترجمه خواستيم متن ما را از انگليسي به كرهاي تبديل كند اما در عوض، از دستورالعملهاي موجود در متن پيروي كرد و دستورالعمل ساخت كوكتل مولوتوف را نشان داد. تزريق سريع در قلب يك چالش منحصربهفرد امنيت سايبري قرار دارد كه هوش مصنوعي با آن روبرو شده است. اين روش شامل جاسازي دستورالعملهاي گمراهكننده يا مخرب در پرسوجوهاي مشروع فرستادهشده به يك مدل هوش مصنوعي است. اگرچه بيشتر افراد صرفاً به دنبال ترجمه متن هستند، اما افرادي با نيتهاي بد ممكن است درخواستهايي را طراحي كنند كه اين سيستمها را بسيار فراتر از هدف اصلي خود سوق دهد. اثرات بيثباتكننده اغلب در مدلهاي ترجمه تخصصي برجستهتر هستند. اين سيستمها به جاي اينكه كاملاً به وظايف ترجمه پايبند باشند، ممكن است از دستورالعملهاي پنهان پيروي كنند و خروجيهاي غيرمنتظره يا حتي نامناسبي را ارايه دهند. اين سناريو صرفاً يك فرضيه نيست. پژوهشگران امنيتي مواردي را مستند كردهاند كه در آنها مدلهاي ترجمه اختصاصي سهواً اطلاعات يا توصيههايي را بسيار خارج از كاربرد مورد نظر خود ارايه دادهاند. مقابله با تزريق سريع نيازمند راهكارهاي تطبيقي است كه در كنار روشهاي جديد حمله تكامل يابند. بررسيهاي چندلايه، نظارت مستمر و دادههاي آموزشي بهروزرسانيشده، پايه و اساس اين كار را تشكيل ميدهند، اما توسعهدهندگان بايد فراتر بروند. تعبيه روالهاي تحليل پويا كه عبارتهاي ناآشنا يا تغييرات ناگهاني در هدف را در اواسط عمليات شناسايي ميكنند، دفاع را تقويت خواهد كرد. برخي سازمانها اطلاعات مربوط به حوادث دنياي واقعي را براي ايجاد پلتفرمهاي مقاومتر به اشتراك ميگذارند. برخي ديگر، مستندسازي شفاف منطق تصميمگيري را در اولويت قرار ميدهند و به كاربران و حسابرسان امكان ميدهند كه دقيقاً بفهمند يك مدل چگونه نتايج را توليد ميكند. آموزش مداوم نيز بسيار مهم است و تضمين ميكند كه گروهها تلاشهاي دستكاري ظريف را به موقع شناسايي كنند و بهطور موثر به آنها پاسخ دهند. تزريق سريع، درس مهمي را درباره اعتماد كردن به هوش مصنوعي مدرن و تأييد آن ارايه ميدهد. حتي موتورهاي ترجمهاي كه بهشدت كنترل ميشوند نيز ميتوانند قرباني تلههاي طراحيشده تخصصي شوند. ذينفعان با تحليل تلاشهاي دستكاري موفق و ناموفق، درباره نقاط ضعف سيستم شفافسازي ميكنند و مسيرهايي را براي محافظت قويتر ارايه ميدهند.
