عاملهاي هوش مصنوعي كجاي مسير متوقف شدند؟
سال ۲۰۲۵ قرار بود نقطه عطفي در تاريخ هوش مصنوعي باشد؛ سالي كه عاملهاي هوشمند وارد نيروي كار شوند و ساختار بسياري از مشاغل را دگرگون كنند. اما اكنون، در حالي كه به پايان اين سال نزديك ميشويم، نشانهها حكايت از شكافي جدي ميان وعدههاي پرشور سيليكونولي و واقعيت پيچيده و پرخطاي عاملهاي هوش مصنوعي دارد.
سال ۲۰۲۵ قرار بود نقطه عطفي در تاريخ هوش مصنوعي باشد؛ سالي كه عاملهاي هوشمند وارد نيروي كار شوند و ساختار بسياري از مشاغل را دگرگون كنند. اما اكنون، در حالي كه به پايان اين سال نزديك ميشويم، نشانهها حكايت از شكافي جدي ميان وعدههاي پرشور سيليكونولي و واقعيت پيچيده و پرخطاي عاملهاي هوش مصنوعي دارد.
در سالهايي كه هوش مصنوعي با سرعتي بيسابقه در حال نفوذ به حوزههاي مختلف زندگي و كار است، مفهوم «عاملهاي هوش مصنوعي» به عنوان گام بعدي اين فناوري، توجه سياستگذاران، سرمايهگذاران و غولهاي فناوري را به خود جلب كرد. وعده ورود عاملهايي كه نهفقط پاسخگو، بلكه كنشگر و تصميمگير باشند، تصويري از آيندهاي ترسيم كرد كه در آن مرز ميان نيروي انساني و ماشين بهطور جدي جابهجا ميشود. با اين حال، فاصله ميان اين تصوير آرماني و واقعيتهاي فني و عملي، پرسشهاي تازهاي درباره مسير واقعي پيشرفت هوش مصنوعي مطرح كرده است؛ پرسشهايي كه سال ۲۰۲۵ بيش از هر زمان ديگري آنها را به مركز توجه آورد. حدود يك سال پيش، سم آلتمن، مديرعامل اوپنايآي، پيشبينياي بلندپروازانهاي را مطرح كرد كه به سرعت به يكي از بحثبرانگيزترين وعدههاي صنعت فناوري تبديل شد. او گفت: «ما باور داريم كه در سال ۲۰۲۵، نخستين عاملهاي هوش مصنوعي وارد نيروي كار ميشوند و بهطور معناداري خروجي شركتها را تغيير خواهند داد.»
آنطور كه پيوست از نيويوكر نقل ميكند، چند هفته بعد، كوين وايل، مدير ارشد محصولات اوپنايآي، در اجلاس مجمع جهاني اقتصاد در داووس، اين پيشبيني را بسط داد و گفت كه ChatGPT ديگر صرفا «ابزاري هوشمند براي گفتوگو» نيست، بلكه قادر است در دنياي واقعي به نيابت از كاربران دست به اقدام بزند و كارهايي چون پر كردن فرمهاي آنلاين تا رزرو رستوران و وظايف پيچيده ديجيتال را به اجرا گذارد. در آن مقطع، چنين اظهاراتي تنها يك اغراق تبليغاتي به نظر نميرسيد. پيشرفت سريع مدلهاي زباني بزرگ (LLMها)، بهويژه در حوزه برنامهنويسي، باعث باور بسياري به اين پيشبيني شده بود كه هوش مصنوعي در آستانه يك جهش تاريخي قرار دارد؛ جهشي كه تحول برآمده از آن ميتوانست ساختار بازار كار را دگرگون كند. چشمانداز از نگاه فعالان بازار به حدي روشن بود كه مارك بنيوف، مديرعامل Salesforce كه شركتش از اولين شركاي صنعتي بزرگ براي پيشنهادات مختلف اوپنايآي است و از عاملهاي هوش مصنوعي در فرايندهاي كاري خود استفاده ميكند، پا را فراتر از اين پيشبينيها گذاشت و از انقلاب «چند هزار ميليارد دلاري» عاملهاي هوشمند سخن گفت. اما اكنون كه به پايان سال ۲۰۲۵ نزديك ميشويم، تصوير واقعي فاصله معناداري با اين پيشبينيها دارد و گرچه عاملهاي هوش مصنوعي به عنوان يك فناوري مهم و تاثيرگذار در آينده شناخته ميشوند، اما هنوز تحولي كه بزرگان فناوري از آن سخن ميگفتند محقق نشده است.
عامل هوش مصنوعي چيست و چرا اينقدر مهم تلقي ميشد؟
برخلاف چتباتها كه به يك درخواست متني پاسخ ميدهند، عاملهاي هوش مصنوعي قرار است بهطور مستقل در محيط ديجيتال دست به كار شده و به نيابت از ما عمل كنند. بهعبارت ديگر، يك عامل بايد بتواند هدف كلي كاربر خود را در كند، همانند انسان آن را به چندين مرحله خرد تقسيم كرده و با استفاده از ابزارهاي مختلف (مرورگر، نرمافزارها، APIها) دست به اقدام بزند و در اين فرايند نتايج مياني را ارزيابي كرده و مسير خود را براساس روند پيشرفت اصلاح كند تا در نهايت هدفي كه كاربر خواستار آن است محقق شود. مثالي كه بيشتر براي اين بخش استفاده ميشود، فرايند رزرو يك هتل به نيابت از كاربر است كه عامل هوش مصنوعي ابتدا به انتخاب تاريخ ميپردازد، سپس گزينهها را بررسي و فيلتر ميكند، نظرات را ميخواند، قيمتهاي را در سايتهاي مختلف مقايسه ميكند و در نهايت با توجه به دستور كاربر اقدام به رزرو هتل ميكند.
كاري كه براي انسان ساده به نظر ميرسد اما چندين تصميم ريز را در درون خود دارد. اگر عاملهاي هوش مصنوعي واقعا قادر به انجام چنين وظايفي باشند، پيامدهاي عظيمي را شاهد خواهيم بود. از آنجايي كه وظايف چندمرحلهاي اينچنيني در بسياري از مشاغل به صورت روزمره انجام ميگيرد، عاملها ميتوانند بهطور مستقيم جايگزين بخشي از نيروي انساني در بسياري از مشاغل اداري و خدماتي شوند. حال گرچه گزارشها از تعديل گسترده به ويژه در بخش فناوري امريكا در سال گذشته ميگويند و آمارهاي جديد به حدود ۵۰ هزار تعديل نيروي مستقيم در نتيجه هوش مصنوعي اشاره ميكنند، اما آنچه رخ داده با پيشبيني و انتظارات فناوران متفاوت است.
چرا قرار شد كه سال ۲۰۲۵ «سال عاملها» باشد؟
دليل اصلي خوشبيني، پيشرفت چشمگير هوش مصنوعي در برنامهنويسي بود. تا پايان ۲۰۲۴، ابزارهايي مانند GitHub Copilot و مدلهاي پيشرفته اوپنايآي نشان دادند كه ميتوانند علاوه بر كدنويسي، حتي به اصلاح و تحليل و پروژههاي نرمافزاري نيز بپردازند. دموي مشهور Codex Agent (عامل هوش مصنوعي اوپنايآي كه با تمركز بر برنامهنويسي عرضه شده است) در ماه مه، نقطه عطفي براي اين روايت بود. در اين نمايش، كاربر از عامل هوش مصنوعي خواست تغيير كوچكي در وبسايت شخصياش ايجاد كند و عامل هوش مصنوعي اوپنايآي براي اين كار ابتدا به بررسي ساختار فايلها پرداخت. در مرحله بعدي فايل مناسب را شناسايي كرد و محل درست براي افزودن كد را يافت. در نهايت كد را اصلاح كرد و صفحه جديدي ايجاد كه خواسته كاربر را پاسخ ميداد و اين همان كاري بود كه فرد بايد از يك طراح سايت انتظار ميداشت. براي بسياري از مهندسان، اين عملكرد بهطرز نگرانكنندهاي شبيه تفكر انساني بود. همين موفقيت باعث شد سيليكونولي به اين نتيجه برسد كه اگر هوش مصنوعي بتواند برنامهنويسي كند، بزودي از پس ساير كارها هم برميآيد. اما موفقيت هوش مصنوعي در بخش برنامهنويسي آن چنان كه بايد در ديگر بخشها ترجمه نشد و همين مساله باعث شد تا اين ابزارها در حال حاضر نتوانند تفاوت معناداري در بخشهاي مختلف صنعتي و فناوري رقم بزنند.
خبري از عاملهاي عمومي نشد
با وجود اين خوشبيني، در عمل عاملهاي هوش مصنوعي عمومي با شكست مواجه شدند. در پاييز، آندري كارپاتي، از بنيانگذاران اوپنايآي، بهصراحت اعلام كرد كه عاملها «از نظر شناختي دچار ضعفاند» و «عملا كار نميكنند.»گري ماركوس، منتقد قديمي هيجانزدگيهاي صنعت فناوري، حتي صريحتر از اين به انتقاد پرداخت و گفت: «عاملهاي هوش مصنوعي را تا اينجا ميتوان عمدتا يك ناكامي توصيف كرد.» اين فاصله ميان وعده و واقعيت، صرفا يك شكست فني نيست؛ بلكه تهديدي براي روايت كلان آينده هوش مصنوعي است كه براساس آن شركتها و حتي دولتهاي مختلف به هزاران ميليارد دلار سرمايهگذاري متعهد شدهاند. اگر هوش مصنوعي نتواند از سطح چتبات فراتر برود، بسياري از وعدههاي اتوماسيون گسترده زير سوال خواهد رفت.
عاملها واقعا چگونه كار ميكنند؟
برخلاف تصور عمومي، عاملهاي هوش مصنوعي «مغزهاي مستقل ديجيتال» نيستند. آنها تركيبي از يك مدل زباني بزرگ و يك برنامه كنترلي ساده هستند كه وظيفه هماهنگسازي بخشهاي مختلف را دارد كه هركدام از آنها مدلي (گاه تخصصي و گاه عمومي) هستند. اين برنامه كنترلي درخواست كاربر را به پرسشهايي براي مدل تبديل ميكند: «هدف چيست؟ چه ابزارهايي در اختيار داري؟ گام بعدي چيست؟» سپس مدل پيشنهاد يك اقدام را ميدهد، سيستم آن را اجرا ميكند، نتيجه را گزارش ميدهد و دوباره از مدل ميپرسد چه بايد كرد. اين چرخه تا زماني ادامه پيدا ميكند كه مدل تصور كند كار تمام شده است. با اين حال چنين ساختاربندي در محيطهاي عملكرد عالي دارد، كه كاملا مبتني بر متن است. به همين دليل است كه بخش نگارش و برنامهنويسي اولين حوزه شكوفايي عاملها و بهطور كلي هوش مصنوعي شناخته ميشوند. محيط توسعه نرمافزار تقريبا ايدهآلترين سناريو براي LLMهاست چرا كه دستورات آن متنياند، ساختارها منطقي و سلسلهمراتبي دارد و بازخوردها سريع و شفافاند. به همين دليل، عاملهاي كدنويسي عملكردي قابلقبول دارند اما مشكل زماني آغاز ميشود كه عامل بايد وارد دنياي گرافيكي و تعاملي انسانها شود.
موس و كليك يكي از چالشهاي اصلي عاملها
بيشتر كارهاي ديجيتال انسانها با كليك، اسكرول و انتخاب منوها انجام ميشود. دليل آن هم اين است كه جهان ديجيتال ما از جمله وبسايتها و اپليكشينها با هدف ارايه خدمات به انسانها طراحي شدهاند و نه روباتها؛ در واقع طراحي جهان ديجيتال به گونهاي است كه تلاش كند از دسترسي روباتها جلوگيري شود. براي يك هوش مصنوعي يا عامل هوش مصنوعي، اين محيط بهشدت مبهم است. گزارش نيويوركتايمز نشان ميدهد برخي استارتآپها حتي مجبور شدهاند «سايتهاي سايهاي» با هدف تمرين دادن به هوش مصنوعي بسازند؛ نسخههاي شبيهسازيشده از وبسايتهايي مانند جيميل يا United Airlines كه هوش مصنوعي بتواند رفتار موس را در آن تمرين كند. نسخه اوليه ChatGPT Agent يا عامل هوش مصنوعي اوپنايآي كه در تابستان معرفي شد، گواهي بر اين مشكل است. بررسيها نشان داد حتي كارهاي ساده، مانند انتخاب يك گزينه از منوي كشويي، ممكن است چندين دقيق به طول بينجامد يا حتي به توقف كامل فرايند انجام كار منجر شود. شايد همين مساله باعث شده تا شركتهاي هوش مصنوعي همچنان بر نظارت انساني تاكيد داشته باشند و در واقع انسان را در كنار هوش مصنوعي در اين حلقه كاري نگاه دارند. اما از آنجايي كه هدف نهايي اقدام و فعاليت مستقل عاملها است، برخي شركتها و توسعهدهندگان به فكر اينترنتي عامل پسند افتادهاند.
تغيير اينترنت به نفع عاملها
برخي توسعهدهندگان معتقدند بهجاي آموزش هوش مصنوعي براي تقليد از انسان، بايد ابزارها را براي هوش مصنوعي سادهتر كرد. از اين رو پروژههايي مانند Model Context Protocol و Agent2Agent گوگل را شاهد هستيم. اين پروژهها بهدنبال ايجاد جهاني هستند كه در آن عاملها مستقيما با يكديگر و با نرمافزارها تعامل متني داشته باشند و ديگر نيازي به تعامل با رابط گرافيكي نباشد. در واقع مرحلهاي كه در آن هوش مصنوعي به مشكل ميخورد قرار است از مسير انجام كار حذف شود. اما اين مسير مستلزم بازطراحي بخش بزرگي از زيرساخت اينترنت است؛ كاري كه سالها زمان ميبرد و با مقاومت جدي مواجه خواهد شد. اما حتي اگر مشكلات فني حل شود، مانع بزرگتري همچنان به قوت خود باقي است و آن ناتواني LLMها در درك جهان واقعي است (جهاني كه از متن و دستورهاي كامپيوتري فراتر ميرود.) نمونهاي كه شركت اوپنايآي در دمو ارايه كرده بود نيز كه حاوي نقشه سفر استاديومهاي MLB بود و بهاشتباه نقطهاي در خليج مكزيك را در بر داشت، نمادي از اين ضعف است. مدلها و در نتيجه عاملهاي هوش مصنوعي در بهترين حالت خود و در آنلاينترين حالت در درك زمان درك مكان و استدلال سببي با مشكل مواجهاند و اين ضعفها در يك فرآيند چندمرحلهاي ميتواند فاجعهبار باشد.
