از هيجان تا واقع‌گرايي

عامل‌هاي هوش مصنوعي كجاي مسير متوقف شدند؟

۱۴۰۴/۱۰/۰۷ - ۰۲:۱۵:۱۶
کد خبر: ۳۷۱۶۸۵
عامل‌هاي هوش مصنوعي كجاي مسير متوقف شدند؟

سال ۲۰۲۵ قرار بود نقطه عطفي در تاريخ هوش مصنوعي باشد؛ سالي كه عامل‌هاي هوشمند وارد نيروي كار شوند و ساختار بسياري از مشاغل را دگرگون كنند. اما اكنون، در حالي كه به پايان اين سال نزديك مي‌شويم، نشانه‌ها حكايت از شكافي جدي ميان وعده‌هاي پرشور سيليكون‌ولي و واقعيت پيچيده و پرخطاي عامل‌هاي هوش مصنوعي دارد.

سال ۲۰۲۵ قرار بود نقطه عطفي در تاريخ هوش مصنوعي باشد؛ سالي كه عامل‌هاي هوشمند وارد نيروي كار شوند و ساختار بسياري از مشاغل را دگرگون كنند. اما اكنون، در حالي كه به پايان اين سال نزديك مي‌شويم، نشانه‌ها حكايت از شكافي جدي ميان وعده‌هاي پرشور سيليكون‌ولي و واقعيت پيچيده و پرخطاي عامل‌هاي هوش مصنوعي دارد.

در سال‌هايي كه هوش مصنوعي با سرعتي بي‌سابقه در حال نفوذ به حوزه‌هاي مختلف زندگي و كار است، مفهوم «عامل‌هاي هوش مصنوعي» به عنوان گام بعدي اين فناوري، توجه سياست‌گذاران، سرمايه‌گذاران و غول‌هاي فناوري را به خود جلب كرد. وعده ورود عامل‌هايي كه نه‌فقط پاسخگو، بلكه كنشگر و تصميم‌گير باشند، تصويري از آينده‌اي ترسيم كرد كه در آن مرز ميان نيروي انساني و ماشين به‌طور جدي جابه‌جا مي‌شود. با اين حال، فاصله ميان اين تصوير آرماني و واقعيت‌هاي فني و عملي، پرسش‌هاي تازه‌اي درباره مسير واقعي پيشرفت هوش مصنوعي مطرح كرده است؛ پرسش‌هايي كه سال ۲۰۲۵ بيش از هر زمان ديگري آنها را به مركز توجه آورد. حدود يك سال پيش، سم آلتمن، مديرعامل اوپن‌اي‌آي، پيش‌بيني‌اي بلند‌پروازانه‌اي را مطرح كرد كه به سرعت به يكي از بحث‌برانگيزترين وعده‌هاي صنعت فناوري تبديل شد. او گفت: «ما باور داريم كه در سال ۲۰۲۵، نخستين عامل‌هاي هوش مصنوعي وارد نيروي كار مي‌شوند و به‌طور معناداري خروجي شركت‌ها را تغيير خواهند داد.»

آنطور كه پيوست از نيويوكر نقل مي‌كند، چند هفته بعد، كوين وايل، مدير ارشد محصولات اوپن‌اي‌آي، در اجلاس مجمع جهاني اقتصاد در داووس، اين پيش‌بيني را بسط داد و گفت كه ChatGPT ديگر صرفا «ابزاري هوشمند براي گفت‌وگو» نيست، بلكه قادر است در دنياي واقعي به نيابت از كاربران دست به اقدام بزند و كارهايي چون پر كردن فرم‌هاي آنلاين تا رزرو رستوران و وظايف پيچيده ديجيتال را به اجرا گذارد. در آن مقطع، چنين اظهاراتي تنها يك اغراق تبليغاتي به نظر نمي‌رسيد. پيشرفت سريع مدل‌هاي زباني بزرگ (LLMها)، به‌ويژه در حوزه برنامه‌نويسي، باعث باور بسياري به اين پيش‌بيني شده بود كه هوش مصنوعي در آستانه يك جهش تاريخي قرار دارد؛ جهشي كه تحول برآمده از آن مي‌توانست ساختار بازار كار را دگرگون كند. چشم‌انداز از نگاه فعالان بازار به حدي روشن بود كه مارك بنيوف، مديرعامل Salesforce كه شركتش از اولين شركاي صنعتي بزرگ براي پيشنهادات مختلف اوپن‌اي‌آي است و از عامل‌هاي هوش مصنوعي در فرايند‌هاي كاري خود استفاده مي‌كند، پا را فراتر از اين پيش‌بيني‌ها گذاشت و از انقلاب «چند هزار ميليارد دلاري» عامل‌هاي هوشمند سخن گفت. اما اكنون كه به پايان سال ۲۰۲۵ نزديك مي‌شويم، تصوير واقعي فاصله معناداري با اين پيش‌بيني‌ها دارد و گرچه عامل‌هاي هوش مصنوعي به عنوان يك فناوري مهم و تاثيرگذار در آينده شناخته مي‌شوند، اما هنوز تحولي كه بزرگان فناوري از آن سخن مي‌گفتند محقق نشده است.

    عامل هوش مصنوعي چيست  و چرا اينقدر مهم تلقي مي‌شد؟

برخلاف چت‌بات‌ها كه به يك درخواست متني پاسخ مي‌دهند، عامل‌هاي هوش مصنوعي قرار است به‌طور مستقل در محيط ديجيتال دست به كار شده و به نيابت از ما عمل كنند. به‌عبارت ديگر، يك عامل بايد بتواند هدف كلي كاربر خود را در كند، همانند انسان آن را به چندين مرحله خرد تقسيم كرده و با استفاده از ابزارهاي مختلف (مرورگر، نرم‌افزارها، APIها) دست به اقدام بزند و در اين فرايند نتايج مياني را ارزيابي كرده و مسير خود را براساس روند پيشرفت اصلاح كند تا در نهايت هدفي كه كاربر خواستار آن است محقق شود. مثالي كه بيشتر براي اين بخش استفاده مي‌شود، فرايند رزرو يك هتل به نيابت از كاربر است كه عامل هوش مصنوعي ابتدا به انتخاب تاريخ مي‌پردازد، سپس گزينه‌ها را بررسي و فيلتر مي‌كند، نظرات را مي‌‌خواند، قيمت‌هاي را در سايت‌هاي مختلف مقايسه مي‌كند و در نهايت با توجه به دستور كاربر اقدام به رزرو هتل مي‌كند.

كاري كه براي انسان ساده به نظر مي‌رسد اما چندين تصميم ريز را در درون خود دارد. اگر عامل‌هاي هوش مصنوعي واقعا قادر به انجام چنين وظايفي باشند، پيامدهاي عظيمي را شاهد خواهيم بود. از آنجايي كه وظايف چند‌مرحله‌اي اينچنيني در بسياري از مشاغل به صورت روزمره انجام مي‌گيرد، عامل‌ها مي‌توانند به‌طور مستقيم جايگزين بخشي از نيروي انساني در بسياري از مشاغل اداري و خدماتي شوند. حال گرچه گزارش‌ها از تعديل گسترده به ويژه در بخش فناوري امريكا در سال گذشته مي‌گويند و آمار‌هاي جديد به حدود ۵۰ هزار تعديل نيروي مستقيم در نتيجه هوش مصنوعي اشاره مي‌كنند، اما آنچه رخ داده با پيش‌بيني و انتظارات فناوران متفاوت است.

    چرا قرار شد كه سال ۲۰۲۵  «سال عامل‌ها» باشد؟

دليل اصلي خوش‌بيني، پيشرفت چشمگير هوش مصنوعي در برنامه‌نويسي بود. تا پايان ۲۰۲۴، ابزارهايي مانند GitHub Copilot و مدل‌هاي پيشرفته اوپن‌اي‌آي نشان دادند كه مي‌توانند علاوه بر كدنويسي، حتي به اصلاح و تحليل و پروژه‌هاي نرم‌افزاري نيز بپردازند. دموي مشهور Codex Agent (عامل هوش مصنوعي اوپن‌اي‌آي كه با تمركز بر برنامه‌نويسي عرضه شده است) در ماه مه، نقطه عطفي براي اين روايت بود. در اين نمايش، كاربر از عامل هوش مصنوعي خواست تغيير كوچكي در وب‌سايت شخصي‌اش ايجاد كند و عامل هوش مصنوعي اوپن‌اي‌آي براي اين كار ابتدا به بررسي ساختار فايل‌ها پرداخت. در مرحله بعدي فايل مناسب را شناسايي كرد و محل درست براي افزودن كد را يافت. در نهايت كد را اصلاح كرد و صفحه جديدي ايجاد كه خواسته كاربر را پاسخ مي‌داد و اين همان كاري بود كه فرد بايد از يك طراح سايت انتظار مي‌داشت. براي بسياري از مهندسان، اين عملكرد به‌طرز نگران‌كننده‌اي شبيه تفكر انساني بود. همين موفقيت باعث شد سيليكون‌ولي به اين نتيجه برسد كه اگر هوش مصنوعي بتواند برنامه‌نويسي كند، بزودي از پس ساير كارها هم برمي‌آيد. اما موفقيت هوش مصنوعي در بخش برنامه‌نويسي آن چنان كه بايد در ديگر بخش‌ها ترجمه نشد و همين مساله باعث شد تا اين ابزارها در حال حاضر نتوانند تفاوت معناداري در بخش‌هاي مختلف صنعتي و فناوري رقم بزنند.

    خبري از عامل‌هاي عمومي نشد

با وجود اين خوش‌بيني، در عمل عامل‌هاي هوش مصنوعي عمومي با شكست مواجه شدند. در پاييز، آندري كارپاتي، از بنيان‌گذاران اوپن‌اي‌آي، به‌صراحت اعلام كرد كه عامل‌ها «از نظر شناختي دچار ضعف‌اند» و «عملا كار نمي‌كنند.»گري ماركوس، منتقد قديمي هيجان‌زدگي‌هاي صنعت فناوري، حتي صريح‌تر از اين به انتقاد پرداخت و گفت: «عامل‌هاي هوش مصنوعي را تا اين‌جا مي‌توان عمدتا يك ناكامي توصيف كرد.» اين فاصله ميان وعده و واقعيت، صرفا يك شكست فني نيست؛ بلكه تهديدي براي روايت كلان آينده هوش مصنوعي است كه براساس آن شركت‌ها و حتي دولت‌هاي مختلف به هزاران ميليارد دلار سرمايه‌گذاري متعهد شده‌اند. اگر هوش مصنوعي نتواند از سطح چت‌بات فراتر برود، بسياري از وعده‌هاي اتوماسيون گسترده زير سوال خواهد رفت.

    عامل‌ها واقعا چگونه كار مي‌كنند؟

برخلاف تصور عمومي، عامل‌هاي هوش مصنوعي «مغزهاي مستقل ديجيتال» نيستند. آنها تركيبي از يك مدل زباني بزرگ و يك برنامه كنترلي ساده هستند كه وظيفه هماهنگ‌سازي بخش‌هاي مختلف را دارد كه هركدام از آنها مدلي (گاه تخصصي و گاه عمومي) هستند. اين برنامه كنترلي درخواست كاربر را به پرسش‌هايي براي مدل تبديل مي‌كند: «هدف چيست؟ چه ابزارهايي در اختيار داري؟ گام بعدي چيست؟» سپس مدل پيشنهاد يك اقدام را مي‌دهد، سيستم آن را اجرا مي‌كند، نتيجه را گزارش مي‌دهد و دوباره از مدل مي‌پرسد چه بايد كرد. اين چرخه تا زماني ادامه پيدا مي‌كند كه مدل تصور كند كار تمام شده است. با اين حال چنين ساختاربندي در محيط‌هاي عملكرد عالي دارد، كه كاملا مبتني بر متن است. به همين دليل است كه بخش نگارش و برنامه‌نويسي اولين حوزه شكوفايي عامل‌ها و به‌طور كلي هوش مصنوعي شناخته مي‌شوند. محيط توسعه نرم‌افزار تقريبا ايده‌آل‌ترين سناريو براي LLMهاست چرا كه دستورات آن متني‌اند، ساختارها منطقي و سلسله‌مراتبي دارد و بازخوردها سريع و شفاف‌اند. به همين دليل، عامل‌هاي كدنويسي عملكردي قابل‌قبول دارند اما مشكل زماني آغاز مي‌شود كه عامل بايد وارد دنياي گرافيكي و تعاملي انسان‌ها شود.

    موس و كليك  يكي از چالش‌هاي اصلي عامل‌ها

بيشتر كارهاي ديجيتال انسان‌ها با كليك، اسكرول و انتخاب منوها انجام مي‌شود. دليل آن هم اين است كه جهان ديجيتال ما از جمله وبسايت‌ها و اپليكشين‌ها با هدف ارايه خدمات به انسان‌ها طراحي شده‌اند و نه روبات‌ها؛ در واقع طراحي جهان ديجيتال به گونه‌اي است كه تلاش كند از دسترسي روبات‌ها جلوگيري شود. براي يك هوش مصنوعي يا عامل هوش مصنوعي، اين محيط به‌شدت مبهم است. گزارش نيويورك‌تايمز نشان مي‌دهد برخي استارت‌آپ‌ها حتي مجبور شده‌اند «سايت‌هاي سايه‌اي» با هدف تمرين دادن به هوش مصنوعي بسازند؛ نسخه‌هاي شبيه‌سازي‌شده از وب‌سايت‌هايي مانند جي‌ميل يا United Airlines كه هوش مصنوعي‌ بتواند رفتار موس را در آن تمرين كند. نسخه اوليه ChatGPT Agent يا عامل هوش مصنوعي اوپن‌اي‌آي كه در تابستان معرفي شد، گواهي بر اين مشكل است. بررسي‌ها نشان داد حتي كارهاي ساده، مانند انتخاب يك گزينه از منوي كشويي، ممكن است چندين دقيق به طول بينجامد يا حتي به توقف كامل فرايند انجام كار منجر شود. شايد همين مساله باعث شده تا شركت‌هاي هوش مصنوعي همچنان بر نظارت انساني تاكيد داشته باشند و در واقع انسان را در كنار هوش مصنوعي در اين حلقه كاري نگاه دارند. اما از آنجايي كه هدف نهايي اقدام و فعاليت مستقل عامل‌ها است، برخي شركت‌ها و توسعه‌دهندگان به فكر اينترنتي عامل پسند افتاده‌‌اند.

    تغيير اينترنت به نفع عامل‌ها

برخي توسعه‌دهندگان معتقدند به‌جاي آموزش هوش مصنوعي براي تقليد از انسان، بايد ابزارها را براي هوش مصنوعي ساده‌تر كرد. از اين رو پروژه‌هايي مانند Model Context Protocol و Agent2Agent گوگل را شاهد هستيم. اين پروژه‌ها به‌دنبال ايجاد جهاني هستند كه در آن عامل‌ها مستقيما با يكديگر و با نرم‌افزارها تعامل متني داشته باشند و ديگر نيازي به تعامل با رابط گرافيكي نباشد. در واقع مرحله‌اي كه در آن هوش مصنوعي به مشكل مي‌خورد قرار است از مسير انجام كار حذف شود. اما اين مسير مستلزم بازطراحي بخش بزرگي از زيرساخت اينترنت است؛ كاري كه سال‌ها زمان مي‌برد و با مقاومت جدي مواجه خواهد شد. اما حتي اگر مشكلات فني حل شود، مانع بزرگ‌تري همچنان به قوت خود باقي است و آن ناتواني LLMها در درك جهان واقعي است (جهاني كه از متن و دستور‌هاي كامپيوتري فراتر مي‌رود.) نمونه‌اي كه شركت اوپن‌اي‌آي در دمو ارايه كرده بود نيز كه حاوي نقشه سفر استاديوم‌هاي MLB بود و به‌اشتباه نقطه‌اي در خليج مكزيك را در بر داشت، نمادي از اين ضعف است. مدل‌ها و در نتيجه عامل‌هاي هوش مصنوعي در بهترين حالت خود و در آنلاين‌ترين حالت در درك زمان درك مكان و استدلال سببي با مشكل مواجه‌اند و اين ضعف‌ها در يك فرآيند چندمرحله‌اي مي‌تواند فاجعه‌بار باشد.