عرضه يك مدل «وزن‌باز» توسط «اوپن‌اي‌آي» پس از ۶ سال

۱۴۰۴/۰۵/۱۶ - ۰۲:۱۳:۳۶
کد خبر: ۳۵۲۴۶۴

اولين مدل بزرگ زباني جديد شركت «اوپن‌اي‌آي» (OpenAI) كه «وزن‌باز (open-weight) است، پس از ۶ سال از راه رسيد.

اولين مدل بزرگ زباني جديد شركت «اوپن‌اي‌آي» (OpenAI) كه «وزن‌باز (open-weight) است، پس از ۶ سال از راه رسيد. به گزارش ايسنا، براي اولين‌بار از زمان عرضه مدل «GPT-2» در سال ۲۰۱۹، اكنون «اوپن‌اي‌آي»مدل‌هاي زبان بزرگ با وزن آزاد جديدي را منتشر مي‌كند. اين يك نقطه عطف بزرگ براي شركتي است كه به‌طور فزاينده‌اي به چشم‌پوشي از ماموريت اصلي خود مبني بر اطمينان از اينكه هوش مصنوعي عمومي به نفع همه بشريت است، متهم شده است. اكنون پس از چندين بار تاخير در آزمايش و اصلاح ايمني بيشتر، مدل‌هاي «gpt-oss-120 b» و «gpt-oss-20 b» براي دانلود در دسترس هستند. قبل از ادامه، بياييد ببينيم «اوپن‌اي‌آي» دقيقاً در اينجا چه كاري انجام داده است. اين شركت مدل‌هاي منبع‌باز جديدي را كه شامل كد و داده‌هاي اساسي مورد استفاده براي آموزش آنها باشد، منتشر نمي‌كند. در عوض، وزن‌ها، يعني مقادير عددي كه مدل‌ها ياد گرفته‌اند در طول آموزش خود به ورودي‌ها اختصاص دهند را كه سيستم‌هاي جديد را آگاه مي‌كنند، به اشتراك مي‌گذارد. در واقع، مدل‌هاي زباني وزن باز يا وزن آزاد به گونه‌اي طراحي مي‌شوند كه توسعه‌دهندگان بتوانند مدل را تحليل كنند و آن را بدون نياز به داده‌هاي اصلي، براي نيازهاي خاص خود تنظيم كنند و از آن در پروژه‌هاي مختلف استفاده كنند. اين در حالي است كه اين مدل‌ها «منبع باز» (Open-Source) محسوب نمي‌شوند، زيرا برخلاف مدل‌هاي متن‌باز، كد منبع، داده‌هاي آموزشي و روش‌هاي آموزش در دسترس قرار نمي‌گيرد. بنابراين از آن براي ساخت چت‌بات‌هاي جديد نمي‌توان استفاده كرد. همين امر مي‌تواند مدل زباني تازه شركت «اوپن‌اي‌آي» را منحصر به‌فرد كند. يك مدل هوش مصنوعي در صورتي «وزن باز» در نظر گرفته مي‌شود كه پارامترهاي آن يا عناصري كه خروجي‌ها و پيش‌بيني‌هاي آن را در طول آموزش بهبود مي‌بخشند، در دسترس عموم باشند. به گفته بنجامين لي (Benjamin Lee)، استاد مهندسي و علوم رايانه در دانشگاه پنسيلوانيا، مدل‌هاي وزن‌باز و متن‌باز دو هدف بسيار متفاوت را دنبال مي‌كنند. او مي‌گويد: يك مدل وزن‌باز، مقاديري را كه در طول آموزش يك مدل زباني بزرگ آموخته شده است، ارايه مي‌دهد و اساساً به شما اين امكان را مي‌دهد كه از مدل استفاده كنيد و بر روي آن بسازيد. مي‌توانيد از مدل به صورت آماده استفاده كنيد يا مي‌توانيد آن را براي يك كاربرد خاص دوباره تعريف يا تنظيم كنيد و وزن‌ها را به دلخواه خود تنظيم كنيد. به گفته وي، در واقع اگر مدل‌هاي تجاري كاملاً يك جعبه‌سياه باشند و يك سيستم «منبع‌باز» امكان سفارشي‌سازي و اصلاح كامل را فراهم كند، هوش مصنوعي «وزن‌باز» جايي در اين بين قرار مي‌گيرد. اين يعني «اوپن‌اي‌آي» مدل‌هاي «منبع‌باز» را منتشر نكرده است، احتمالاً به اين دليل كه يك رقيب نتواند از داده‌ها و كد آموزشي براي مهندسي معكوس فناوري آن استفاده كند. «لي» مي‌گويد: يك مدل منبع‌باز چيزي بيش از وزن‌هاست. همچنين به‌طور بالقوه شامل كدي است كه براي اجراي فرآيند آموزش استفاده مي‌شود و عملاً، يك فرد عادي استفاده زيادي از يك مدل منبع‌باز نخواهد برد، مگر اينكه مزرعه‌اي از پردازنده‌هاي گرافيكي رده بالاي انويديا داشته باشد كه قبض برق او را بالا مي‌برد. البته اين مدل‌ها براي محققاني كه به دنبال كسب اطلاعات بيشتر در مورد داده‌هايي هستند كه شركت براي آموزش مدل‌هاي خود استفاده كرده است، مفيد خواهند بود و تعداد انگشت‌شماري مدل منبع‌باز مانند «Mistral NeMo» و «Mistral Small  3» وجود دارند. با در نظر گرفتن اين موضوعات، تفاوت اصلي بين «gpt-oss-120 b» و «gpt-oss-20 b» در تعداد پارامترهايي است كه هر كدام ارايه مي‌دهند. اگر با اين اصطلاح آشنا نيستيد، پارامترها تنظيماتي هستند كه يك مدل زبان بزرگ مي‌تواند براي ارايه پاسخ به شما تغيير دهد. نام‌گذاري اين مدل‌ها كمي گيج‌كننده است. در واقع مدل «gpt-oss-120 b» يك مدل ۱۱۷ ميليارد پارامتري است، در حالي كه مدل كوچك‌تر آن ۲۱ ميليارد پارامتر دارد. اين در عمل بدان معناست كه «gpt-oss-120 b» براي اجرا به سخت‌افزار قدرتمندتري نياز دارد و «اوپن‌اي‌آي» يك پردازنده گرافيكي ۸۰ گيگابايتي را براي استفاده كارآمد توصيه مي‌كند. خبر خوب اين است كه اين شركت مي‌گويد هر رايانه مدرن با ۱۶ گيگابايت رم مي‌تواند «gpt-oss-20 b» را اجرا كند. در نتيجه مي‌توان از مدل كوچك‌تر براي انجام كارهاي ساده‌تر بدون اتصال به اينترنت استفاده كرد.

علاوه بر اين، «اوپن‌اي‌آي» اين مدل‌ها را از طريق مجوز «Apache  2.0» در دسترس قرار مي‌دهد و به افراد، انعطاف‌پذيري زيادي براي تغيير سيستم‌ها بر اساس نيازهايشان مي‌دهد.
با وجود اينكه اين يك نسخه تجاري جديد نيست، «اوپن‌اي‌آي» مي‌گويد اين مدل‌هاي جديد از بسياري جهات با سيستم‌هاي اختصاصي آن قابل مقايسه هستند. يكي از محدوديت‌هاي مدل‌هاي «oss» اين است كه ورودي چندوجهي ارايه نمي‌دهند، به اين معني كه نمي‌توانند تصاوير، ويدئوها و صداها را همزمان پردازش كنند. براي اين قابليت‌ها، هنوز بايد به فضاي ابري و مدل‌هاي تجاري «اوپن‌اي‌آي» مراجعه كنيد، چيزي كه هر دو سيستم جديد با «وزن باز» مي‌توانند براي انجام آن پيكربندي شوند.
با اين حال، فراتر از آن، آنها بسياري از قابليت‌هاي مشابه، از جمله استدلال زنجيره‌اي و استفاده از ابزار را ارايه مي‌دهند. اين بدان معناست كه اين مدل‌ها مي‌توانند با تجزيه مسائل پيچيده‌تر به مراحل كوچك‌تر، آنها را حل كنند و اگر به كمك بيشتري نياز داشته باشند، مي‌دانند كه چگونه از وب و زبان‌هاي برنامه‌نويسي مانند «پايتون» استفاده كنند. علاوه بر اين، «اوپن‌اي‌آي» مدل‌ها را با استفاده از تكنيك‌هايي كه اين شركت قبلاً در توسعه مدل «o3» و ساير سيستم‌هاي پيشرفته اخير خود به كار گرفته بود، آموزش داد.