عرضه يك مدل «وزنباز» توسط «اوپنايآي» پس از ۶ سال
اولين مدل بزرگ زباني جديد شركت «اوپنايآي» (OpenAI) كه «وزنباز (open-weight) است، پس از ۶ سال از راه رسيد.
اولين مدل بزرگ زباني جديد شركت «اوپنايآي» (OpenAI) كه «وزنباز (open-weight) است، پس از ۶ سال از راه رسيد. به گزارش ايسنا، براي اولينبار از زمان عرضه مدل «GPT-2» در سال ۲۰۱۹، اكنون «اوپنايآي»مدلهاي زبان بزرگ با وزن آزاد جديدي را منتشر ميكند. اين يك نقطه عطف بزرگ براي شركتي است كه بهطور فزايندهاي به چشمپوشي از ماموريت اصلي خود مبني بر اطمينان از اينكه هوش مصنوعي عمومي به نفع همه بشريت است، متهم شده است. اكنون پس از چندين بار تاخير در آزمايش و اصلاح ايمني بيشتر، مدلهاي «gpt-oss-120 b» و «gpt-oss-20 b» براي دانلود در دسترس هستند. قبل از ادامه، بياييد ببينيم «اوپنايآي» دقيقاً در اينجا چه كاري انجام داده است. اين شركت مدلهاي منبعباز جديدي را كه شامل كد و دادههاي اساسي مورد استفاده براي آموزش آنها باشد، منتشر نميكند. در عوض، وزنها، يعني مقادير عددي كه مدلها ياد گرفتهاند در طول آموزش خود به وروديها اختصاص دهند را كه سيستمهاي جديد را آگاه ميكنند، به اشتراك ميگذارد. در واقع، مدلهاي زباني وزن باز يا وزن آزاد به گونهاي طراحي ميشوند كه توسعهدهندگان بتوانند مدل را تحليل كنند و آن را بدون نياز به دادههاي اصلي، براي نيازهاي خاص خود تنظيم كنند و از آن در پروژههاي مختلف استفاده كنند. اين در حالي است كه اين مدلها «منبع باز» (Open-Source) محسوب نميشوند، زيرا برخلاف مدلهاي متنباز، كد منبع، دادههاي آموزشي و روشهاي آموزش در دسترس قرار نميگيرد. بنابراين از آن براي ساخت چتباتهاي جديد نميتوان استفاده كرد. همين امر ميتواند مدل زباني تازه شركت «اوپنايآي» را منحصر بهفرد كند. يك مدل هوش مصنوعي در صورتي «وزن باز» در نظر گرفته ميشود كه پارامترهاي آن يا عناصري كه خروجيها و پيشبينيهاي آن را در طول آموزش بهبود ميبخشند، در دسترس عموم باشند. به گفته بنجامين لي (Benjamin Lee)، استاد مهندسي و علوم رايانه در دانشگاه پنسيلوانيا، مدلهاي وزنباز و متنباز دو هدف بسيار متفاوت را دنبال ميكنند. او ميگويد: يك مدل وزنباز، مقاديري را كه در طول آموزش يك مدل زباني بزرگ آموخته شده است، ارايه ميدهد و اساساً به شما اين امكان را ميدهد كه از مدل استفاده كنيد و بر روي آن بسازيد. ميتوانيد از مدل به صورت آماده استفاده كنيد يا ميتوانيد آن را براي يك كاربرد خاص دوباره تعريف يا تنظيم كنيد و وزنها را به دلخواه خود تنظيم كنيد. به گفته وي، در واقع اگر مدلهاي تجاري كاملاً يك جعبهسياه باشند و يك سيستم «منبعباز» امكان سفارشيسازي و اصلاح كامل را فراهم كند، هوش مصنوعي «وزنباز» جايي در اين بين قرار ميگيرد. اين يعني «اوپنايآي» مدلهاي «منبعباز» را منتشر نكرده است، احتمالاً به اين دليل كه يك رقيب نتواند از دادهها و كد آموزشي براي مهندسي معكوس فناوري آن استفاده كند. «لي» ميگويد: يك مدل منبعباز چيزي بيش از وزنهاست. همچنين بهطور بالقوه شامل كدي است كه براي اجراي فرآيند آموزش استفاده ميشود و عملاً، يك فرد عادي استفاده زيادي از يك مدل منبعباز نخواهد برد، مگر اينكه مزرعهاي از پردازندههاي گرافيكي رده بالاي انويديا داشته باشد كه قبض برق او را بالا ميبرد. البته اين مدلها براي محققاني كه به دنبال كسب اطلاعات بيشتر در مورد دادههايي هستند كه شركت براي آموزش مدلهاي خود استفاده كرده است، مفيد خواهند بود و تعداد انگشتشماري مدل منبعباز مانند «Mistral NeMo» و «Mistral Small 3» وجود دارند. با در نظر گرفتن اين موضوعات، تفاوت اصلي بين «gpt-oss-120 b» و «gpt-oss-20 b» در تعداد پارامترهايي است كه هر كدام ارايه ميدهند. اگر با اين اصطلاح آشنا نيستيد، پارامترها تنظيماتي هستند كه يك مدل زبان بزرگ ميتواند براي ارايه پاسخ به شما تغيير دهد. نامگذاري اين مدلها كمي گيجكننده است. در واقع مدل «gpt-oss-120 b» يك مدل ۱۱۷ ميليارد پارامتري است، در حالي كه مدل كوچكتر آن ۲۱ ميليارد پارامتر دارد. اين در عمل بدان معناست كه «gpt-oss-120 b» براي اجرا به سختافزار قدرتمندتري نياز دارد و «اوپنايآي» يك پردازنده گرافيكي ۸۰ گيگابايتي را براي استفاده كارآمد توصيه ميكند. خبر خوب اين است كه اين شركت ميگويد هر رايانه مدرن با ۱۶ گيگابايت رم ميتواند «gpt-oss-20 b» را اجرا كند. در نتيجه ميتوان از مدل كوچكتر براي انجام كارهاي سادهتر بدون اتصال به اينترنت استفاده كرد.
علاوه بر اين، «اوپنايآي» اين مدلها را از طريق مجوز «Apache 2.0» در دسترس قرار ميدهد و به افراد، انعطافپذيري زيادي براي تغيير سيستمها بر اساس نيازهايشان ميدهد.
با وجود اينكه اين يك نسخه تجاري جديد نيست، «اوپنايآي» ميگويد اين مدلهاي جديد از بسياري جهات با سيستمهاي اختصاصي آن قابل مقايسه هستند. يكي از محدوديتهاي مدلهاي «oss» اين است كه ورودي چندوجهي ارايه نميدهند، به اين معني كه نميتوانند تصاوير، ويدئوها و صداها را همزمان پردازش كنند. براي اين قابليتها، هنوز بايد به فضاي ابري و مدلهاي تجاري «اوپنايآي» مراجعه كنيد، چيزي كه هر دو سيستم جديد با «وزن باز» ميتوانند براي انجام آن پيكربندي شوند.
با اين حال، فراتر از آن، آنها بسياري از قابليتهاي مشابه، از جمله استدلال زنجيرهاي و استفاده از ابزار را ارايه ميدهند. اين بدان معناست كه اين مدلها ميتوانند با تجزيه مسائل پيچيدهتر به مراحل كوچكتر، آنها را حل كنند و اگر به كمك بيشتري نياز داشته باشند، ميدانند كه چگونه از وب و زبانهاي برنامهنويسي مانند «پايتون» استفاده كنند. علاوه بر اين، «اوپنايآي» مدلها را با استفاده از تكنيكهايي كه اين شركت قبلاً در توسعه مدل «o3» و ساير سيستمهاي پيشرفته اخير خود به كار گرفته بود، آموزش داد.
