متا ادعا می کند که مدل جدید تولید کننده هنر آن بهترین در کلاس است

زمان مطالعه: 5 دقیقه

به گزارش سایت نود و هشت زوم متا ادعا می کند که مدل جدید تولید کننده هنر آن بهترین در کلاس است
که در این بخش به محتوای این خبر با شما کاربران گرامی خواهیم پرداخت

در طول دو سال گذشته، به لطف در دسترس بودن گسترده – و کاهش موانع فنی – در اطراف، مولدهای تصویر مبتنی بر ، کم و بیش کالایی شده اند. آنها عملاً توسط هر گر بزرگ فناوری، از جمله گوگل و ، و همچنین استارت آپ های بی شماری به کار گرفته شده اند تا تکه ای از AI مولد سودآور را به دست آورند.

این بدان معنا نیست که آنها هنوز از نظر عملکرد سازگار هستند – دور از آن. در حالی که کیفیت مولدهای تصویر بهبود یافته است، پیشرفت تدریجی و گاهی دردناک بوده است.

اما متا ادعا می کند که پیشرفت داشته است.

امروز، متا CM3leon را معرفی کرد (“آفت‌پرست‌پرست” در سخنان ناشیانه، یک مدل هوش مصنوعی که این شرکت ادعا می‌کند عملکردی پیشرفته برای تولید متن به تصویر دارد. متا می‌گوید که CM3leon همچنین به این دلیل که یکی از اولین تولیدکننده‌های تصویر است که قادر به تولید شرح تصاویر است، متمایز می‌شود و پایه‌ای را برای مدل‌های با قابلیت درک تصویر در آینده ایجاد می‌کند.

متا در یک پست وبلاگی که در اوایل این هفته با TechCrunch به اشتراک گذاشته شد، نوشت: «با قابلیت‌های CM3leon، ابزارهای تولید تصویر می‌توانند تصاویر منسجم‌تری تولید کنند که بهتر از دستورات ورودی پیروی کند. ما معتقدیم که عملکرد قوی CM3leon در کارهای مختلف گامی به سوی تولید و درک تصویر با وفاداری بالاتر است.

بیشتر تولیدکنندگان تصویر مدرن، از جمله OpenAI's DALL-E 2، Imagen Google و Stable Diffusion، برای خلق آثار هنری به فرآیندی به نام انتشار متکی هستند. در دیفیوژن، یک مدل یاد می‌گیرد که چگونه به تدریج نویز را از یک تصویر شروع که تماماً از نویز ساخته شده است کم کند – آن را گام به گام به اعلان هدف نزدیک‌تر کند.

نتایج چشمگیر است. اما انتشار از نظر محاسباتی فشرده است و کارکرد آن را گران و آنقدر کند می کند که اکثر برنامه های بلادرنگ غیرعملی هستند.

در مقابل، CM3leon یک مدل ترانسفورماتور است که از مکانیزمی به نام “توجه” برای سنجش ارتباط داده های ورودی مانند متن یا تصاویر استفاده می کند. توجه و دیگر ویژگی‌های معماری ترانسفورماتورها می‌تواند سرعت آموزش مدل را افزایش داده و مدل‌ها را آسان‌تر موازی‌سازی کند. به عبارت دیگر ترانسفورماتورهای بزرگتر و بزرگتر را می توان با افزایش محاسباتی قابل توجه اما غیرقابل دستیابی آموزش داد.

شاید این مقاله را هم دوست داشته باشید :  7 راه حل برتر برای کار نکردن میانبرهای دسکتاپ در ویندوز 11

و CM3leon یکنواخت است بیشتر متا ادعا می کند که نسبت به بسیاری از ترانسفورماتورها کارآمد است و به پنج برابر محاسبات کمتر و مجموعه داده های آموزشی کمتری نسبت به روش های قبلی مبتنی بر ترانسفورماتور نیاز دارد.

جالب اینجاست که OpenAI چندین سال پیش ترانسفورماتورها را به عنوان وسیله ای برای تولید تصویر با مدلی به نام Image GPT بررسی کرد. اما در نهایت این ایده را به نفع انتشار کنار گذاشت – و ممکن است به زودی به سمت “ثبات” حرکت کند.

متا برای آموزش CM3leon از مجموعه داده‌ای متشکل از میلیون‌ها تصویر دارای مجوز از Shutterstock استفاده کرد. تواناترین نسخه از چندین نسخه CM3leon که متا ساخته است دارای 7 میلیارد پارامتر است که دو برابر DALL-E 2 است. مانند تولید متن – یا در این مورد، تصاویر.)

یکی از کلیدهای عملکرد قوی تر CM3leon، تکنیکی به نام تنظیم دقیق نظارت شده یا به اختصار SFT است. SFT برای آموزش مدل‌های تولید متن مانند ChatGPT OpenAI استفاده شده است، اما متا این نظریه را مطرح کرد که می‌تواند در حوزه تصویر نیز مفید باشد. در واقع، تنظیم دستورالعمل، عملکرد CM3leon را نه تنها در تولید تصویر، بلکه در نوشتن شرح تصویر، بهبود بخشید، و آن را قادر می‌سازد تا با پیروی از دستورالعمل‌های متنی به سؤالات مربوط به تصاویر پاسخ دهد و تصاویر را ویرایش کند (مثلاً “رنگ آسمان را به آبی روشن تغییر دهید”).

اکثر مولدهای تصویر با اشیاء «پیچیده» و اعلان‌های متنی که شامل محدودیت‌های بیش از حد است، دست و پنجه نرم می‌کنند. اما CM3Leon این کار را نمی کند – یا حداقل، نه به همان اندازه. در چند نمونه انتخاب‌شده، متا از CM3Leon خواست تا با استفاده از اعلان‌هایی مانند «یک کاکتوس کوچک با کلاه حصیری و عینک آفتابی نئون در صحرای صحرا»، «عکس نزدیک از یک دست انسان، مدل دست»، «یک راکون اصلی» تصاویر تولید کند. شخصیت در انیمیشنی که برای نبرد حماسی با شمشیر سامورایی آماده می‌شود» و «علامت توقف در سبک فانتزی با متن «1991».

برای مقایسه، من همان دستورات را از طریق DALL-E 2 اجرا کردم. برخی از نتایج نزدیک بودند. اما تصاویر CM3Leon عموماً به چشمان من نزدیک‌تر و جزییات بیشتری داشتند و نشانه‌ها واضح‌ترین نمونه بود. (تا همین اواخر، مدل‌های انتشار هم متن و هم آناتومی انسان را نسبتاً ضعیف مدیریت می‌کردند.)

تولید کننده تصویر متا

تولید کننده تصویر متا.

DALL-E 2

نتایج DALL-E 2.

CM3Leon همچنین می تواند دستورالعمل های ویرایش تصاویر موجود را درک کند. به عنوان مثال، با توجه به اعلان “تصویر با کیفیت بالا از “اتاقی که یک سینک و یک آینه در آن وجود دارد” با بطری در محل ایجاد کنید (199، 130)،” مدل می تواند چیزی منسجم بصری ایجاد کند و همانطور که متا می گوید، “مناسب زمینه” – اتاق، سینک، آینه، بطری و همه چیز. DALL-E 2 به‌طور کامل نمی‌تواند تفاوت‌های ظریف اعلان‌هایی مانند این را درک کند، و گاهی اوقات اشیاء مشخص‌شده در اعلان را کاملاً حذف می‌کند.

شاید این مقاله را هم دوست داشته باشید :  12 بهترین لوازم جانبی بازگشت به مدرسه برای مک بوک در سال 2022

و البته، برخلاف DALL-E 2، CM3leon می‌تواند طیف وسیعی از دستورات را برای ایجاد زیرنویس‌های کوتاه یا طولانی و پاسخ به سؤالات مربوط به یک تصویر خاص دنبال کند. متا ادعا می‌کند که در این زمینه‌ها، این مدل حتی از مدل‌های تخصصی شرح‌نویسی تصویر (به عنوان مثال Flamingo، OpenFlamingo) با وجود مشاهده متن کمتر در داده‌های آموزشی خود، عملکرد بهتری داشته است.

اما تعصب چطور؟ مدل‌های هوش مصنوعی مولد مانند DALL-E 2 برای تقویت سوگیری‌های اجتماعی، تصاویری از موقعیت‌های اقتدار – مانند “مدیرعامل” یا “مدیر” – ایجاد می‌کنند که بیشتر مردان سفیدپوست را به تصویر می‌کشند. متا این سوال را بدون پاسخ رها می کند و فقط می گوید که CM3leon “می تواند هرگونه سوگیری موجود در داده های آموزشی را منعکس کند.”

این شرکت می نویسد: «در حالی که صنعت هوش مصنوعی به تکامل خود ادامه می دهد، مدل های مولد مانند CM3leon به طور فزاینده ای پیچیده می شوند. در حالی که صنعت هنوز در مراحل اولیه درک و رسیدگی به این چالش ها است، ما معتقدیم که شفافیت کلید تسریع پیشرفت خواهد بود.

متا نگفت که آیا – یا چه زمانی – قصد دارد CM3leon را منتشر کند. با توجه به جنجال‌هایی که پیرامون مولدهای هنری منبع باز می‌چرخند، نفسم را حبس نمی‌کنم.

امیدواریم از این مقاله مجله نود و هشت زوم نیز استفاده لازم را کرده باشید و در صورت تمایل آنرا با دوستان خود به اشتراک بگذارید و با امتیاز از قسمت پایین و درج نظرات باعث دلگرمی مجموعه مجله 98zoom باشید

امتیاز بدهید

لینک کوتاه مقاله : https://5ia.ir/gwJhsf
کوتاه کننده لینک
کد QR :
اشتراک گذاری
سروناز مقدم پور

سروناز مقدم پور

سروناز مقدم پور هستم کارشناس مهندسی کامپیوتر و مدیر وبسایت نود و هشت زوم. چندین سال است که در حوزه وب فعالیت می کنم و تخصص های اصلیم طراحی سایت و سئو است بعد از یادگیری علاقه زیادی به آموزش دادن دارم

شاید این مطالب را هم دوست داشته باشید

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *