متا ادعا می کند که مدل جدید تولید کننده هنر آن بهترین در کلاس است
به گزارش سایت نود و هشت زوم متا ادعا می کند که مدل جدید تولید کننده هنر آن بهترین در کلاس است
که در این بخش به محتوای این خبر با شما کاربران گرامی خواهیم پرداخت
در طول دو سال گذشته، به لطف در دسترس بودن گسترده – و کاهش موانع فنی – در اطراف، مولدهای تصویر مبتنی بر هوش مصنوعی، کم و بیش کالایی شده اند. آنها عملاً توسط هر بازیگر بزرگ فناوری، از جمله گوگل و مایکروسافت، و همچنین استارت آپ های بی شماری به کار گرفته شده اند تا تکه ای از AI مولد سودآور را به دست آورند.
این بدان معنا نیست که آنها هنوز از نظر عملکرد سازگار هستند – دور از آن. در حالی که کیفیت مولدهای تصویر بهبود یافته است، پیشرفت تدریجی و گاهی دردناک بوده است.
اما متا ادعا می کند که پیشرفت داشته است.
امروز، متا CM3leon را معرفی کرد (“آفتپرستپرست” در سخنان ناشیانه، یک مدل هوش مصنوعی که این شرکت ادعا میکند عملکردی پیشرفته برای تولید متن به تصویر دارد. متا میگوید که CM3leon همچنین به این دلیل که یکی از اولین تولیدکنندههای تصویر است که قادر به تولید شرح تصاویر است، متمایز میشود و پایهای را برای مدلهای با قابلیت درک تصویر در آینده ایجاد میکند.
متا در یک پست وبلاگی که در اوایل این هفته با TechCrunch به اشتراک گذاشته شد، نوشت: «با قابلیتهای CM3leon، ابزارهای تولید تصویر میتوانند تصاویر منسجمتری تولید کنند که بهتر از دستورات ورودی پیروی کند. ما معتقدیم که عملکرد قوی CM3leon در کارهای مختلف گامی به سوی تولید و درک تصویر با وفاداری بالاتر است.
بیشتر تولیدکنندگان تصویر مدرن، از جمله OpenAI's DALL-E 2، Imagen Google و Stable Diffusion، برای خلق آثار هنری به فرآیندی به نام انتشار متکی هستند. در دیفیوژن، یک مدل یاد میگیرد که چگونه به تدریج نویز را از یک تصویر شروع که تماماً از نویز ساخته شده است کم کند – آن را گام به گام به اعلان هدف نزدیکتر کند.
نتایج چشمگیر است. اما انتشار از نظر محاسباتی فشرده است و کارکرد آن را گران و آنقدر کند می کند که اکثر برنامه های بلادرنگ غیرعملی هستند.
در مقابل، CM3leon یک مدل ترانسفورماتور است که از مکانیزمی به نام “توجه” برای سنجش ارتباط داده های ورودی مانند متن یا تصاویر استفاده می کند. توجه و دیگر ویژگیهای معماری ترانسفورماتورها میتواند سرعت آموزش مدل را افزایش داده و مدلها را آسانتر موازیسازی کند. به عبارت دیگر ترانسفورماتورهای بزرگتر و بزرگتر را می توان با افزایش محاسباتی قابل توجه اما غیرقابل دستیابی آموزش داد.
و CM3leon یکنواخت است بیشتر متا ادعا می کند که نسبت به بسیاری از ترانسفورماتورها کارآمد است و به پنج برابر محاسبات کمتر و مجموعه داده های آموزشی کمتری نسبت به روش های قبلی مبتنی بر ترانسفورماتور نیاز دارد.
جالب اینجاست که OpenAI چندین سال پیش ترانسفورماتورها را به عنوان وسیله ای برای تولید تصویر با مدلی به نام Image GPT بررسی کرد. اما در نهایت این ایده را به نفع انتشار کنار گذاشت – و ممکن است به زودی به سمت “ثبات” حرکت کند.
متا برای آموزش CM3leon از مجموعه دادهای متشکل از میلیونها تصویر دارای مجوز از Shutterstock استفاده کرد. تواناترین نسخه از چندین نسخه CM3leon که متا ساخته است دارای 7 میلیارد پارامتر است که دو برابر DALL-E 2 است. مانند تولید متن – یا در این مورد، تصاویر.)
یکی از کلیدهای عملکرد قوی تر CM3leon، تکنیکی به نام تنظیم دقیق نظارت شده یا به اختصار SFT است. SFT برای آموزش مدلهای تولید متن مانند ChatGPT OpenAI استفاده شده است، اما متا این نظریه را مطرح کرد که میتواند در حوزه تصویر نیز مفید باشد. در واقع، تنظیم دستورالعمل، عملکرد CM3leon را نه تنها در تولید تصویر، بلکه در نوشتن شرح تصویر، بهبود بخشید، و آن را قادر میسازد تا با پیروی از دستورالعملهای متنی به سؤالات مربوط به تصاویر پاسخ دهد و تصاویر را ویرایش کند (مثلاً “رنگ آسمان را به آبی روشن تغییر دهید”).
اکثر مولدهای تصویر با اشیاء «پیچیده» و اعلانهای متنی که شامل محدودیتهای بیش از حد است، دست و پنجه نرم میکنند. اما CM3Leon این کار را نمی کند – یا حداقل، نه به همان اندازه. در چند نمونه انتخابشده، متا از CM3Leon خواست تا با استفاده از اعلانهایی مانند «یک کاکتوس کوچک با کلاه حصیری و عینک آفتابی نئون در صحرای صحرا»، «عکس نزدیک از یک دست انسان، مدل دست»، «یک راکون اصلی» تصاویر تولید کند. شخصیت در انیمیشنی که برای نبرد حماسی با شمشیر سامورایی آماده میشود» و «علامت توقف در سبک فانتزی با متن «1991».
برای مقایسه، من همان دستورات را از طریق DALL-E 2 اجرا کردم. برخی از نتایج نزدیک بودند. اما تصاویر CM3Leon عموماً به چشمان من نزدیکتر و جزییات بیشتری داشتند و نشانهها واضحترین نمونه بود. (تا همین اواخر، مدلهای انتشار هم متن و هم آناتومی انسان را نسبتاً ضعیف مدیریت میکردند.)
CM3Leon همچنین می تواند دستورالعمل های ویرایش تصاویر موجود را درک کند. به عنوان مثال، با توجه به اعلان “تصویر با کیفیت بالا از “اتاقی که یک سینک و یک آینه در آن وجود دارد” با بطری در محل ایجاد کنید (199، 130)،” مدل می تواند چیزی منسجم بصری ایجاد کند و همانطور که متا می گوید، “مناسب زمینه” – اتاق، سینک، آینه، بطری و همه چیز. DALL-E 2 بهطور کامل نمیتواند تفاوتهای ظریف اعلانهایی مانند این را درک کند، و گاهی اوقات اشیاء مشخصشده در اعلان را کاملاً حذف میکند.
و البته، برخلاف DALL-E 2، CM3leon میتواند طیف وسیعی از دستورات را برای ایجاد زیرنویسهای کوتاه یا طولانی و پاسخ به سؤالات مربوط به یک تصویر خاص دنبال کند. متا ادعا میکند که در این زمینهها، این مدل حتی از مدلهای تخصصی شرحنویسی تصویر (به عنوان مثال Flamingo، OpenFlamingo) با وجود مشاهده متن کمتر در دادههای آموزشی خود، عملکرد بهتری داشته است.
اما تعصب چطور؟ مدلهای هوش مصنوعی مولد مانند DALL-E 2 برای تقویت سوگیریهای اجتماعی، تصاویری از موقعیتهای اقتدار – مانند “مدیرعامل” یا “مدیر” – ایجاد میکنند که بیشتر مردان سفیدپوست را به تصویر میکشند. متا این سوال را بدون پاسخ رها می کند و فقط می گوید که CM3leon “می تواند هرگونه سوگیری موجود در داده های آموزشی را منعکس کند.”
این شرکت می نویسد: «در حالی که صنعت هوش مصنوعی به تکامل خود ادامه می دهد، مدل های مولد مانند CM3leon به طور فزاینده ای پیچیده می شوند. در حالی که صنعت هنوز در مراحل اولیه درک و رسیدگی به این چالش ها است، ما معتقدیم که شفافیت کلید تسریع پیشرفت خواهد بود.
متا نگفت که آیا – یا چه زمانی – قصد دارد CM3leon را منتشر کند. با توجه به جنجالهایی که پیرامون مولدهای هنری منبع باز میچرخند، نفسم را حبس نمیکنم.
امیدواریم از این مقاله مجله نود و هشت زوم نیز استفاده لازم را کرده باشید و در صورت تمایل آنرا با دوستان خود به اشتراک بگذارید و با امتیاز از قسمت پایین و درج نظرات باعث دلگرمی مجموعه مجله 98zoom باشید
لینک کوتاه مقاله : https://5ia.ir/gwJhsf
کوتاه کننده لینک
کد QR :
آخرین دیدگاهها