OpenAI فراتر از انتشار با تولید کننده تصویر مبتنی بر “ثبات” به نظر می رسد

زمان مطالعه: 4 دقیقه

به گزارش سایت نود و هشت زوم OpenAI فراتر از انتشار با تولید کننده تصویر مبتنی بر “ثبات” به نظر می رسد
که در این بخش به محتوای این خبر با شما کاربران گرامی خواهیم پرداخت

زمینه تولید تصویر به سرعت پیش می رود. اگرچه ممکن است مدل‌های انتشار که توسط ابزارهای محبوبی مانند Midjourney و Stable Diffusion استفاده می‌شوند، بهترین به نظر برسند، چیز بعدی همیشه در راه است – و OpenAI ممکن است با «مدل‌های سازگاری» به آن ضربه زده باشد، که می‌تواند کارهای ساده را انجام دهد. مرتبه قدر سریعتر از امثال DALL-E.

این مقاله ماه گذشته به‌عنوان پیش‌چاپ آنلاین قرار گرفت و با ذخایر کم‌حساب OpenAI برای نسخه‌های اصلی آن همراه نبود. این جای تعجب نیست: این قطعا فقط یک مقاله تحقیقاتی است و بسیار فنی است. اما نتایج این تکنیک اولیه و تجربی به اندازه کافی جالب توجه است.

توضیح مدل های سازگاری به خصوص آسان نیست، اما در مقایسه با مدل های انتشار منطقی تر است.

در دیفیوژن، یک مدل یاد می‌گیرد که چگونه به تدریج نویز را از یک تصویر شروع که تماماً از نویز ساخته شده است کم کند و آن را گام به گام به اعلان هدف نزدیک‌تر کند. این رویکرد چشمگیرترین تصاویر امروزی را فعال کرده است، اما اساساً به انجام ده تا هزاران مرحله برای رسیدن به نتایج خوب متکی است. این بدان معناست که کار با آن گران است و همچنین آنقدر کند است که برنامه های بلادرنگ غیرعملی هستند.

هدف مدل‌های سازگاری، ساخت چیزی بود که در یک مرحله محاسباتی یا حداکثر دو مرحله، نتایج مناسبی به دست آورد. برای انجام این کار، مدل، مانند یک مدل انتشار، آموزش می بیند که فرآیند تخریب تصویر را مشاهده کند، اما یاد می گیرد که یک تصویر در هر سطحی از تاریکی (یعنی با اطلاعات کمی از دست رفته یا زیاد) بگیرد و یک تصویر منبع کامل در آن تولید کند. فقط یک قدم

شاید این مقاله را هم دوست داشته باشید :  رقیب OpenAI چین Zhipu AI بودجه Meituan را دریافت می کند

اما من عجله دارم اضافه کنم که این فقط موجی ترین توصیف از آنچه در حال رخ دادن است است. این نوع کاغذ است:

گزیده ای نماینده از مقاله سازگاری.

تصاویر به دست آمده شگفت‌انگیز نیستند – بسیاری از تصاویر را حتی نمی‌توان خوب نامید. اما آنچه مهم است این است که آنها در یک مرحله تولید شده اند تا صد یا هزار. علاوه بر این، مدل سازگاری به وظایف مختلفی مانند رنگ آمیزی، ارتقاء مقیاس، تفسیر طرح، پر کردن، و غیره نیز با یک مرحله تعمیم می یابد (اگرچه اغلب یک ثانیه بهبود می یابد).

چه تصویر بیشتر نویز باشد یا بیشتر داده، مدل‌های سازگاری مستقیماً به نتیجه نهایی می‌رسند.

این مهم است، اولاً، زیرا الگوی تحقیق در یادگیری ماشین عموماً این است که فردی تکنیکی را ایجاد می‌کند، شخص دیگری راهی برای بهتر کردن آن پیدا می‌کند، سپس دیگران آن را در طول زمان تنظیم می‌کنند در حالی که محاسبات را اضافه می‌کنند تا نتایج بسیار بهتری نسبت به آنچه شما شروع کرده‌اید تولید کنند. این کم و بیش چگونه به هر دو مدل انتشار مدرن و رسیدیم. این یک فرآیند خود محدودکننده است زیرا عملا شما فقط می توانید محاسبات زیادی را به یک کار معین اختصاص دهید.

با این حال، آنچه بعد اتفاق می‌افتد این است که یک تکنیک جدید و کارآمدتر شناسایی شده است که می‌تواند همان کاری را که مدل قبلی انجام می‌داد، در ابتدا بدتر و همچنین بسیار کارآمدتر انجام دهد. مدل‌های سازگاری این را نشان می‌دهند، اگرچه هنوز به اندازه کافی زود است که نمی‌توان آنها را مستقیماً با مدل‌های انتشار مقایسه کرد.

شاید این مقاله را هم دوست داشته باشید :  باند 27.5 میلیون دلاری برای ساده کردن برنامه ریزی مالی برای مشاغل دریافت می کند

اما در سطح دیگری اهمیت دارد، زیرا نشان می‌دهد که چگونه OpenAI، به‌راحتی تاثیرگذارترین ابزار تحقیقاتی هوش مصنوعی در جهان در حال حاضر، به طور فعال در حال نگاه کردن به گذشته در موارد استفاده نسل بعدی است.

بله، اگر می‌خواهید 1500 تکرار را در طول یک یا دو دقیقه با استفاده از مجموعه‌ای از پردازنده‌های گرافیکی انجام دهید، می‌توانید نتایج خیره‌کننده‌ای از مدل‌های انتشار دریافت کنید. اما اگر بخواهید یک تولید کننده تصویر را روی گوشی شخصی خود بدون تخلیه باتری اجرا کنید، یا نتایج فوق العاده سریعی را در مثلاً یک رابط زنده ارائه دهید، چه؟ Diffusion به سادگی ابزار اشتباهی برای این کار است، و محققان OpenAI به طور فعال در جستجوی ابزار مناسب هستند – از جمله Ilya Sutskever، نام شناخته شده در این زمینه، نه اینکه مشارکت نویسندگان دیگر، یانگ سونگ، پرافولا دهیوال، و مارک چن.

این که آیا مدل‌های سازگاری گام بزرگ بعدی برای OpenAI هستند یا فقط یک پیکان دیگر در تپش آن – تقریباً مطمئناً آینده هم چندوجهی و هم چند مدل است – به نحوه انجام تحقیقات بستگی دارد. من برای جزئیات بیشتر درخواست کرده ام و در صورت شنیدن پاسخ از محققان، این پست را به روز خواهم کرد.

امیدواریم از این مقاله مجله نود و هشت زوم نیز استفاده لازم را کرده باشید و در صورت تمایل آنرا با دوستان خود به اشتراک بگذارید و با امتیاز از قسمت پایین و درج نظرات باعث دلگرمی مجموعه مجله 98zoom باشید

امتیاز بدهید

لینک کوتاه مقاله : https://5ia.ir/XyA
کوتاه کننده لینک
کد QR :
اشتراک گذاری
سروناز مقدم پور

سروناز مقدم پور

سروناز مقدم پور هستم کارشناس مهندسی کامپیوتر و مدیر وبسایت نود و هشت زوم. چندین سال است که در حوزه وب فعالیت می کنم و تخصص های اصلیم طراحی سایت و سئو است بعد از یادگیری علاقه زیادی به آموزش دادن دارم

شاید این مطالب را هم دوست داشته باشید

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *