Gladia هر صوتی را تقریباً در زمان واقعی به متن تبدیل می کند

زمان مطالعه: 4 دقیقه

به گزارش سایت نود و هشت زوم Gladia هر صوتی را تقریباً در زمان واقعی به متن تبدیل می کند
که در این بخش به محتوای این خبر با شما کاربران گرامی خواهیم پرداخت

با گلادیا، یک استارت آپ فرانسوی که می خواهد نحوه تعامل شرکت ها با داده های صوتی را تغییر دهد، ملاقات کنید. این شرکت یک رابط برنامه نویسی برنامه رونویسی صوتی (API) توسعه می دهد که می توانید آن را با سایر محصولات ادغام کنید و قرار است بسیار بهتر از آنچه در آنجا موجود است کار کند. و این بنیاد فناوری موارد استفاده جدید را در مورد صدا باز می کند.

اگر با API های رونویسی صوتی آشنا هستید، می دانید که ارائه دهندگان بزرگ ابر از قبل API های خود را دارند. API گفتار به متن گوگل، رونویسی، گفتار به متن مایکروسافت، و غیره وجود دارد. آنها به خوبی کار می کنند، اما گران هستند، کند هستند و ویژگی های زیادی ندارند.

بنیانگذار و مدیر عامل Gladia، Jean-Louis Quéguiner، که رئیس سابق هوش مصنوعی OVHcloud بود و شرکت را با جاناتان سوتو بنیانگذاری کرد، در مورد برخی از محدودیت های API های موجود به من گفت. به گفته وی، با محصولات موجود سه نقطه درد وجود دارد. اول اینکه، وقتی نوبت به قیمت‌ها می‌رسد، رونویسی یک ساعت صدا معمولاً 1.50 تا 2 دلار در ساعت هزینه دارد.

دوم، خروجی همیشه خیلی قابل اعتماد نیست زیرا برخی از زبان ها به خوبی کار می کنند در حالی که برخی دیگر به سختی پشتیبانی می شوند. وقتی صحبت از ویژگی‌های پیشرفته به میان می‌آید، اگر افراد به چند زبان صحبت می‌کنند، به احتمال زیاد API به سادگی نمی‌تواند متوجه تغییر زبان شود و صدا را به بیش از یک زبان رونویسی کند.

سوم، API های رونویسی کند هستند. رونویسی یک ساعت صدا ممکن است بیش از 15 دقیقه طول بکشد. اگر فوراً به رونویسی نیاز نداشته باشید خوب است، اما به این معنی است که نمی‌توانید از این APIها در برخی صنایع استفاده کنید.

زمزمه کننده ویسپر

Gladia بر اساس Whisper، مدل رونویسی منبع باز OpenAI است. ما از Whisper شروع کردیم. ما چرخ را دوباره اختراع نکرده‌ایم، اما به صحبت‌های مشتریانمان گوش دادیم و آنها به ما گفتند: «آنچه من می‌خواهم چیزی است که به خوبی Whisper عمل کند.» ژان لوئیس کوئگینر

شاید این مقاله را هم دوست داشته باشید :  10 راه برای رفع عدم پخش ویدیوی پرایم آمازون با کیفیت HD در مرورگر

اما Whisper کامل نیست. نسخه وانیلی هنوز بسیار کند است، بنابراین Gladia زمان زیادی را صرف تبدیل Whisper به یک مدل رونویسی سریع و پاسخگو کرده است. این تنها مسئله نیست.

نیمی از Whisper GPT-2 است. شما LLM و ChatGPT را دیده اید، تمایل به توهم دارد. ما کارهای زیادی برای جلوگیری از مشکلات توهم انجام داده‌ایم.» Quéguiner گفت.

به طور خاص، او به من گفت که Whisper در مورد زیرنویس‌های بسته آموزش دیده است که می‌توانید در اینترنت پیدا کنید، مانند یوتیوب. مدل OpenAI تمایل به شنیدن عبارات رایجی دارد که می‌توانید در ویدیوهای آنلاین بشنوید، مانند «اگر از این ویدیو لذت بردید، لطفاً لایک کنید و مشترک شوید». برخی جملات مانند این یک بیان ریاضی بیش از حد وجود دارد و گلادیا سعی می کند آن کاستی ها را برطرف کند.

علاوه بر این تغییرات در Whisper و اجرای آن، Gladia همچنین دارای برخی الگوریتم های پیش پردازش و پس پردازش است که نتایج نهایی را بهبود می بخشد.

Gladia قول داده است که می تواند یک ساعت صدا را با 0.61 دلار رونویسی کند. و فرآیند رونویسی تقریباً 60 ثانیه طول می کشد. API آن می‌تواند تشخیص دهد که چندین سخنران وجود دارد، مُهر زمانی اضافه کند، زبان‌ها را شناسایی کند و در صورت نیاز از یک زبان به زبان دیگر سوئیچ کند. Gladia همچنین به طور خودکار علائم نگارشی و حروف را اضافه می کند.

مانند اکثر APIها، نتیجه نهایی در قالب JSON است. اما گلادیا از فایل های SRT و VTT برای شرکت هایی که می خواهند زیرنویس تولید کنند نیز پشتیبانی می کند.

من یک حساب کاربری ایجاد کردم و یک ضبط صوتی از یک مصاحبه را آپلود کردم تا ببینم گلادیا چگونه کار می کند. کمی بیشتر از حد انتظار زمان برد، اما قطعاً بسیار سریعتر از APIهای گفتار به متن گوگل یا آژور بود.

نتیجه بی عیب و نقص نبود، اما بسیار خوب بود – کلمات اختصاری و اصطلاحات فنی را درک می کرد. من همان فایل صوتی را در Aiko باز کردم، یک برنامه مک توسعه یافته توسط Sindre Sorhus و به شما امکان می دهد فایل صوتی را به صورت محلی با استفاده از Whisper رونویسی کنید. همانطور که انتظار می رفت، خروجی نزدیک به خروجی Gladia بود – اما Gladia بسیار سریعتر از اجرای Aiko در مک بوک پرو من بود.

شاید این مقاله را هم دوست داشته باشید :  Acapela به هر کسی اجازه می‌دهد تا در عرض چند دقیقه به صورت رایگان از صدای خود پشتیبان‌گیری کند

به طور کلی، Gladia بهترین API رونویسی بود که من تا کنون استفاده کرده‌ام.

تبدیل شدن به یک API هوش صوتی

این شرکت در حال حاضر با شرکت‌های مرکز تماس، خدمات جلسات مجازی و ناشران ویدیویی از جمله Claap، Livestorm و Selectra کار می‌کند.

گلادیا در یک دور مالی که توسط New Wave رهبری می‌شد، مبلغ 4 میلیون دلاری را جمع‌آوری کرد. سایر سرمایه گذاران شامل سکویا، کاکائو و فرشتگان تجاری مانند سولومون هایکس، پیر بتوین، میروسلاو کلابا و الکساندر بریچ هستند.

داشتن یک API رونویسی با سنگ جامد تنها مرحله اول برای Gladia است. این شرکت امیدوار است که بتواند ویژگی هایی را در بالای این پایه فنی قوی ایجاد کند.

به عنوان مثال، پس از رونویسی یک فایل صوتی، Gladia می تواند متن را به زبان دیگری ترجمه کند. همراه با مهرهای زمانی در سطح کلمه، به این معنی است که یک شرکت می تواند یک فایل صوتی را آپلود کند و زیرنویس را به ده ها زبان تنها در چند دقیقه دریافت کند.

در آینده، این شرکت امیدوار است که بتواند محتوای یک فایل صوتی را خلاصه کند، محتوا را در دسته‌های موضوعی مختلف دسته‌بندی کند، فصل‌ها را به‌طور خودکار ایجاد کند، تحلیل احساسات و موارد دیگر را انجام دهد.

چشم انداز بلندمدت ما حرکت از داده های دو بعدی به است. Quéguiner گفت: صدا بسیار مسطح است و ایده این است که آن را با هوش تقویت کنیم. ما فکر می کنیم که رونویسی به یک کالا تبدیل خواهد شد. اما ما فکر می‌کنیم که مهم‌تر گزینه‌هایی است که قرار است اضافه کنیم.»

امیدواریم از این مقاله مجله نود و هشت زوم نیز استفاده لازم را کرده باشید و در صورت تمایل آنرا با دوستان خود به اشتراک بگذارید و با امتیاز از قسمت پایین و درج نظرات باعث دلگرمی مجموعه مجله 98zoom باشید

امتیاز بدهید

لینک کوتاه مقاله : https://5ia.ir/NMyjbW
کوتاه کننده لینک
کد QR :
اشتراک گذاری
سروناز مقدم پور

سروناز مقدم پور

سروناز مقدم پور هستم کارشناس مهندسی کامپیوتر و مدیر وبسایت نود و هشت زوم. چندین سال است که در حوزه وب فعالیت می کنم و تخصص های اصلیم طراحی سایت و سئو است بعد از یادگیری علاقه زیادی به آموزش دادن دارم

شاید این مطالب را هم دوست داشته باشید

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *