Gladia هر صوتی را تقریباً در زمان واقعی به متن تبدیل می کند
به گزارش سایت نود و هشت زوم Gladia هر صوتی را تقریباً در زمان واقعی به متن تبدیل می کند
که در این بخش به محتوای این خبر با شما کاربران گرامی خواهیم پرداخت
با گلادیا، یک استارت آپ فرانسوی هوش مصنوعی که می خواهد نحوه تعامل شرکت ها با داده های صوتی را تغییر دهد، ملاقات کنید. این شرکت یک رابط برنامه نویسی برنامه رونویسی صوتی (API) توسعه می دهد که می توانید آن را با سایر محصولات ادغام کنید و قرار است بسیار بهتر از آنچه در آنجا موجود است کار کند. و این بنیاد فناوری موارد استفاده جدید را در مورد صدا باز می کند.
اگر با API های رونویسی صوتی آشنا هستید، می دانید که ارائه دهندگان بزرگ ابر از قبل API های خود را دارند. API گفتار به متن گوگل، آمازون رونویسی، گفتار به متن مایکروسافت، و غیره وجود دارد. آنها به خوبی کار می کنند، اما گران هستند، کند هستند و ویژگی های زیادی ندارند.
بنیانگذار و مدیر عامل Gladia، Jean-Louis Quéguiner، که رئیس سابق هوش مصنوعی OVHcloud بود و شرکت را با جاناتان سوتو بنیانگذاری کرد، در مورد برخی از محدودیت های API های موجود به من گفت. به گفته وی، با محصولات موجود سه نقطه درد وجود دارد. اول اینکه، وقتی نوبت به قیمتها میرسد، رونویسی یک ساعت صدا معمولاً 1.50 تا 2 دلار در ساعت هزینه دارد.
دوم، خروجی همیشه خیلی قابل اعتماد نیست زیرا برخی از زبان ها به خوبی کار می کنند در حالی که برخی دیگر به سختی پشتیبانی می شوند. وقتی صحبت از ویژگیهای پیشرفته به میان میآید، اگر افراد به چند زبان صحبت میکنند، به احتمال زیاد API به سادگی نمیتواند متوجه تغییر زبان شود و صدا را به بیش از یک زبان رونویسی کند.
سوم، API های رونویسی کند هستند. رونویسی یک ساعت صدا ممکن است بیش از 15 دقیقه طول بکشد. اگر فوراً به رونویسی نیاز نداشته باشید خوب است، اما به این معنی است که نمیتوانید از این APIها در برخی صنایع استفاده کنید.
زمزمه کننده ویسپر
Gladia بر اساس Whisper، مدل رونویسی منبع باز OpenAI است. ما از Whisper شروع کردیم. ما چرخ را دوباره اختراع نکردهایم، اما به صحبتهای مشتریانمان گوش دادیم و آنها به ما گفتند: «آنچه من میخواهم چیزی است که به خوبی Whisper عمل کند.» ژان لوئیس کوئگینر
اما Whisper کامل نیست. نسخه وانیلی هنوز بسیار کند است، بنابراین Gladia زمان زیادی را صرف تبدیل Whisper به یک مدل رونویسی سریع و پاسخگو کرده است. این تنها مسئله نیست.
نیمی از Whisper GPT-2 است. شما LLM و ChatGPT را دیده اید، تمایل به توهم دارد. ما کارهای زیادی برای جلوگیری از مشکلات توهم انجام دادهایم.» Quéguiner گفت.
به طور خاص، او به من گفت که Whisper در مورد زیرنویسهای بسته آموزش دیده است که میتوانید در اینترنت پیدا کنید، مانند یوتیوب. مدل OpenAI تمایل به شنیدن عبارات رایجی دارد که میتوانید در ویدیوهای آنلاین بشنوید، مانند «اگر از این ویدیو لذت بردید، لطفاً لایک کنید و مشترک شوید». برخی جملات مانند این یک بیان ریاضی بیش از حد وجود دارد و گلادیا سعی می کند آن کاستی ها را برطرف کند.
علاوه بر این تغییرات در Whisper و اجرای آن، Gladia همچنین دارای برخی الگوریتم های پیش پردازش و پس پردازش است که نتایج نهایی را بهبود می بخشد.
Gladia قول داده است که می تواند یک ساعت صدا را با 0.61 دلار رونویسی کند. و فرآیند رونویسی تقریباً 60 ثانیه طول می کشد. API آن میتواند تشخیص دهد که چندین سخنران وجود دارد، مُهر زمانی اضافه کند، زبانها را شناسایی کند و در صورت نیاز از یک زبان به زبان دیگر سوئیچ کند. Gladia همچنین به طور خودکار علائم نگارشی و حروف را اضافه می کند.
مانند اکثر APIها، نتیجه نهایی در قالب JSON است. اما گلادیا از فایل های SRT و VTT برای شرکت هایی که می خواهند زیرنویس تولید کنند نیز پشتیبانی می کند.
من یک حساب کاربری ایجاد کردم و یک ضبط صوتی از یک مصاحبه را آپلود کردم تا ببینم گلادیا چگونه کار می کند. کمی بیشتر از حد انتظار زمان برد، اما قطعاً بسیار سریعتر از APIهای گفتار به متن گوگل یا آژور بود.
نتیجه بی عیب و نقص نبود، اما بسیار خوب بود – کلمات اختصاری و اصطلاحات فنی را درک می کرد. من همان فایل صوتی را در Aiko باز کردم، یک برنامه مک توسعه یافته توسط Sindre Sorhus و به شما امکان می دهد فایل صوتی را به صورت محلی با استفاده از Whisper رونویسی کنید. همانطور که انتظار می رفت، خروجی نزدیک به خروجی Gladia بود – اما Gladia بسیار سریعتر از اجرای Aiko در مک بوک پرو من بود.
به طور کلی، Gladia بهترین API رونویسی بود که من تا کنون استفاده کردهام.
تبدیل شدن به یک API هوش صوتی
این شرکت در حال حاضر با شرکتهای مرکز تماس، خدمات جلسات مجازی و ناشران ویدیویی از جمله Claap، Livestorm و Selectra کار میکند.
گلادیا در یک دور مالی که توسط New Wave رهبری میشد، مبلغ 4 میلیون دلاری را جمعآوری کرد. سایر سرمایه گذاران شامل سکویا، کاکائو و فرشتگان تجاری مانند سولومون هایکس، پیر بتوین، میروسلاو کلابا و الکساندر بریچ هستند.
داشتن یک API رونویسی با سنگ جامد تنها مرحله اول برای Gladia است. این شرکت امیدوار است که بتواند ویژگی هایی را در بالای این پایه فنی قوی ایجاد کند.
به عنوان مثال، پس از رونویسی یک فایل صوتی، Gladia می تواند متن را به زبان دیگری ترجمه کند. همراه با مهرهای زمانی در سطح کلمه، به این معنی است که یک شرکت می تواند یک فایل صوتی را آپلود کند و زیرنویس را به ده ها زبان تنها در چند دقیقه دریافت کند.
در آینده، این شرکت امیدوار است که بتواند محتوای یک فایل صوتی را خلاصه کند، محتوا را در دستههای موضوعی مختلف دستهبندی کند، فصلها را بهطور خودکار ایجاد کند، تحلیل احساسات و موارد دیگر را انجام دهد.
چشم انداز بلندمدت ما حرکت از داده های دو بعدی به سه بعدی است. Quéguiner گفت: صدا بسیار مسطح است و ایده این است که آن را با هوش تقویت کنیم. ما فکر می کنیم که رونویسی به یک کالا تبدیل خواهد شد. اما ما فکر میکنیم که مهمتر گزینههایی است که قرار است اضافه کنیم.»
امیدواریم از این مقاله مجله نود و هشت زوم نیز استفاده لازم را کرده باشید و در صورت تمایل آنرا با دوستان خود به اشتراک بگذارید و با امتیاز از قسمت پایین و درج نظرات باعث دلگرمی مجموعه مجله 98zoom باشید
لینک کوتاه مقاله : https://5ia.ir/NMyjbW
کوتاه کننده لینک
کد QR :
آخرین دیدگاهها