Unstructured که ابزارهایی را برای آماده سازی داده های سازمانی برای LLM ارائه می دهد، 25 میلیون دلار جمع آوری می کند
به گزارش سایت نود و هشت زوم Unstructured که ابزارهایی را برای آماده سازی داده های سازمانی برای LLM ارائه می دهد، 25 میلیون دلار جمع آوری می کند
که در این بخش به محتوای این خبر با شما کاربران گرامی خواهیم پرداخت
مدلهای زبان بزرگ (LLM) مانند GPT-4 OpenAI، بلوکهای ساختمانی برای تعداد فزایندهای از برنامههای هوش مصنوعی هستند. اما برخی از شرکت ها به دلیل ناتوانی در دسترسی به داده های شخص اول و اختصاصی، تمایلی به پذیرش آنها ندارند.
حل این مشکل لزوماً آسان نیست – با توجه به این که این نوع داده ها در پشت فایروال ها قرار می گیرند و در قالب هایی ارائه می شوند که توسط LLM ها قابل استفاده نیستند. اما یک استارتآپ نسبتاً جدید، Unstructured.io، در تلاش است تا موانع را با پلتفرمی که دادههای سازمانی را استخراج و مرحلهبندی میکند، از بین ببرد تا LLMها بتوانند آن را درک کنند و از آن استفاده کنند.
برایان ریموند، مت رابینسون و کرگ ولف پس از همکاری با یکدیگر در Primer AI، که بر ساخت و استقرار راهحلهای پردازش زبان طبیعی (NLP) برای مشتریان تجاری متمرکز بود، Unstructured را در سال 2022 تأسیس کردند.
زمانی که در Primer بودیم، بارها و بارها با یک گلوگاه مواجه شدیم که فایلهای خام مشتری حاوی دادههای NLP (مثلاً PDF، ایمیلها، PPTX، XML و غیره) را دریافت و پیش پردازش میکرد و آن را به یک فایل تمیز و مدیریتشده تبدیل میکرد که آماده است. ریموند، که به عنوان مدیر عامل Unstructured خدمت میکند، در مصاحبهای با TechCrunch گفت. هیچکدام از شرکتهای یکپارچهسازی داده یا پردازش اسناد هوشمند به حل این مشکل کمک نکردند، بنابراین تصمیم گرفتیم یک شرکت تشکیل دهیم و به طور مستقیم با آن مقابله کنیم.
در واقع، پردازش و آماده سازی داده ها یک مرحله وقت گیر در هر گردش کار توسعه هوش مصنوعی است. طبق یک نظرسنجی، دانشمندان داده نزدیک به 80 درصد از زمان خود را صرف تهیه و مدیریت داده ها برای تجزیه و تحلیل می کنند. در نتیجه، در یک نظرسنجی دیگر، اکثر دادههایی که شرکتها تولید میکنند – حدود دو سوم – بدون استفاده میماند.
«سازمانها روزانه مقادیر زیادی داده بدون ساختار تولید میکنند که وقتی با LLM ترکیب میشوند میتوانند بهرهوری را افزایش دهند. مشکل این است که این داده ها پراکنده هستند. راز کثیف در جامعه NLP این است که امروزه دانشمندان داده هنوز باید اتصال دهنده های داده های صنعتی و یکباره و خطوط لوله پیش پردازش را کاملاً دستی بسازند. بدون ساختار [delivers] یک راه حل جامع برای اتصال، تبدیل و مرحله بندی داده های زبان طبیعی برای LLM.
Unstructured تعدادی ابزار برای کمک به پاکسازی و تبدیل دادههای سازمانی برای دریافت LLM فراهم میکند، از جمله ابزارهایی که تبلیغات و سایر اشیاء ناخواسته را از صفحات وب حذف میکنند، متن را به هم متصل میکنند، تشخیص کاراکترهای نوری را در صفحات اسکن شده انجام میدهند و موارد دیگر. این شرکت خطوط لوله پردازش را برای انواع خاصی از فایل های PDF توسعه می دهد. اسناد HTML و Word، از جمله برای پرونده های SEC. و – از همه چیز – گزارش های ارزیابی افسران ارتش ایالات متحده.
برای مدیریت اسناد، Unstructured مدل NLP “تبدیل فایل” خود را از ابتدا آموزش داد و مجموعه ای از مدل های دیگر را برای استخراج متن و حدود 20 عنصر مجزا (به عنوان مثال، عنوان، سرصفحه و پاورقی) از فایل های خام جمع آوری کرد. کانکتورهای مختلف – در مجموع حدود 15 – اسناد را از منابع داده موجود، مانند نرم افزار مدیریت ارتباط با مشتری، جذب می کنند.
ریموند گفت: «در پشت صحنه، ما از انواع فناوریهای مختلف برای انتزاع کردن پیچیدگی استفاده میکنیم. برای مثال، برای فایلهای PDF و تصاویر قدیمی، ما از مدلهای بینایی کامپیوتری استفاده میکنیم. و برای انواع فایلهای دیگر، ما از ترکیبهای هوشمندانه مدلهای NLP، اسکریپتهای پایتون و عبارات منظم استفاده میکنیم.»
در پایین دست، Unstructured با ارائه دهندگانی مانند LangChain یکپارچه می شود، چارچوبی برای ایجاد برنامه های LLM، و پایگاه های داده برداری مانند Weaviate و MongoDB's Atlas Vector Search.
پیش از این، تنها محصول Unstructured یک مجموعه منبع باز از این ابزارهای پردازش داده بود. ریموند ادعا می کند که حدود 700000 بار دانلود شده و توسط بیش از 100 شرکت استفاده شده است. اما برای پوشش هزینه های توسعه – و بدون شک سرمایه گذاران خود را آرام می کند – این شرکت یک API تجاری راه اندازی کرده است که داده ها را در 25 فرمت فایل مختلف از جمله پاورپوینت و JPG تغییر می دهد.
ما با سازمانهای دولتی کار کردهایم و در مدت کوتاهی چندین میلیون درآمد داشتهایم. . . . ریموند گفت: از آنجایی که تمرکز ما بر هوش مصنوعی است، روی بخشی از بازار متمرکز شدهایم که تحت تأثیر رکود اقتصادی گستردهتر قرار نگرفته است.
Unstructured روابط بسیار نزدیکی با آژانس های دفاعی دارد که شاید محصول پیشینه ریموند باشد. قبل از پرایمر، او یکی از اعضای فعال جامعه اطلاعاتی ایالات متحده بود و قبل از حضور در سیا در خاورمیانه و سپس در کاخ سفید در دوران دولت اوباما خدمت می کرد.
به Unstructured قراردادهای تجاری کوچک توسط نیروی هوایی ایالات متحده و نیروی فضایی ایالات متحده اعطا شد و با فرماندهی عملیات ویژه ایالات متحده (SOCOM) برای استقرار یک LLM “در ارتباط با داده های مربوط به ماموریت” شریک شد. علاوه بر این، هیئت مدیره Unstructured شامل مایکل گروئن، ژنرال سابق و مدیر مرکز مشترک هوش مصنوعی پنتاگون، و رایان لوئیس، که قبلاً واحد نوآوری دفاعی وزارت دفاع را رهبری می کرد، می باشد.
زاویه دفاع – یک منبع درآمد اولیه قابل اعتماد – ممکن است عامل تعیین کننده در تامین مالی اخیر Unstructured باشد. امروز، این شرکت اعلام کرد که 25 میلیون دلار در یک دور سرمایه گذاری اولیه سری A و قبلاً فاش نشده جمع آوری کرده است. مادرونا با مشارکت Bain Capital Ventures، که در راس آن بود، و M12 Ventures، Mango Capital، MongoDB Ventures و Shield Capital، و همچنین چندین سرمایه گذار فرشته، سری A را رهبری کرد.
امیدواریم از این مقاله مجله نود و هشت زوم نیز استفاده لازم را کرده باشید و در صورت تمایل آنرا با دوستان خود به اشتراک بگذارید و با امتیاز از قسمت پایین و درج نظرات باعث دلگرمی مجموعه مجله 98zoom باشید
لینک کوتاه مقاله : https://5ia.ir/hDqjwZ
کوتاه کننده لینک
کد QR :
آخرین دیدگاهها