Unstructured که ابزارهایی را برای آماده سازی داده های سازمانی برای LLM ارائه می دهد، 25 میلیون دلار جمع آوری می کند

زمان مطالعه: 4 دقیقه

به گزارش سایت نود و هشت زوم Unstructured که ابزارهایی را برای آماده سازی داده های سازمانی برای LLM ارائه می دهد، 25 میلیون دلار جمع آوری می کند
که در این بخش به محتوای این خبر با شما کاربران گرامی خواهیم پرداخت

مدل‌های زبان بزرگ (LLM) مانند GPT-4 OpenAI، بلوک‌های ساختمانی برای تعداد فزاینده‌ای از برنامه‌های هستند. اما برخی از شرکت ها به دلیل ناتوانی در دسترسی به داده های شخص اول و اختصاصی، تمایلی به پذیرش آنها ندارند.

حل این مشکل لزوماً آسان نیست – با توجه به این که این نوع داده ها در پشت فایروال ها قرار می گیرند و در قالب هایی ارائه می شوند که توسط LLM ها قابل استفاده نیستند. اما یک استارت‌آپ نسبتاً جدید، Unstructured.io، در تلاش است تا موانع را با پلتفرمی که داده‌های سازمانی را استخراج و مرحله‌بندی می‌کند، از بین ببرد تا LLM‌ها بتوانند آن را درک کنند و از آن استفاده کنند.

برایان ریموند، مت رابینسون و کرگ ولف پس از همکاری با یکدیگر در Primer AI، که بر ساخت و استقرار راه‌حل‌های پردازش زبان طبیعی (NLP) برای مشتریان تجاری متمرکز بود، Unstructured را در سال 2022 تأسیس کردند.

زمانی که در Primer بودیم، بارها و بارها با یک گلوگاه مواجه شدیم که فایل‌های خام مشتری حاوی داده‌های NLP (مثلاً PDF، ایمیل‌ها، PPTX، XML و غیره) را دریافت و پیش پردازش می‌کرد و آن را به یک فایل تمیز و مدیریت‌شده تبدیل می‌کرد که آماده است. ریموند، که به عنوان مدیر عامل Unstructured خدمت می‌کند، در مصاحبه‌ای با TechCrunch گفت. هیچ‌کدام از شرکت‌های یکپارچه‌سازی داده یا پردازش اسناد به حل این مشکل کمک نکردند، بنابراین تصمیم گرفتیم یک شرکت تشکیل دهیم و به طور مستقیم با آن مقابله کنیم.

در واقع، پردازش و آماده سازی داده ها یک مرحله وقت گیر در هر گردش کار توسعه هوش مصنوعی است. طبق یک نظرسنجی، دانشمندان داده نزدیک به 80 درصد از زمان خود را صرف تهیه و مدیریت داده ها برای تجزیه و تحلیل می کنند. در نتیجه، در یک نظرسنجی دیگر، اکثر داده‌هایی که شرکت‌ها تولید می‌کنند – حدود دو سوم – بدون استفاده می‌ماند.

شاید این مقاله را هم دوست داشته باشید :  4 روش برای انتقال یادداشت ها از مک به مک

«سازمان‌ها روزانه مقادیر زیادی داده بدون ساختار تولید می‌کنند که وقتی با LLM ترکیب می‌شوند می‌توانند بهره‌وری را افزایش دهند. مشکل این است که این داده ها پراکنده هستند. راز کثیف در جامعه NLP این است که امروزه دانشمندان داده هنوز باید اتصال دهنده های داده های صنعتی و یکباره و خطوط لوله پیش پردازش را کاملاً دستی بسازند. بدون ساختار [delivers] یک راه حل جامع برای اتصال، تبدیل و مرحله بندی داده های زبان طبیعی برای LLM.

Unstructured تعدادی ابزار برای کمک به پاکسازی و تبدیل داده‌های سازمانی برای دریافت LLM فراهم می‌کند، از جمله ابزارهایی که تبلیغات و سایر اشیاء ناخواسته را از صفحات وب حذف می‌کنند، متن را به هم متصل می‌کنند، تشخیص کاراکترهای نوری را در صفحات اسکن شده انجام می‌دهند و موارد دیگر. این شرکت خطوط لوله پردازش را برای انواع خاصی از فایل های PDF توسعه می دهد. اسناد HTML و ، از جمله برای پرونده های SEC. و – از همه چیز – گزارش های ارزیابی افسران ارتش ایالات متحده.

برای مدیریت اسناد، Unstructured مدل NLP “تبدیل فایل” خود را از ابتدا آموزش داد و مجموعه ای از مدل های دیگر را برای استخراج متن و حدود 20 عنصر مجزا (به عنوان مثال، عنوان، سرصفحه و پاورقی) از فایل های خام جمع آوری کرد. کانکتورهای مختلف – در مجموع حدود 15 – اسناد را از منابع داده موجود، مانند نرم افزار مدیریت ارتباط با مشتری، جذب می کنند.

ریموند گفت: «در پشت صحنه، ما از انواع فناوری‌های مختلف برای انتزاع کردن پیچیدگی استفاده می‌کنیم. برای مثال، برای فایل‌های PDF و تصاویر قدیمی، ما از مدل‌های بینایی کامپیوتری استفاده می‌کنیم. و برای انواع فایل‌های دیگر، ما از ترکیب‌های هوشمندانه مدل‌های NLP، اسکریپت‌های پایتون و عبارات منظم استفاده می‌کنیم.»

در پایین دست، Unstructured با ارائه دهندگانی مانند LangChain یکپارچه می شود، چارچوبی برای ایجاد برنامه های LLM، و پایگاه های داده برداری مانند Weaviate و MongoDB's Atlas Vector Search.

پیش از این، تنها محصول Unstructured یک مجموعه منبع باز از این ابزارهای پردازش داده بود. ریموند ادعا می کند که حدود 700000 بار دانلود شده و توسط بیش از 100 شرکت استفاده شده است. اما برای پوشش هزینه های توسعه – و بدون شک سرمایه گذاران خود را آرام می کند – این شرکت یک API تجاری راه اندازی کرده است که داده ها را در 25 فرمت فایل مختلف از جمله پاورپوینت و JPG تغییر می دهد.

شاید این مقاله را هم دوست داشته باشید :  بهترین هاست وردپرس؛ 4 ارائه دهنده برتر در ایران

ما با سازمان‌های دولتی کار کرده‌ایم و در مدت کوتاهی چندین میلیون درآمد داشته‌ایم. . . . ریموند گفت: از آنجایی که تمرکز ما بر هوش مصنوعی است، روی بخشی از بازار متمرکز شده‌ایم که تحت تأثیر رکود اقتصادی گسترده‌تر قرار نگرفته است.

Unstructured روابط بسیار نزدیکی با آژانس های دفاعی دارد که شاید محصول پیشینه ریموند باشد. قبل از پرایمر، او یکی از اعضای فعال جامعه اطلاعاتی ایالات متحده بود و قبل از حضور در سیا در خاورمیانه و سپس در کاخ سفید در دوران دولت اوباما خدمت می کرد.

به Unstructured قراردادهای تجاری کوچک توسط نیروی هوایی ایالات متحده و نیروی فضایی ایالات متحده اعطا شد و با فرماندهی عملیات ویژه ایالات متحده (SOCOM) برای استقرار یک LLM “در ارتباط با داده های مربوط به ماموریت” شریک شد. علاوه بر این، هیئت مدیره Unstructured شامل مایکل گروئن، ژنرال سابق و مدیر مرکز مشترک هوش مصنوعی پنتاگون، و رایان لوئیس، که قبلاً واحد نوآوری دفاعی وزارت دفاع را رهبری می کرد، می باشد.

زاویه دفاع – یک منبع درآمد اولیه قابل اعتماد – ممکن است عامل تعیین کننده در تامین مالی اخیر Unstructured باشد. امروز، این شرکت اعلام کرد که 25 میلیون دلار در یک دور سرمایه گذاری اولیه سری A و قبلاً فاش نشده جمع آوری کرده است. مادرونا با مشارکت Bain Capital Ventures، که در راس آن بود، و M12 Ventures، Mango Capital، MongoDB Ventures و Shield Capital، و همچنین چندین سرمایه گذار فرشته، سری A را رهبری کرد.

امیدواریم از این مقاله مجله نود و هشت زوم نیز استفاده لازم را کرده باشید و در صورت تمایل آنرا با دوستان خود به اشتراک بگذارید و با امتیاز از قسمت پایین و درج نظرات باعث دلگرمی مجموعه مجله 98zoom باشید

امتیاز بدهید

لینک کوتاه مقاله : https://5ia.ir/hDqjwZ
کوتاه کننده لینک
کد QR :
اشتراک گذاری
سروناز مقدم پور

سروناز مقدم پور

سروناز مقدم پور هستم کارشناس مهندسی کامپیوتر و مدیر وبسایت نود و هشت زوم. چندین سال است که در حوزه وب فعالیت می کنم و تخصص های اصلیم طراحی سایت و سئو است بعد از یادگیری علاقه زیادی به آموزش دادن دارم

شاید این مطالب را هم دوست داشته باشید

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *