کار آفرینی و استارتاپ

Data Lakehouse Onehouse 35 میلیون دلار برای سرمایه گذاری در انقلاب GenAI جمع آوری می کند


این روزها به سختی می توانید یک ساعت را بدون مطالعه در مورد هوش مصنوعی مولد بگذرانید. در حالی که ما هنوز در مرحله جنینی چه هستیم برخی دوبله کرده اند “موتور بخار” انقلاب صنعتی چهارم، شکی وجود ندارد که “GenAI” در حال شکل گیری است تا تقریباً هر صنعت را متحول کند – از امور مالی و بهداشت و درمان گرفته تا قانون و فراتر از آن.

برنامه‌های کاربردی جالبی که در مواجهه با کاربر قرار دارند، ممکن است بیشتر طرفداران را به خود جلب کنند، اما شرکت‌هایی که این انقلاب را تامین می‌کنند، در حال حاضر بیشترین سود را می‌برند. همین ماه، تراشه ساز انویدیا به طور خلاصه تبدیل شد با ارزش ترین شرکت جهان، یک غولگرد 3.3 تریلیون دلاری که اساساً به دلیل تقاضا برای قدرت محاسباتی هوش مصنوعی هدایت می شود.

اما علاوه بر GPU (واحدهای پردازش گرافیکی)، کسب‌وکارها همچنین به زیرساخت‌هایی برای مدیریت جریان داده‌ها نیاز دارند – برای ذخیره، پردازش، آموزش، تجزیه و تحلیل و در نهایت، باز کردن پتانسیل کامل هوش مصنوعی.

یکی از شرکت هایی که به دنبال سرمایه گذاری در این است Onehouse، یک استارتاپ کالیفرنیایی سه ساله که توسط وینوث چاندار، که منبع باز را ایجاد کرد آپاچی هودی پروژه در حالی که به عنوان معمار داده در اوبر خدمت می کند. هودی فواید را می آورد انبارهای داده به دریاچه های داده، ایجاد چیزی که به عنوان “دریاچه داده” شناخته می شود، که امکان پشتیبانی از اقداماتی مانند نمایه سازی و انجام پرس و جوهای بلادرنگ در مجموعه داده های بزرگ را فراهم می کند، چه داده های ساختاریافته، بدون ساختار یا نیمه ساختار یافته.

به عنوان مثال، یک شرکت تجارت الکترونیک که به طور مداوم سفارشات، بازخوردها و تعاملات دیجیتالی مرتبط با داده های مشتری را جمع آوری می کند، به سیستمی نیاز دارد تا همه آن داده ها را دریافت کند و اطمینان حاصل کند که به روز نگه داشته می شوند، که ممکن است به او کمک کند محصولاتی را بر اساس کاربر توصیه کند. فعالیت. Hudi با پشتیبانی از حذف، به‌روزرسانی و درج (“upsert”)، که برای چنین موارد استفاده بی‌درنگ از داده‌ها حیاتی است، داده‌ها را از منابع مختلف با حداقل تأخیر جذب می‌کند.

Onehouse بر این اساس با یک خانه داده کاملاً مدیریت شده ساخته شده است که به شرکت ها کمک می کند Hudi را مستقر کنند. یا، همانطور که Chandar می گوید، “مصرف و استانداردسازی داده ها را به قالب های داده باز آغاز می کند” که می تواند با تقریباً تمام ابزارهای اصلی در علم داده، هوش مصنوعی و اکوسیستم های یادگیری ماشین استفاده شود.

چاندار به TechCrunch گفت: «Onehouse ساختار زیرساخت داده سطح پایین را جمع‌آوری می‌کند و به شرکت‌های هوش مصنوعی کمک می‌کند تا روی مدل‌های خود تمرکز کنند.

امروز، Onehouse اعلام کرد که با ارائه دو محصول جدید به بازار برای بهبود عملکرد Hudi و کاهش هزینه‌های ذخیره‌سازی و پردازش ابری، 35 میلیون دلار در دور سری B سرمایه جمع‌آوری کرده است.

پایین در (داده) lakehouse

تبلیغ Onehouse در بیلبورد لندن.
اعتبار تصویر: Onehouse

چاندار Hudi را به عنوان یک پروژه داخلی در اوبر در سال 2016 ایجاد کرد و از زمان شرکت سواری پروژه را اهدا کرد به بنیاد آپاچی در سال 2019، هودی اتخاذ شده است توسط مانند آمازون، دیزنی و والمارت.

چاندار در سال 2019 Uber را ترک کرد و پس از مدت کوتاهی در Confluent، Onehouse را تأسیس کرد. این استارت آپ در سال 2022 با بودجه اولیه 8 میلیون دلاری از مخفی کاری ظاهر شد و مدت کوتاهی پس از آن با 25 میلیون دلار سری A دور شد. هر دو دور توسط Greylock Partners و Addition رهبری شد.

این شرکت‌های VC دوباره برای پیگیری سری B به نیروها پیوسته‌اند، اگرچه این بار کرافت ونچرز دیوید ساکس در این دور پیشرو است.

مایکل رابینسون، شریک کرافت ونچرز، در بیانیه‌ای گفت: «خانه دریاچه داده به سرعت در حال تبدیل شدن به معماری استاندارد برای سازمان‌هایی است که می‌خواهند داده‌های خود را متمرکز کنند تا خدمات جدیدی مانند تجزیه و تحلیل بلادرنگ، ML پیش‌بینی‌کننده و GenAI را تأمین کنند.»

برای زمینه، انبارهای داده و دریاچه‌های داده مشابه هستند زیرا به عنوان یک مخزن مرکزی برای ادغام داده‌ها عمل می‌کنند. اما آنها این کار را به روش‌های مختلف انجام می‌دهند: یک انبار داده برای پردازش و جستجوی داده‌های ساختاری و تاریخی ایده‌آل است، در حالی که دریاچه‌های داده به عنوان جایگزینی انعطاف‌پذیرتر برای ذخیره‌سازی مقادیر وسیعی از داده‌های خام در قالب اصلی خود، با پشتیبانی از انواع مختلف ظاهر شده‌اند. داده ها و پرس و جو با کارایی بالا

این باعث می‌شود که دریاچه‌های داده برای بارهای کاری هوش مصنوعی و یادگیری ماشین ایده‌آل باشند، زیرا ذخیره داده‌های خام از پیش تبدیل شده ارزان‌تر است و در عین حال، از جستارهای پیچیده‌تر پشتیبانی می‌کند زیرا داده‌ها را می‌توان به شکل اصلی ذخیره کرد.

با این حال، مبادله مجموعه ای کاملاً جدید از پیچیدگی های مدیریت داده است که با توجه به مجموعه گسترده ای از انواع و قالب های داده، کیفیت داده ها را بدتر می کند. این تا حدی چیزی است که هودی با آوردن برخی از ویژگی های کلیدی انبارهای داده به دریاچه های داده، مانند معاملات اسید برای پشتیبانی از یکپارچگی و قابلیت اطمینان داده ها، و همچنین بهبود مدیریت ابرداده برای مجموعه داده های متنوع تر.

پیکربندی خطوط لوله داده در Onehouse
پیکربندی خطوط لوله داده در Onehouse.
اعتبار تصویر: یک خانه

از آنجا که این یک پروژه منبع باز است، هر شرکتی می تواند Hudi را مستقر کند. نگاهی اجمالی به آرم‌های وب‌سایت وان‌هاوس، تعدادی از کاربران تأثیرگذار را نشان می‌دهد: AWS، Google، Tencent، Disney، Walmart، ByteDance، Uber و Huawei، به‌عنوان تعداد انگشت شماری. اما این واقعیت که چنین شرکت‌های بزرگی از Hudi در داخل استفاده می‌کنند، نشان‌دهنده تلاش و منابع مورد نیاز برای ساخت آن به عنوان بخشی از راه‌اندازی Lakehouse داده در محل است.

چاندار گفت: «در حالی که Hudi عملکردی غنی برای دریافت، مدیریت و تبدیل داده‌ها ارائه می‌کند، شرکت‌ها هنوز مجبورند حدود نیمی از ابزارهای منبع باز را برای دستیابی به اهداف خود یعنی یک خانه داده با کیفیت تولید یکپارچه کنند.

به همین دلیل است که Onehouse یک پلتفرم کاملاً مدیریت شده و بومی ابری ارائه می دهد که داده ها را در کسری از زمان جذب، تبدیل و بهینه می کند.

چاندار گفت: «کاربران می‌توانند یک دریاچه داده باز را در کمتر از یک ساعت با قابلیت همکاری گسترده با همه سرویس‌های اصلی ابر بومی، انبارها و موتورهای دریاچه داده راه‌اندازی کنند.

این شرکت در مورد نام بردن از مشتریان تجاری خود، به غیر از زوجی که در لیست ذکر شده بودند، خجالتی بود مطالعات موردیمانند اسب شاخدار هندی آپنا.

چاندار گفت: “به عنوان یک شرکت جوان، ما در حال حاضر کل لیست مشتریان تجاری Onehouse را به صورت عمومی به اشتراک نمی گذاریم.”

با 35 میلیون دلار جدید در بانک، Onehouse اکنون پلتفرم خود را با ابزاری رایگان به نام Onehouse LakeView گسترش می‌دهد که قابلیت مشاهده در عملکرد lakehouse را برای بینش در مورد آمار جدول، روندها، اندازه فایل‌ها، تاریخچه جدول زمانی و موارد دیگر فراهم می‌کند. این بر معیارهای مشاهده پذیری موجود ارائه شده توسط پروژه اصلی Hudi استوار است و زمینه اضافی را در بارهای کاری فراهم می کند.

چاندار گفت: «بدون LakeView، کاربران باید زمان زیادی را صرف تفسیر معیارها کنند و عمیقاً کل پشته را برای ریشه‌یابی مشکلات عملکرد یا ناکارآمدی در پیکربندی خط لوله صرف کنند. LakeView این را خودکار می‌کند و هشدارهای ایمیلی در مورد روندهای خوب یا بد ارائه می‌کند، مدیریت داده‌ها را پرچم‌گذاری می‌کند تا عملکرد پرس و جو را بهبود بخشد.

علاوه بر این، Onehouse همچنین محصول جدیدی به نام Table Optimizer را معرفی می کند، یک سرویس ابری مدیریت شده که جداول موجود را برای تسریع در جذب و تبدیل داده ها بهینه می کند.

“باز و قابل همکاری”

نمی توان از تعداد بیشماری دیگر از بازیکنان بزرگ در این فضا غافل شد. امثال Databricks و Snowflake به طور فزاینده ای در حال افزایش هستند پذیرش پارادایم Lakehouse: اوایل این ماه، داده‌آبریک‌ها گزارش شده است ۱ میلیارد دلار برای خرید شرکتی به نام Tabular، با هدف ایجاد یک استاندارد خانه دریاچه مشترک.

وان هاوس مطمئناً وارد فضای داغی شده است، اما امیدوار است تمرکز آن بر یک سیستم “باز و قابل همکاری” که جلوگیری از قفل شدن فروشنده را آسان تر می کند، به آن کمک کند تا در آزمون زمان مقاومت کند. اساساً امکان ایجاد یک کپی از داده‌ها به صورت جهانی و تقریباً از هرجایی قابل دسترسی است، از جمله سرویس‌های Databricks، Snowflake، Cloudera و AWS، بدون نیاز به ساخت سیلوهای داده جداگانه در هرکدام.

همانند انویدیا در حوزه پردازنده گرافیکی، فرصت هایی که در فضای مدیریت داده در انتظار هر شرکتی است نادیده گرفته نمی شود. داده ها سنگ بنای توسعه هوش مصنوعی هستند و نداشتن داده های با کیفیت خوب کافی دلیل اصلی آن است چرا بسیاری از پروژه های هوش مصنوعی شکست می خورند. اما حتی زمانی که داده‌ها در سطل‌ها وجود دارند، شرکت‌ها همچنان به زیرساختی برای جذب، تبدیل و استانداردسازی نیاز دارند تا مفید باشند. این نوید خوبی برای Onehouse و امثال آن است.

از جنبه مدیریت و پردازش داده‌ها، من معتقدم که داده‌های باکیفیت ارائه‌شده توسط یک زیرساخت داده محکم، نقش مهمی در تبدیل این پروژه‌های هوش مصنوعی به موارد استفاده تولید در دنیای واقعی ایفا می‌کند – برای جلوگیری از زباله‌های درون/خروج مشکلات داده، “چاندار گفت. ما شروع به مشاهده چنین تقاضایی در کاربران داده لیک‌هاوس کرده‌ایم، زیرا آنها در تلاش برای مقیاس‌بندی نیازهای پردازش داده و پرس و جو برای ساخت این برنامه‌های کاربردی جدیدتر هوش مصنوعی بر روی داده‌های مقیاس سازمانی هستند.»



منبع

دیدگاهتان را بنویسید

دکمه بازگشت به بالا