Data Lakehouse Onehouse 35 میلیون دلار برای سرمایه گذاری در انقلاب GenAI جمع آوری می کند

این روزها به سختی می توانید یک ساعت را بدون مطالعه در مورد هوش مصنوعی مولد بگذرانید. در حالی که ما هنوز در مرحله جنینی چه هستیم برخی دوبله کرده اند “موتور بخار” انقلاب صنعتی چهارم، شکی وجود ندارد که “GenAI” در حال شکل گیری است تا تقریباً هر صنعت را متحول کند – از امور مالی و بهداشت و درمان گرفته تا قانون و فراتر از آن.
برنامههای کاربردی جالبی که در مواجهه با کاربر قرار دارند، ممکن است بیشتر طرفداران را به خود جلب کنند، اما شرکتهایی که این انقلاب را تامین میکنند، در حال حاضر بیشترین سود را میبرند. همین ماه، تراشه ساز انویدیا به طور خلاصه تبدیل شد با ارزش ترین شرکت جهان، یک غولگرد 3.3 تریلیون دلاری که اساساً به دلیل تقاضا برای قدرت محاسباتی هوش مصنوعی هدایت می شود.
اما علاوه بر GPU (واحدهای پردازش گرافیکی)، کسبوکارها همچنین به زیرساختهایی برای مدیریت جریان دادهها نیاز دارند – برای ذخیره، پردازش، آموزش، تجزیه و تحلیل و در نهایت، باز کردن پتانسیل کامل هوش مصنوعی.
یکی از شرکت هایی که به دنبال سرمایه گذاری در این است Onehouse، یک استارتاپ کالیفرنیایی سه ساله که توسط وینوث چاندار، که منبع باز را ایجاد کرد آپاچی هودی پروژه در حالی که به عنوان معمار داده در اوبر خدمت می کند. هودی فواید را می آورد انبارهای داده به دریاچه های داده، ایجاد چیزی که به عنوان “دریاچه داده” شناخته می شود، که امکان پشتیبانی از اقداماتی مانند نمایه سازی و انجام پرس و جوهای بلادرنگ در مجموعه داده های بزرگ را فراهم می کند، چه داده های ساختاریافته، بدون ساختار یا نیمه ساختار یافته.
به عنوان مثال، یک شرکت تجارت الکترونیک که به طور مداوم سفارشات، بازخوردها و تعاملات دیجیتالی مرتبط با داده های مشتری را جمع آوری می کند، به سیستمی نیاز دارد تا همه آن داده ها را دریافت کند و اطمینان حاصل کند که به روز نگه داشته می شوند، که ممکن است به او کمک کند محصولاتی را بر اساس کاربر توصیه کند. فعالیت. Hudi با پشتیبانی از حذف، بهروزرسانی و درج (“upsert”)، که برای چنین موارد استفاده بیدرنگ از دادهها حیاتی است، دادهها را از منابع مختلف با حداقل تأخیر جذب میکند.
Onehouse بر این اساس با یک خانه داده کاملاً مدیریت شده ساخته شده است که به شرکت ها کمک می کند Hudi را مستقر کنند. یا، همانطور که Chandar می گوید، “مصرف و استانداردسازی داده ها را به قالب های داده باز آغاز می کند” که می تواند با تقریباً تمام ابزارهای اصلی در علم داده، هوش مصنوعی و اکوسیستم های یادگیری ماشین استفاده شود.
چاندار به TechCrunch گفت: «Onehouse ساختار زیرساخت داده سطح پایین را جمعآوری میکند و به شرکتهای هوش مصنوعی کمک میکند تا روی مدلهای خود تمرکز کنند.
امروز، Onehouse اعلام کرد که با ارائه دو محصول جدید به بازار برای بهبود عملکرد Hudi و کاهش هزینههای ذخیرهسازی و پردازش ابری، 35 میلیون دلار در دور سری B سرمایه جمعآوری کرده است.
پایین در (داده) lakehouse
چاندار Hudi را به عنوان یک پروژه داخلی در اوبر در سال 2016 ایجاد کرد و از زمان شرکت سواری پروژه را اهدا کرد به بنیاد آپاچی در سال 2019، هودی اتخاذ شده است توسط مانند آمازون، دیزنی و والمارت.
چاندار در سال 2019 Uber را ترک کرد و پس از مدت کوتاهی در Confluent، Onehouse را تأسیس کرد. این استارت آپ در سال 2022 با بودجه اولیه 8 میلیون دلاری از مخفی کاری ظاهر شد و مدت کوتاهی پس از آن با 25 میلیون دلار سری A دور شد. هر دو دور توسط Greylock Partners و Addition رهبری شد.
این شرکتهای VC دوباره برای پیگیری سری B به نیروها پیوستهاند، اگرچه این بار کرافت ونچرز دیوید ساکس در این دور پیشرو است.
مایکل رابینسون، شریک کرافت ونچرز، در بیانیهای گفت: «خانه دریاچه داده به سرعت در حال تبدیل شدن به معماری استاندارد برای سازمانهایی است که میخواهند دادههای خود را متمرکز کنند تا خدمات جدیدی مانند تجزیه و تحلیل بلادرنگ، ML پیشبینیکننده و GenAI را تأمین کنند.»
برای زمینه، انبارهای داده و دریاچههای داده مشابه هستند زیرا به عنوان یک مخزن مرکزی برای ادغام دادهها عمل میکنند. اما آنها این کار را به روشهای مختلف انجام میدهند: یک انبار داده برای پردازش و جستجوی دادههای ساختاری و تاریخی ایدهآل است، در حالی که دریاچههای داده به عنوان جایگزینی انعطافپذیرتر برای ذخیرهسازی مقادیر وسیعی از دادههای خام در قالب اصلی خود، با پشتیبانی از انواع مختلف ظاهر شدهاند. داده ها و پرس و جو با کارایی بالا
این باعث میشود که دریاچههای داده برای بارهای کاری هوش مصنوعی و یادگیری ماشین ایدهآل باشند، زیرا ذخیره دادههای خام از پیش تبدیل شده ارزانتر است و در عین حال، از جستارهای پیچیدهتر پشتیبانی میکند زیرا دادهها را میتوان به شکل اصلی ذخیره کرد.
با این حال، مبادله مجموعه ای کاملاً جدید از پیچیدگی های مدیریت داده است که با توجه به مجموعه گسترده ای از انواع و قالب های داده، کیفیت داده ها را بدتر می کند. این تا حدی چیزی است که هودی با آوردن برخی از ویژگی های کلیدی انبارهای داده به دریاچه های داده، مانند معاملات اسید برای پشتیبانی از یکپارچگی و قابلیت اطمینان داده ها، و همچنین بهبود مدیریت ابرداده برای مجموعه داده های متنوع تر.

از آنجا که این یک پروژه منبع باز است، هر شرکتی می تواند Hudi را مستقر کند. نگاهی اجمالی به آرمهای وبسایت وانهاوس، تعدادی از کاربران تأثیرگذار را نشان میدهد: AWS، Google، Tencent، Disney، Walmart، ByteDance، Uber و Huawei، بهعنوان تعداد انگشت شماری. اما این واقعیت که چنین شرکتهای بزرگی از Hudi در داخل استفاده میکنند، نشاندهنده تلاش و منابع مورد نیاز برای ساخت آن به عنوان بخشی از راهاندازی Lakehouse داده در محل است.
چاندار گفت: «در حالی که Hudi عملکردی غنی برای دریافت، مدیریت و تبدیل دادهها ارائه میکند، شرکتها هنوز مجبورند حدود نیمی از ابزارهای منبع باز را برای دستیابی به اهداف خود یعنی یک خانه داده با کیفیت تولید یکپارچه کنند.
به همین دلیل است که Onehouse یک پلتفرم کاملاً مدیریت شده و بومی ابری ارائه می دهد که داده ها را در کسری از زمان جذب، تبدیل و بهینه می کند.
چاندار گفت: «کاربران میتوانند یک دریاچه داده باز را در کمتر از یک ساعت با قابلیت همکاری گسترده با همه سرویسهای اصلی ابر بومی، انبارها و موتورهای دریاچه داده راهاندازی کنند.
این شرکت در مورد نام بردن از مشتریان تجاری خود، به غیر از زوجی که در لیست ذکر شده بودند، خجالتی بود مطالعات موردیمانند اسب شاخدار هندی آپنا.
چاندار گفت: “به عنوان یک شرکت جوان، ما در حال حاضر کل لیست مشتریان تجاری Onehouse را به صورت عمومی به اشتراک نمی گذاریم.”
با 35 میلیون دلار جدید در بانک، Onehouse اکنون پلتفرم خود را با ابزاری رایگان به نام Onehouse LakeView گسترش میدهد که قابلیت مشاهده در عملکرد lakehouse را برای بینش در مورد آمار جدول، روندها، اندازه فایلها، تاریخچه جدول زمانی و موارد دیگر فراهم میکند. این بر معیارهای مشاهده پذیری موجود ارائه شده توسط پروژه اصلی Hudi استوار است و زمینه اضافی را در بارهای کاری فراهم می کند.
چاندار گفت: «بدون LakeView، کاربران باید زمان زیادی را صرف تفسیر معیارها کنند و عمیقاً کل پشته را برای ریشهیابی مشکلات عملکرد یا ناکارآمدی در پیکربندی خط لوله صرف کنند. LakeView این را خودکار میکند و هشدارهای ایمیلی در مورد روندهای خوب یا بد ارائه میکند، مدیریت دادهها را پرچمگذاری میکند تا عملکرد پرس و جو را بهبود بخشد.
علاوه بر این، Onehouse همچنین محصول جدیدی به نام Table Optimizer را معرفی می کند، یک سرویس ابری مدیریت شده که جداول موجود را برای تسریع در جذب و تبدیل داده ها بهینه می کند.
“باز و قابل همکاری”
نمی توان از تعداد بیشماری دیگر از بازیکنان بزرگ در این فضا غافل شد. امثال Databricks و Snowflake به طور فزاینده ای در حال افزایش هستند پذیرش پارادایم Lakehouse: اوایل این ماه، دادهآبریکها گزارش شده است ۱ میلیارد دلار برای خرید شرکتی به نام Tabular، با هدف ایجاد یک استاندارد خانه دریاچه مشترک.
وان هاوس مطمئناً وارد فضای داغی شده است، اما امیدوار است تمرکز آن بر یک سیستم “باز و قابل همکاری” که جلوگیری از قفل شدن فروشنده را آسان تر می کند، به آن کمک کند تا در آزمون زمان مقاومت کند. اساساً امکان ایجاد یک کپی از دادهها به صورت جهانی و تقریباً از هرجایی قابل دسترسی است، از جمله سرویسهای Databricks، Snowflake، Cloudera و AWS، بدون نیاز به ساخت سیلوهای داده جداگانه در هرکدام.
همانند انویدیا در حوزه پردازنده گرافیکی، فرصت هایی که در فضای مدیریت داده در انتظار هر شرکتی است نادیده گرفته نمی شود. داده ها سنگ بنای توسعه هوش مصنوعی هستند و نداشتن داده های با کیفیت خوب کافی دلیل اصلی آن است چرا بسیاری از پروژه های هوش مصنوعی شکست می خورند. اما حتی زمانی که دادهها در سطلها وجود دارند، شرکتها همچنان به زیرساختی برای جذب، تبدیل و استانداردسازی نیاز دارند تا مفید باشند. این نوید خوبی برای Onehouse و امثال آن است.
از جنبه مدیریت و پردازش دادهها، من معتقدم که دادههای باکیفیت ارائهشده توسط یک زیرساخت داده محکم، نقش مهمی در تبدیل این پروژههای هوش مصنوعی به موارد استفاده تولید در دنیای واقعی ایفا میکند – برای جلوگیری از زبالههای درون/خروج مشکلات داده، “چاندار گفت. ما شروع به مشاهده چنین تقاضایی در کاربران داده لیکهاوس کردهایم، زیرا آنها در تلاش برای مقیاسبندی نیازهای پردازش داده و پرس و جو برای ساخت این برنامههای کاربردی جدیدتر هوش مصنوعی بر روی دادههای مقیاس سازمانی هستند.»