Šiomis dienomis galite vos valandą neskaityti apie generatyvųjį AI. Nors mes vis dar esame pradinėje fazėje to, ką kai kas pavadino ketvirtosios pramonės revoliucijos „garų varikliu“, nėra jokių abejonių, kad „GenAI“ formuojasi taip, kad transformuotų beveik visas pramonės šakas – nuo finansų ir sveikatos priežiūros iki teisės ir ne tik. .
Šaunios naudotojams skirtos programos gali sulaukti daugiausiai fanfarų, tačiau šiuo metu daugiausia naudos gauna šios revoliucijos valdančios bendrovės. Tik šį mėnesį mikroschemų gamintoja „Nvidia“ trumpam tapo vertingiausia pasaulio įmone – 3,3 trilijono dolerių vertės „juggernaut“, kurią iš esmės paskatino dirbtinio intelekto skaičiavimo galios paklausa.
Tačiau be GPU (grafikos apdorojimo vienetų), įmonėms taip pat reikia infrastruktūros duomenų srautui valdyti – saugoti, apdoroti, mokyti, analizuoti ir galiausiai išnaudoti visą AI potencialą.
Viena įmonė, norinti iš to pasinaudoti, yra „Onehouse“, trejus metus gyvuojantis Kalifornijos startuolis, įkurtas Vinotho Chandaro, kuris sukūrė atvirojo kodo „Apache Hudi“ projektą dirbdamas duomenų architektu „Uber“. „Hudi“ suteikia duomenų saugyklų privalumus duomenų ežerams, sukurdama tai, kas tapo žinoma kaip „duomenų ežeras“, leidžianti palaikyti tokius veiksmus kaip indeksavimas ir realiojo laiko užklausų vykdymas dideliuose duomenų rinkiniuose, nesvarbu, ar tai būtų struktūrizuoti, nestruktūruoti ar pusiau struktūrizuoti duomenys. .
Pavyzdžiui, elektroninės prekybos įmonei, kuri nuolat renka klientų duomenis, apimančius užsakymus, atsiliepimus ir susijusias skaitmenines sąveikas, reikės sistemos, kuri gautų visus tuos duomenis ir užtikrintų, kad jie būtų nuolat atnaujinami, o tai gali padėti rekomenduoti produktus pagal vartotojo poreikius. veikla. „Hudi“ leidžia gauti duomenis iš įvairių šaltinių su minimaliu delsimu, palaikydamas ištrynimą, atnaujinimą ir įterpimą („upsert“), o tai labai svarbu tokiais realaus laiko duomenų naudojimo atvejais.
„Onehouse“ šiuo pagrindu remiasi visiškai valdoma duomenų baze, kuri padeda įmonėms įdiegti „Hudi“. Arba, kaip sako Chandaras, jis „paleidžia duomenų gavimą ir standartizavimą į atvirų duomenų formatus“, kuriuos galima naudoti su beveik visais pagrindiniais duomenų mokslo, AI ir mašininio mokymosi ekosistemų įrankiais.
„Onehouse abstrahuoja žemo lygio duomenų infrastruktūros kūrimą, padėdamas AI įmonėms sutelkti dėmesį į savo modelius“, – „TechCrunch“ sakė Chandaras.
Šiandien „Onehouse“ paskelbė, kad surinko 35 mln. USD B serijos finansavimo etape, nes į rinką pristato du naujus produktus, kad pagerintų „Hudi“ našumą ir sumažintų saugojimo debesyje ir apdorojimo išlaidas.
Žemyn prie (duomenų) ežero
Chandaras sukūrė „Hudi“ kaip vidinį „Uber“ projektą 2016 m., o nuo tada, kai pavėžėjimo bendrovė 2019 m. padovanojo projektą „Apache“ fondui, Hudi priėmė „Amazon“, „Disney“ ir „Walmart“.
Chandaras paliko „Uber“ 2019 m. ir po trumpo darbo „Confluent“ įkūrė „Onehouse“. 2022 m. startuolis atsirado slaptai, o pradiniam finansavimui buvo skirta 8 mln. USD, o netrukus po to – 25 mln. USD A serijos turas. Abu turus kartu vedė Greylock Partners ir Addition.
Šios rizikos kapitalo įmonės vėl suvienijo jėgas, kad galėtų tęsti B seriją, nors šį kartą pirmauja Davido Sackso „Craft Ventures“.
„Data Lakehouse greitai tampa standartine architektūra organizacijoms, norinčioms centralizuoti savo duomenis, kad galėtų teikti naujas paslaugas, tokias kaip analizė realiuoju laiku, nuspėjamoji ML ir GenAI“, – pranešime teigė „Craft Ventures“ partneris Michaelas Robinsonas.
Atsižvelgiant į kontekstą, duomenų saugyklos ir duomenų ežerai yra panašūs tuo, kaip jie tarnauja kaip centrinė duomenų kaupimo saugykla. Tačiau jie tai daro įvairiais būdais: duomenų saugykla idealiai tinka istoriniams, struktūrizuotiems duomenims apdoroti ir pateikti užklausas, tuo tarpu duomenų ežerai tapo lankstesnė alternatyva dideliems neapdorotų duomenų kiekiams saugoti pradiniu formatu, palaikant kelių tipų duomenis. duomenų ir didelio našumo užklausų.
Dėl to duomenų ežerai idealiai tinka dirbtinio intelekto ir mašininio mokymosi darbo krūviams, nes pigiau saugoti iš anksto transformuotus neapdorotus duomenis ir tuo pat metu palaiko sudėtingesnes užklausas, nes duomenys gali būti saugomi pradine forma.
Tačiau kompromisas yra visiškai naujas duomenų valdymo sudėtingumo rinkinys, dėl kurio gali pablogėti duomenų kokybė, atsižvelgiant į daugybę duomenų tipų ir formatų. Tai iš dalies siekia išspręsti Hudi, įtraukdamas kai kurias pagrindines duomenų saugyklų ypatybes į duomenų ežerus, pvz., ACID operacijas, kad palaikytų duomenų vientisumą ir patikimumą, taip pat pagerintų metaduomenų valdymą, skirtą įvairesniems duomenų rinkiniams.
Kadangi tai yra atvirojo kodo projektas, bet kuri įmonė gali įdiegti Hudi. Greitai žvilgtelėjus į logotipus „Onehouse“ svetainėje, atskleidžiami keli įspūdingi vartotojai: AWS, „Google“, „Tencent“, „Disney“, „Walmart“, „Bytedance“, „Uber“ ir „Huawei“. Tačiau tai, kad tokios garsios įmonės naudoja „Hudi“ viduje, rodo pastangas ir išteklius, kurių reikia norint jį sukurti kaip vietinės duomenų bazės sąrankos dalį.
„Nors Hudi teikia daug funkcijų duomenims gauti, tvarkyti ir transformuoti, įmonės vis tiek turi integruoti apie pusšimtį atvirojo kodo įrankių, kad pasiektų savo tikslus – produkcijos kokybės duomenų bazę“, – sakė Chandaras.
Štai kodėl „Onehouse“ siūlo visiškai valdomą debesies platformą, kuri per trumpą laiko dalį perima, transformuoja ir optimizuoja duomenis.
„Vartotojai gali greičiau nei per valandą paleisti atvirų duomenų ežerų namą su plačiu suderinamumu su visomis pagrindinėmis debesies paslaugomis, sandėliais ir duomenų ežero varikliais“, – sakė Chandaras.
Bendrovė nedrąsiai pavadino savo komercinius klientus, išskyrus porą, išvardytą atvejų tyrimuose, pavyzdžiui, Indijos vienaragį Apną.
„Kaip jauna įmonė, šiuo metu viešai nedaliname viso Onehouse komercinių klientų sąrašo“, – sakė Chandaras.
Banke turėdamas 35 mln. USD, „Onehouse“ plečia savo platformą su nemokamu įrankiu, pavadintu „Onehouse LakeView“, kuris suteikia galimybę stebėti „Lakehouse“ funkcijas, kad būtų galima gauti įžvalgų apie lentelių statistiką, tendencijas, failų dydžius, laiko juostos istoriją ir kt. Tai grindžiama esama stebėjimo metrika, pateikta pagrindinio Hudi projekto, suteikiant papildomo darbo krūvio konteksto.
„Be LakeView naudotojai turi praleisti daug laiko aiškindami metrikas ir giliai suprasti visą krūvą, kad būtų pagrindinės našumo problemos arba dujotiekio konfigūracijos neveiksmingumas“, – sakė Chandaras. „LakeView tai automatizuoja ir el. paštu pateikia įspėjimus apie geras ar blogas tendencijas, pažymint duomenų tvarkymo poreikį, kad pagerintų užklausų našumą.
Be to, „Onehouse“ taip pat pristato naują produktą „Table Optimizer“ – valdomą debesies paslaugą, kuri optimizuoja esamas lenteles, kad paspartintų duomenų perdavimą ir transformavimą.
„Atviras ir sąveikus“
Negalima ignoruoti daugybės kitų garsių žaidėjų erdvėje. Tokie kaip „Databricks“ ir „Snowflake“ vis labiau priima ežero paradigmą: anksčiau šį mėnesį „Databricks“ skyrė 1 mlrd. USD, kad įsigytų įmonę „Tabular“, siekdama sukurti bendrą ežero standartą.
„Onehouse“ neabejotinai pateko į karštą erdvę, tačiau tikimasi, kad jos dėmesys „atvirai ir sąveikiai“ sistemai, kuri padeda lengviau išvengti pardavėjo blokavimo, padės išlaikyti laiko išbandymą. Iš esmės tai žada galimybę padaryti vieną duomenų kopiją, kuri būtų visuotinai pasiekiama beveik iš bet kurios vietos, įskaitant „Databricks“, „Snowflake“, „Cloudera“ ir AWS vietines paslaugas, nekuriant kiekvienos atskiros duomenų talpyklos.
Kaip ir Nvidia GPU srityje, negalima ignoruoti galimybių, kurios laukia bet kurios įmonės duomenų valdymo srityje. Duomenys yra AI kūrimo kertinis akmuo, o nepakankamas geros kokybės duomenų trūkumas yra pagrindinė priežastis, kodėl daugelis AI projektų žlunga. Tačiau net ir tada, kai duomenys yra dideliais kiekiais, įmonėms vis tiek reikia infrastruktūros, kurią galėtų gauti, transformuoti ir standartizuoti, kad jie būtų naudingi. Tai gerai žada Onehouse ir panašius žmones.
„Duomenų valdymo ir apdorojimo srityje manau, kad kokybiški duomenys, pateikti iš tvirto duomenų infrastruktūros pagrindo, vaidins lemiamą vaidmenį įgyvendinant šiuos AI projektus realiame gamybiniame panaudojime – kad būtų išvengta šiukšlių patekimo į šiukšles. duomenų problemų“, – sakė Chandaras. „Mes pradedame pastebėti tokį duomenų ežerų namų naudotojų poreikį, nes jiems sunku padidinti duomenų apdorojimo mastelį ir užklausų poreikius kuriant šias naujesnes AI programas įmonės masto duomenimis.