Laat opslag niet het belangrijkste knelpunt worden bij modeltraining

Er wordt gezegd dat technologiebedrijven op zoek zijn naar GPU's of op weg zijn om ze te verwerven.In april kocht Elon Musk, CEO van Tesla, 10.000 GPU's en verklaarde dat het bedrijf een grote hoeveelheid GPU's van NVIDIA zou blijven kopen.Aan de kant van de onderneming doet IT-personeel er ook alles aan om ervoor te zorgen dat GPU's constant worden gebruikt om het investeringsrendement te maximaliseren.Sommige bedrijven merken echter dat terwijl het aantal GPU's toeneemt, de GPU-luiheid ernstiger wordt.

Als de geschiedenis ons iets heeft geleerd over high-performance computing (HPC), dan is het wel dat opslag en netwerken niet mogen worden opgeofferd ten koste van te veel aandacht voor berekeningen.Als opslag niet efficiënt gegevens naar de rekeneenheden kan overbrengen, zelfs als u de meeste GPU's ter wereld heeft, bereikt u geen optimale efficiëntie.

Volgens Mike Matchett, een analist bij Small World Big Data, kunnen kleinere modellen in het geheugen (RAM) worden uitgevoerd, waardoor er meer aandacht is voor berekeningen.Grotere modellen zoals ChatGPT met miljarden knooppunten kunnen vanwege de hoge kosten echter niet in het geheugen worden opgeslagen.

"Je kunt geen miljarden knooppunten in het geheugen plaatsen, dus opslag wordt nog belangrijker", zegt Matchett.Helaas wordt dataopslag tijdens het planningsproces vaak over het hoofd gezien.

Over het algemeen zijn er, ongeacht de use case, vier gemeenschappelijke punten in het modeltrainingsproces:

1. Modeltraining
2. Inferentietoepassing
3. Gegevensopslag
4. Versneld computergebruik

Bij het maken en implementeren van modellen geven de meeste vereisten prioriteit aan snelle proof-of-concept (POC) of testomgevingen om modeltraining te starten, waarbij de behoeften aan gegevensopslag niet de hoogste prioriteit krijgen.

De uitdaging ligt echter in het feit dat training of inferentie-implementatie maanden of zelfs jaren kan duren.Veel bedrijven schalen hun modellen in deze periode snel op en de infrastructuur moet worden uitgebreid om de groeiende modellen en datasets te kunnen accommoderen.

Uit onderzoek van Google naar miljoenen ML-trainingsworkloads blijkt dat gemiddeld 30% van de trainingstijd wordt besteed aan de invoergegevenspijplijn.Hoewel eerder onderzoek zich heeft gericht op het optimaliseren van GPU's om training te versnellen, blijven er nog veel uitdagingen bestaan ​​bij het optimaliseren van verschillende delen van de datapijplijn.Wanneer u over aanzienlijke rekenkracht beschikt, wordt het echte knelpunt hoe snel u gegevens in de berekeningen kunt invoeren om resultaten te krijgen.

Met name de uitdagingen op het gebied van gegevensopslag en -beheer vereisen planning voor gegevensgroei, waardoor u continu de waarde van gegevens kunt extraheren naarmate u vordert, met name wanneer u zich waagt aan meer geavanceerde gebruiksscenario's zoals diep leren en neurale netwerken, die hogere eisen stellen aan opslag in termen van capaciteit, prestaties en schaalbaarheid.

In het bijzonder:

Schaalbaarheid
Machine learning vereist het verwerken van grote hoeveelheden gegevens, en naarmate het gegevensvolume toeneemt, verbetert ook de nauwkeurigheid van modellen.Dit betekent dat bedrijven elke dag meer gegevens moeten verzamelen en opslaan.Wanneer opslag niet kan worden geschaald, creëren data-intensieve workloads knelpunten, beperken ze de prestaties en resulteren ze in kostbare GPU-inactieve tijd.

Flexibiliteit
Flexibele ondersteuning voor meerdere protocollen (waaronder NFS, SMB, HTTP, FTP, HDFS en S3) is nodig om aan de behoeften van verschillende systemen te voldoen, in plaats van beperkt te zijn tot een enkel type omgeving.

Latentie
I/O-latentie is van cruciaal belang voor het bouwen en gebruiken van modellen, aangezien gegevens meerdere keren worden gelezen en herlezen.Door de I/O-latentie te verminderen, kan de trainingstijd van modellen met dagen of maanden worden verkort.Snellere modelontwikkeling vertaalt zich direct in grotere zakelijke voordelen.

Doorvoer
De doorvoer van opslagsystemen is cruciaal voor een efficiënte modeltraining.Trainingsprocessen omvatten grote hoeveelheden gegevens, meestal in terabytes per uur.

Parallelle toegang
Om een ​​hoge doorvoer te bereiken, splitsen trainingsmodellen activiteiten op in meerdere parallelle taken.Dit betekent vaak dat machine learning-algoritmen tegelijkertijd toegang hebben tot dezelfde bestanden vanuit meerdere processen (mogelijk op meerdere fysieke servers).Het opslagsysteem moet gelijktijdige eisen kunnen afhandelen zonder dat dit ten koste gaat van de prestaties.

Met zijn uitstekende mogelijkheden op het gebied van lage latentie, hoge doorvoer en grootschalige parallelle I/O, is Dell PowerScale een ideale opslagaanvulling op GPU-versneld computergebruik.PowerScale vermindert effectief de tijd die nodig is voor analysemodellen die datasets van meerdere terabytes trainen en testen.In PowerScale all-flash storage neemt de bandbreedte 18 keer toe, waardoor I/O-knelpunten worden geëlimineerd, en kan worden toegevoegd aan bestaande Isilon-clusters om de waarde van grote hoeveelheden ongestructureerde data te versnellen en te ontsluiten.

Bovendien bieden de multi-protocol toegangsmogelijkheden van PowerScale onbeperkte flexibiliteit voor het uitvoeren van workloads, waardoor gegevens kunnen worden opgeslagen met behulp van het ene protocol en toegankelijk zijn via een ander.Met name de krachtige functies, flexibiliteit, schaalbaarheid en enterprise-grade functionaliteit van het PowerScale-platform helpen bij het aanpakken van de volgende uitdagingen:

- Versnel innovatie tot 2,7 keer, waardoor de trainingscyclus van het model wordt verkort.

Elimineer I/O-knelpunten en bied snellere modeltraining en -validatie, verbeterde modelnauwkeurigheid, verbeterde datawetenschapsproductiviteit en maximaal rendement op computerinvesteringen door gebruik te maken van enterprise-grade functies, hoge prestaties, gelijktijdigheid en schaalbaarheid.Verbeter de modelnauwkeurigheid met diepere datasets met een hogere resolutie door gebruik te maken van maximaal 119 PB aan effectieve opslagcapaciteit in één cluster.

- Realiseer implementatie op schaal door klein te beginnen en onafhankelijk schaalbare rekenkracht en opslag, en robuuste gegevensbescherming en beveiligingsopties te bieden.

- Verbeter de datawetenschapsproductiviteit met in-place analyses en vooraf gevalideerde oplossingen voor snellere implementaties met een laag risico.

- Gebruikmaken van bewezen ontwerpen op basis van de beste technologieën, waaronder NVIDIA GPU-versnelling en referentie-architecturen met NVIDIA DGX-systemen.De hoge prestaties en gelijktijdigheid van PowerScale voldoen aan de vereisten voor opslagprestaties in elke fase van machine learning, van data-acquisitie en -voorbereiding tot modeltraining en inferentie.Samen met het OneFS-besturingssysteem kunnen alle knooppunten naadloos werken binnen hetzelfde OneFS-gestuurde cluster, met functies op ondernemingsniveau zoals prestatiebeheer, gegevensbeheer, beveiliging en gegevensbescherming, waardoor modeltraining en validatie voor bedrijven sneller kunnen worden afgerond.


Posttijd: 03-jul-2023