Laat opslag niet het belangrijkste knelpunt worden bij modeltraining

Er wordt gezegd dat technologiebedrijven op zoek zijn naar GPU's of op weg zijn om deze te verwerven. In april kocht Tesla-CEO Elon Musk 10.000 GPU's en verklaarde dat het bedrijf een grote hoeveelheid GPU's van NVIDIA zou blijven kopen. Aan de zakelijke kant doet het IT-personeel er ook alles aan om ervoor te zorgen dat GPU's voortdurend worden gebruikt om het rendement op de investering te maximaliseren. Sommige bedrijven zullen echter merken dat, hoewel het aantal GPU's toeneemt, de GPU-inactiviteit ernstiger wordt.

Als de geschiedenis ons iets heeft geleerd over high-performance computing (HPC), is het wel dat opslag en netwerken niet mogen worden opgeofferd ten koste van een te grote nadruk op berekeningen. Als opslag de gegevens niet efficiënt naar de rekeneenheden kan overbrengen, zelfs als u over de meeste GPU's ter wereld beschikt, zult u geen optimale efficiëntie bereiken.

Volgens Mike Matchett, analist bij Small World Big Data, kunnen kleinere modellen in het geheugen (RAM) worden uitgevoerd, waardoor er meer aandacht kan worden besteed aan berekeningen. Grotere modellen zoals ChatGPT met miljarden knooppunten kunnen vanwege de hoge kosten echter niet in het geheugen worden opgeslagen.

"Je kunt geen miljarden knooppunten in het geheugen passen, dus opslag wordt nog belangrijker", zegt Matchett. Helaas wordt gegevensopslag vaak over het hoofd gezien tijdens het planningsproces.

Over het algemeen zijn er, ongeacht de gebruikssituatie, vier gemeenschappelijke punten in het modeltrainingsproces:

1. Modeltraining
2. Inferentietoepassing
3. Gegevensopslag
4. Versneld computergebruik

Bij het maken en implementeren van modellen geven de meeste vereisten prioriteit aan snelle proof-of-concept (POC) of testomgevingen om modeltraining te initiëren, waarbij de behoeften aan gegevensopslag niet de grootste aandacht krijgen.

De uitdaging ligt echter in het feit dat training of gevolgtrekking maanden of zelfs jaren kan duren. Veel bedrijven schalen in deze periode hun modelgroottes snel op, en de infrastructuur moet worden uitgebreid om de groeiende modellen en datasets te kunnen huisvesten.

Uit onderzoek van Google naar miljoenen ML-trainingstaken blijkt dat gemiddeld 30% van de trainingstijd wordt besteed aan de invoergegevenspijplijn. Hoewel onderzoek uit het verleden zich heeft gericht op het optimaliseren van GPU's om de training te versnellen, blijven er nog steeds veel uitdagingen bestaan ​​bij het optimaliseren van verschillende delen van de datapijplijn. Als u over aanzienlijke rekenkracht beschikt, wordt het echte knelpunt hoe snel u gegevens in de berekeningen kunt invoeren om resultaten te krijgen.

De uitdagingen op het gebied van gegevensopslag en -beheer vereisen met name planning voor gegevensgroei, waardoor u voortdurend de waarde van gegevens kunt extraheren naarmate u verder komt, vooral wanneer u zich waagt aan meer geavanceerde gebruiksscenario's zoals deep learning en neurale netwerken, die hogere eisen stellen aan uw gegevens. opslag in termen van capaciteit, prestaties en schaalbaarheid.

In het bijzonder:

Schaalbaarheid
Machine learning vereist de verwerking van grote hoeveelheden gegevens, en naarmate de hoeveelheid gegevens toeneemt, verbetert ook de nauwkeurigheid van modellen. Dit betekent dat bedrijven elke dag meer gegevens moeten verzamelen en opslaan. Wanneer opslag niet kan worden geschaald, creëren data-intensieve workloads knelpunten, waardoor de prestaties worden beperkt en kostbare GPU-inactiviteit ontstaat.

Flexibiliteit
Flexibele ondersteuning voor meerdere protocollen (waaronder NFS, SMB, HTTP, FTP, HDFS en S3) is noodzakelijk om aan de behoeften van verschillende systemen te voldoen, in plaats van beperkt te blijven tot één type omgeving.

Latentie
I/O-latentie is van cruciaal belang voor het bouwen en gebruiken van modellen, omdat gegevens meerdere keren worden gelezen en herlezen. Het verminderen van de I/O-latentie kan de trainingstijd van modellen met dagen of maanden verkorten. Snellere modelontwikkeling vertaalt zich direct in grotere zakelijke voordelen.

Doorvoer
De doorvoersnelheid van opslagsystemen is cruciaal voor een efficiënte modeltraining. Bij trainingsprocessen zijn grote hoeveelheden gegevens betrokken, meestal in terabytes per uur.

Parallelle toegang
Om een ​​hoge doorvoer te bereiken, splitsen trainingsmodellen activiteiten op in meerdere parallelle taken. Dit betekent vaak dat machine learning-algoritmen tegelijkertijd toegang krijgen tot dezelfde bestanden vanuit meerdere processen (mogelijk op meerdere fysieke servers). Het opslagsysteem moet gelijktijdige eisen aankunnen zonder dat dit ten koste gaat van de prestaties.

Met zijn uitstekende mogelijkheden op het gebied van lage latentie, hoge doorvoer en grootschalige parallelle I/O is Dell PowerScale een ideale opslagaanvulling op GPU-versneld computergebruik. PowerScale vermindert effectief de tijd die nodig is voor analysemodellen die datasets van meerdere terabytes trainen en testen. In PowerScale all-flash-opslag wordt de bandbreedte 18 keer groter, waardoor I/O-knelpunten worden geëlimineerd, en kan deze worden toegevoegd aan bestaande Isilon-clusters om de waarde van grote hoeveelheden ongestructureerde gegevens te versnellen en te ontsluiten.

Bovendien bieden de multi-protocol toegangsmogelijkheden van PowerScale onbeperkte flexibiliteit bij het uitvoeren van werklasten, waardoor gegevens kunnen worden opgeslagen via het ene protocol en toegankelijk via een ander protocol. Concreet helpen de krachtige functies, flexibiliteit, schaalbaarheid en functionaliteit op ondernemingsniveau van het PowerScale-platform de volgende uitdagingen aan te pakken:

- Versnel innovatie tot 2,7 keer, waardoor de modeltrainingscyclus wordt verkort.

- Elimineer I/O-knelpunten en zorg voor snellere modeltraining en -validatie, verbeterde modelnauwkeurigheid, verbeterde datawetenschapsproductiviteit en gemaximaliseerd rendement op computerinvesteringen door gebruik te maken van hoogwaardige functies, hoge prestaties, gelijktijdigheid en schaalbaarheid. Verbeter de modelnauwkeurigheid met diepere datasets met een hogere resolutie door tot 119 PB aan effectieve opslagcapaciteit in één cluster te benutten.

- Realiseer implementatie op schaal door klein te beginnen en de rekenkracht en opslag onafhankelijk te schalen, waardoor robuuste opties voor gegevensbescherming en beveiliging worden geboden.

- Verbeter de datawetenschapsproductiviteit met interne analyses en vooraf gevalideerde oplossingen voor snellere implementaties met laag risico.

- Gebruikmaken van beproefde ontwerpen op basis van de beste technologieën, waaronder NVIDIA GPU-versnelling en referentie-architecturen met NVIDIA DGX-systemen. De hoge prestaties en gelijktijdigheid van PowerScale voldoen aan de vereisten voor opslagprestaties in elke fase van machine learning, van data-acquisitie en -voorbereiding tot modeltraining en gevolgtrekking. Samen met het OneFS-besturingssysteem kunnen alle knooppunten naadloos opereren binnen hetzelfde OneFS-gestuurde cluster, met functies op bedrijfsniveau zoals prestatiebeheer, gegevensbeheer, beveiliging en gegevensbescherming, waardoor een snellere voltooiing van modeltraining en validatie voor bedrijven mogelijk wordt.


Posttijd: 03 juli 2023