Η Meta ανακοίνωσε την επόμενη γενιά του επιταχυντή Meta Training & Inference Accelerator (MTIA), ο οποίος σχεδιάστηκε για την εκπαίδευση της συλλογιστικής και του συμπερασμού μοντέλων τεχνητής νοημοσύνης σε μεγάλη κλίμακα.

Ο νέος επιταχυντής MTIA αποτελεί τη 2η γενιά του προσαρμοσμένου «πυριτίου» τεχνητής νοημοσύνης της Meta και κατασκευάζεται με μέθοδο 5 nm σε εργοστάσια της TSMC. Λειτουργώντας στη συχνότητα των 1,35 GHz, ο νέος επιταχυντής της Meta λαμβάνει ώθηση ισχύος στα 90W (TDP) ανά συσκευασία (package) όταν η προηγούμενη γενιά σχεδιασμού είχε μόλις 25W TDP.

Όπως εξηγεί η Meta στην ανακοίνωση της, ο υπολογισμός βασικών υποπρογραμμάτων γραμμικής άλγεβρας (BLAS) αποτελεί ένα από τα σημεία που διαπρέπει ο νέος της επιταχυντής, που περιλαμβάνει πολλαπλασιασμό πινάκων και υπολογισμό διανυσμάτων/SIMD.

G0TgodHMO9xSLCL6.jpg

Στην επεξεργασία πινάκων GEMM, κάθε επιταχυντής μπορεί να επεξεργαστεί έως 708 TeraFLOPS σε INT8 (πιθανώς να εννοείται FP8 στις προδιαγραφές) με αραιότητα (sparsity), 354 TeraFLOPS χωρίς αραιότητα, 354 TeraFLOPS σε FP16/BF16 με αραιότητα και 177 TeraFLOPS χωρίς αραιότητα.

Στην κλασική επεξεργασία και τη διανυσματική υπολογιστική είναι ελαφρώς πιο αργός σε σχέση με τη πρώτη γενιά επιδεικνύοντας 11,06 TeraFLOPS σε INT8 (FP8), 5,53 TeraFLOPS σε FP16/BF16 και 2,76 TFLOPS σε FP32 μονής ακρίβειας.

HFh0InNF1UfSGpJl.jpg

Ο επιταχυντής MTIA σχεδιάστηκε ειδικά για την εκτέλεση εκπαίδευσης ΑΙ και συμπερασμού υπό το πλαίσιο AI PyTorch της Meta με ένα ανοικτού κώδικα backend Triton να παράγει κώδικα μεταγλώττισης για βέλτιστη απόδοση.

Η Meta χρησιμοποιεί το εξειδικευμένο αυτό hardware για την εκπαίδευση όλων των μοντέλων Llama και καθώς το Llama3 βρίσκεται προ των πυλών ενδεχομένως η εκπαίδευση να πραγματοποιηθεί με τη χρήση των συγκεκριμένων chips που ανακοινώθηκαν.

g4C7sTpTPhY1PGIW.jpg

Η Meta τοποθετεί δύο τέτοιους επιταχυντές MTIA σε μια πλακέτα και τους συνδυάζει με 128 GB μνήμης LPDDR5. Η πλακέτα συνδέεται μέσω PCIe Gen 5 σε ένα σύστημα που μπορεί να περιλαμβάνει έως και 12 τέτοιες πλακέτες σε πυκνή διάταξη μεταξύ τους. Στη συνέχεια, 72 τέτοιες πλακέτες τοποθετούνται σε ένα rack, το οποίο περιλαμβάνει συνολικά 144 επιταχυντές MTIA για συνολικά 101,95 PetaFLOPS απόδοσης (στην περίπτωση που δεν έχουμε γραμμική κλιμάκωση, η απόδοση ενδέχεται να βρίσκεται λίγο κάτω από τα 100 PetaFLOPS ανά rack).

lwqKZeNAchHeqZ3w.jpg