Όταν το μοντέλο GPT-3 της κοινοπραξίας Open AI έκανε το ντεμπούτο του τον Μάϊο του 2020 ήταν κυριολεκτικά η τελευταία λέξη της τεχνολογίας.

Ικανό να παράγει κείμενο σχεδόν χωρίς καμία διαφορά από το ανθρώπινο, το μοντέλο GPT-3 αποτέλεσε το νέο στάνταρντ στη βαθιά εκμάθηση. Όμως από ότι φαίνεται, τουλάχιστον στον τομέα της βαθιάς εκμάθησης και της τεχνητής νοημοσύνης ένας χρόνος μπορεί να κάνει τη διαφορά. Ερευνητές λοιπόν από την Ακαδημία Τεχνητής Νοημοσύνης στο Πεκίνο ανακοίνωσαν πρόσφατα τη διάθεση του δικού τους generative μοντέλου βαθιάς εκμάθησης, του Wu Dao.

Πρόκειται για τεχνητή νοημοσύνη που είναι ικανή να κάνει όλα όσα και το GPT-3 και ακόμα περισσότερα. Αρχικά, να αναφέρουμε ότι το μοντέλο Wu Dao είναι τεράστιο, και έχει εκπαιδευτεί σε 1,75 τρισεκατομμύρια παραμέτρους που είναι 10 φορές περισσότερες από αυτές που έχει εκπαιδευτεί το μοντέλο GPT-3 της Open AI και κατά 150 δισεκατομμύρια παραμέτρους «μεγαλύτερο» από το Switch Transformers της Google.

Για να καταφέρουν να εκπαιδεύσουν το μοντέλο σε τόσες πολλές παραμέτρους και να γίνει σε σύντομο χρονικό διάστημα -το Wu Dao 2.0 έφτασε μόλις τρεις μήνες μετά την 1.0 έκδοση του μοντέλου- οι Κινέζοι ερευνητές ανέπτυξαν πρώτα ένα σύστημα εκπαίδευσης ανοικτού λογισμικού, το οποίο μοιάζει με το Mixture of Experts της Google και έχει την ονομασία FastMoE. Το σύστημα, το οποίο λειτουργεί σε PyTorch, κατέστησε δυνατή την εκπαίδευση του μοντέλου τόσο σε clusters υπερυπολογιστών όσο και σε συμβατικές GPUs. Από μόνη της αυτή η δυνατότητα έκανε το FastMoE σημαντικά πιο ευέλικτο από το σύστημα της Google καθώς δεν απαιτεί εξειδικευμένο hardware όπως συμβαίνει στην περίπτωση των  TPUs της Google.

Σε αντίθεση με άλλα μοντέλα βαθιάς εκμάθησης που μπορούν να εκτελέσουν μία εργασία – παραγωγή deep fakes, αναγνώριση προσώπων, συγγραφή κειμένων κ.ά.- το Wu Dao είναι multi-modal, δηλαδή θεωρητικά παρόμοια με την τεχνητή νοημοσύνη αναγνώρισης ρητορικής μίσους του Facebook ή το MUM της Google. Επομένως μπορεί να πραγματοποιεί πολλά διαφορετικά πράγματα όπως να εκτελεί λειτουργίες φυσικής γλώσσας, παραγωγή κειμένου, να αναγνωρίζει εικόνες ή να παράγει εικόνες κ.ά. Το μοντέλο μάλιστα δεν έχει μόνο εκπαιδευτεί στην συγγραφή ποιημάτων ή διηγημάτων στα Κινέζικα, αλλά μπορεί να παράγει φωτορεαλιστικές εικόνες με βάση περιγραφές σε φυσική γλώσσα και άλλα πολλά (π.χ. να εκτιμά την τρισδιάστατη δομή πρωτεϊνών κ.ά.).

«Ο δρόμος για την γενική τεχνητή νοημοσύνη είναι τα μεγάλα μοντέλα και οι μεγάλοι υπολογιστές» δήλωσε ο Dr. Zhang Hongjiang, Πρόεδρος της Ακαδημίας Τεχνητής Νοημοσύνης του Πεκίνου. «Αυτό που φτιάχνουμε είναι ένα εργοστάσιο ενέργειας για το μέλλον της τεχνητής νοημοσύνης… με μεγάλα δεδομένα, μεγάλη επεξεργαστική ισχύ και μεγάλα μοντέλα, μπορούμε να μεταμορφώσουμε τα δεδομένα για να τροφοδοτήσουμε τις εφαρμογές τεχνητής νοημοσύνης του μέλλοντος».

  • Like 1
  • Thanks 1