Google

Με το γλωσσικό μοντέλο PaLM 2, η Google θέλει να ανταγωνιστεί καλύτερα το GPT-4 της OpenAI

Νίκος Χατζής 14/05/2023 06:32 μμ

Από τις σημαντικότερες ανακοινώσεις στο Google I/O αυτή την εβδομάδα ήταν το PaLM 2: το πιο πρόσφατο γλωσσικό μοντέλο τεχνητής νοημοσύνης της Google που θα αποτελέσει ανταγωνιστή συστημάτων όπως το GPT-4 του OpenAI.

«Το γλωσσικό μοντέλο PaLM 2 είναι ισχυρότερο στη λογική και τη συλλογιστική, χάρη στην ευρεία εκπαίδευση στη λογική και τη συλλογιστική», δήλωσε ο διευθύνων σύμβουλος της Google, Sundar Pichai στη σκηνή του συνεδρίου I/O της εταιρείας. «Είναι επίσης εκπαιδευμένο σε πολύγλωσσα κείμενα που καλύπτουν πάνω από 100 γλώσσες».

Το PaLM 2 είναι πολύ καλύτερο σε μια σειρά από εργασίες που βασίζονται σε κείμενο, δήλωσε ο ανώτερος διευθυντής έρευνας της Google, Slav Petrov, στους δημοσιογράφους. «Είναι σημαντικά βελτιωμένο σε σύγκριση με το PaLM 1 [το οποίο ανακοινώθηκε τον Απρίλιο του 2022]», δήλωσε ο Petrov.

Ως παράδειγμα των πολυγλωσσικών δυνατοτήτων του, ο Petrov έδειξε πώς το PaLM 2 είναι σε θέση να κατανοεί ιδιωματισμούς σε διάφορες γλώσσες, δίνοντας το παράδειγμα της γερμανικής φράσης "Ich verstehe nur Bahnhof", η οποία μεταφράζεται κυριολεκτικά ως "καταλαβαίνω μόνο τον σιδηροδρομικό σταθμό", αλλά γίνεται καλύτερα κατανοητή ως "δεν καταλαβαίνω τι λες" ή, ως αγγλικό ιδίωμα, "it's all Greek to me".

Σε ένα ερευνητικό έγγραφο που περιγράφει τις δυνατότητες του PaLM 2, οι μηχανικοί της Google υποστήριξαν ότι η γλωσσική επάρκεια του συστήματος είναι "επαρκής για να διδάξει αυτή τη γλώσσα" και σημείωσαν ότι αυτό οφείλεται εν μέρει στη μεγαλύτερη επικράτηση μη αγγλικών κειμένων στα δεδομένα εκπαίδευσης.

Όπως και άλλα μεγάλα γλωσσικά μοντέλα, για τη δημιουργία των οποίων απαιτούνται τεράστιες ποσότητες δεδομένων, χρόνου και πόρων, το PaLM 2 δεν είναι τόσο ένα ενιαίο προϊόν όσο μια οικογένεια προϊόντων. Οι διαφορετικές του εκδόσεις αναμένεται να αναπτυχθούν σε καταναλωτικά και επιχειρηματικά περιβάλλοντα. Το σύστημα είναι διαθέσιμο σε τέσσερα μεγέθη, με τα ονόματα Gecko, Otter, Bison και Unicorn, από το μικρότερο προς το μεγαλύτερο, και έχει ρυθμιστεί με βάση δεδομένα συγκεκριμένων τομέων, ώστε να εκτελεί ορισμένες εργασίες για εταιρικούς πελάτες.

Σκεφτείτε αυτές τις προσαρμογές σαν να παίρνετε ένα βασικό σασί φορτηγού και να προσθέτετε έναν νέο κινητήρα ή έναν μπροστινό προφυλακτήρα για να εκτελεί ορισμένες εργασίες ή να λειτουργεί καλύτερα σε συγκεκριμένο έδαφος. Υπάρχει ήδη μια έκδοση του PaLM που εκπαιδεύεται σε δεδομένα υγείας (Med-PaLM 2), η οποία, σύμφωνα με την Google, μπορεί να απαντήσει σε ερωτήσεις παρόμοιες με αυτές που απαντώνται στις εξετάσεις ιατρικών αδειών των ΗΠΑ σε επίπεδο "ειδικού". Μια άλλη που εκπαιδεύεται σε δεδομένα κυβερνοασφάλειας (Sec-PaLM 2), η οποία μπορεί να "εξηγήσει τη συμπεριφορά πιθανών κακόβουλων σεναρίων και να βοηθήσει στον εντοπισμό απειλών στον κώδικα", δήλωσε ο Petrov. Και τα δύο αυτά μοντέλα θα είναι διαθέσιμα μέσω του Google Cloud, αρχικά σε επιλεγμένους πελάτες.

Σε ότι αφορά την ίδια τη Google, το PaLM 2 βρίσκεται πίσω ήδη από 25 λειτουργίες και υπηρεσίες της εταιρείας συμπεριλαμβανομένου του Bard, του πειραματικού chatbot της εταιρείας. Οι ενημερώσεις που διατίθενται μέσω του Bard περιλαμβάνουν βελτιωμένες δυνατότητες coding και μεγαλύτερη υποστήριξη γλωσσών. Χρησιμοποιείται επίσης για AI λειτουργίες στις online εφαρμογές του Google Workspace, όπως τα Docs, Slides και Sheets.

Ειδικότερα, η Google αναφέρει ότι η ελαφρύτερη έκδοση του PaLM 2, Gecko, είναι αρκετά μικρή για να τρέχει σε κινητά τηλέφωνα, επεξεργαζόμενη 20 tokens ανά δευτερόλεπτο - που ισοδυναμεί περίπου με 16 ή 17 λέξεις. Η Google δεν ανέφερε ποιο hardware χρησιμοποιήθηκε για τη δοκιμή αυτού του μοντέλου, παρά μόνο ότι εκτελείται "στα πιο πρόσφατα smartphones". Παρ' όλα αυτά, η σμίκρυνση τέτοιων γλωσσικών μοντέλων είναι σημαντική. Τέτοια συστήματα κοστίζουν ακριβά για να εκτελούνται στο cloud και η δυνατότητα χρήσης τους σε τοπικό επίπεδο θα είχε και άλλα οφέλη, όπως τη βελτίωση της ιδιωτικότητας. Το πρόβλημα βεβαίως είναι ότι οι μικρότερες εκδόσεις των γλωσσικών μοντέλων είναι αναπόφευκτα λιγότερο ικανές από τα μεγαλύτερα αδέρφια τους.

Με το PaLM 2, η Google θα ελπίζει να καλύψει το "χάσμα τεχνητής νοημοσύνης" μεταξύ της εταιρείας και ανταγωνιστών όπως η Microsoft, η οποία έχει προωθήσει επιθετικά γλωσσικά εργαλεία τεχνητής νοημοσύνης στη σουίτα λογισμικού Office. Η Microsoft προσφέρει πλέον λειτουργίες AI που βοηθούν στην περίληψη εγγράφων, στη σύνταξη μηνυμάτων ηλεκτρονικού ταχυδρομείου, στη δημιουργία διαφανειών για παρουσιάσεις και πολλά άλλα. Η Google θα πρέπει να παρουσιάσει ισότιμες τουλάχιστον λειτουργίες ή να διακινδυνεύσει να θεωρηθεί ότι αργεί να εφαρμόσει την έρευνά της για την τεχνητή νοημοσύνη.

Παρόλο που το PaLM 2 είναι σίγουρα ένα βήμα προς τα εμπρός για το έργο της Google σχετικά με τα γλωσσικά μοντέλα AI, πάσχει από προβλήματα και προκλήσεις που είναι κοινά για την τεχνολογία ευρύτερα.

Για παράδειγμα, ορισμένοι ειδικοί αρχίζουν να αμφισβητούν τη νομιμότητα των δεδομένων εκπαίδευσης που χρησιμοποιούνται για τη δημιουργία γλωσσικών μοντέλων. Τα δεδομένα αυτά προέρχονται συνήθως από το διαδίκτυο και συχνά περιλαμβάνουν κείμενα που προστατεύονται από πνευματικά δικαιώματα και πειρατικά ηλεκτρονικά βιβλία. Οι εταιρείες τεχνολογίας που δημιουργούν αυτά τα μοντέλα αρνούνται να απαντήσουν σε ερωτήσεις σχετικά με το από πού αντλούν τα δεδομένα εκπαίδευσης. Η Google συνέχισε αυτή την παράδοση στην περιγραφή του PaLM 2, σημειώνοντας μόνο ότι το κεντρικό μέρος εκπαίδευσης του συστήματος αποτελείται από "ένα ποικίλο σύνολο πηγών: έγγραφα του διαδικτύου, βιβλία, κώδικας, μαθηματικά και δεδομένα συνομιλιών", χωρίς να δώσει περισσότερες λεπτομέρειες.

Υπάρχουν επίσης τα γνωστά προβλήματα στα αποτελέσματα των γλωσσικών μοντέλων AI όπως οι "ψευδαισθήσεις" ή η τάση αυτών των συστημάτων να επινοούν απλώς πληροφορίες. Μιλώντας στο The Verge, ο αντιπρόεδρος έρευνας της Google, Zoubin Ghahramani, αναφέρει ότι, από αυτή την άποψη, το PaLM 2 είναι μια βελτίωση σε σχέση με τα προηγούμενα μοντέλα «με την έννοια ότι καταβάλλουμε τεράστια προσπάθεια για τη συνεχή βελτίωση των δεικτών απόδοσης και ευστοχίας». Την ίδια ώρα σημειώνει ότι ο τομέας στο σύνολό του «έχει ακόμα δρόμο μπροστά του» στην καταπολέμηση των ψευδών πληροφοριών που παράγονται από την τεχνητή νοημοσύνη.