Το μοντέλο GPT-4.5 της OpenAI περνά το τεστ Turing με εντυπωσιακά αποτελέσματα

Axlmon · 6 Απριλίου

Ένα από τα κορυφαία μοντέλα μεγάλης γλωσσικής τεχνητής νοημοσύνης πέρασε το τεστ Turing, ένα μακροχρόνιο βαρόμετρο για την ανθρωπόμορφη νοημοσύνη.

Σύμφωνα με νέα προδημοσιευμένη μελέτη που αναμένει αξιολόγηση από ομότιμους, ερευνητές αναφέρουν ότι σε μια τριμερή έκδοση του τεστ Turing, όπου οι συμμετέχοντες συνομιλούν ταυτόχρονα με έναν άνθρωπο και μια τεχνητή νοημοσύνη και στη συνέχεια αξιολογούν ποιος είναι ποιος, το μοντέλο GPT-4.5 της OpenAI θεωρήθηκε άνθρωπος στο 73% των περιπτώσεων όταν είχε οδηγίες να υιοθετήσει συγκεκριμένο χαρακτήρα. Το ποσοστό αυτό είναι σημαντικά υψηλότερο από την τυχαία πιθανότητα του 50%, υποδηλώνοντας ότι το τεστ Turing έχει ξεπεραστεί κατά πολύ.

Η έρευνα αξιολόγησε επίσης το μοντέλο LLama 3.1-405B της Meta, το μοντέλο GPT-4o της OpenAI και ένα πρώιμο chatbot γνωστό ως ELIZA που αναπτύχθηκε αρκετά χρόνια πριν.

"Οι άνθρωποι δεν ήταν καλύτεροι από την τύχη στο να διακρίνουν ανθρώπους από το GPT-4.5 και το LLaMa (με την προτροπή προσωπικότητας)", έγραψε ο επικεφαλής συγγραφέας Cameron Jones, ερευνητής στο Εργαστήριο Γλώσσας και Γνώσης του UC San Diego, σε ανάρτηση στο X σχετικά με την εργασία. "Και το GPT 4.5 κρίθηκε ως άνθρωπος σημαντικά συχνότερα από τους πραγματικούς ανθρώπους!"

Το τεστ Turing οφείλει την ονομασία του στον Βρετανό μαθηματικό και επιστήμονα υπολογιστών Alan Turing. Το 1950, ο Turing πρότεινε μια μέθοδο για την αξιολόγηση της νοημοσύνης μιας μηχανής, η οποία περιλάμβανε συνομιλίες κειμένου μεταξύ ενός ανθρώπου-αξιολογητή και δύο συνομιλητών που βρίσκονταν εκτός οπτικού πεδίου: μιας μηχανής και ενός άλλου ανθρώπου. Ο ίδιος ο Turing αναφερόταν σε αυτή τη διαδικασία ως "παιχνίδι μίμησης".

Στην πρόσφατη μελέτη, οι ερευνητές διεξήγαγαν το περίφημο πείραμα σε μια διαδικτυακή πλατφόρμα. Για οκτώ γύρους, ένα δείγμα σχεδόν 300 συμμετεχόντων τοποθετήθηκε τυχαία είτε ως ανακριτής είτε ως ένας από τους δύο "μάρτυρες" που ανακρίνονται, με τον άλλο "μάρτυρα" να είναι ένα chatbot.

Ένα βασικό σημείο εδώ είναι πώς προγραμματίστηκαν τα μοντέλα AI. Ένας τύπος ήταν η προτροπή "χωρίς προσωπικότητα", όπου η AI έλαβε μόνο βασικές οδηγίες. Για την προτροπή "προσωπικότητας", από την άλλη πλευρά, η AI ενημερώθηκε συγκεκριμένα να υιοθετήσει συγκεκριμένο χαρακτήρα, όπως ένα νεαρό άτομο με γνώσεις για το διαδίκτυο και τον πολιτισμό.

Οι οδηγίες αυτές έκαναν τεράστια διαφορά. Χωρίς προτροπή προσωπικότητας, το GPT-4.5 πέτυχε συνολικό ποσοστό επιτυχίας μόλις 36%, σημαντικά χαμηλότερο από το 73% που θριάμβευσε στο Turing. Ως βάση, το GPT-4o, που τροφοδοτεί την τρέχουσα έκδοση του ChatGPT και έλαβε μόνο προτροπές χωρίς προσωπικότητα, πέτυχε ένα ακόμη λιγότερο πειστικό 21%. (Κάπως, το αρχαίο ELIZA ξεπέρασε οριακά το κορυφαίο μοντέλο της OpenAI με ποσοστό επιτυχίας 23%.)

Ωστόσο, όπως επισημαίνει ο Jones, τα αποτελέσματα δεν σημαίνουν απαραίτητα ότι τα LLMs είναι ευφυή όπως οι άνθρωποι. "Νομίζω ότι είναι μια πολύ περίπλοκη ερώτηση...", έγραψε ο Jones στο Twitter. "Αλλά γενικά πιστεύω ότι αυτό θα πρέπει να αξιολογηθεί ως ένα από τα πολλά πρόσθετα στοιχεία για το είδος της νοημοσύνης που εμφανίζουν τα LLMs."

"Πιστεύω ότι τα αποτελέσματα παρέχουν περισσότερες αποδείξεις ότι τα LLMs θα μπορούσαν να υποκαταστήσουν τους ανθρώπους σε σύντομες αλληλεπιδράσεις χωρίς κανείς να μπορεί να το καταλάβει", πρόσθεσε. "Αυτό θα μπορούσε δυνητικά να οδηγήσει σε αυτοματοποίηση θέσεων εργασίας, βελτιωμένες επιθέσεις κοινωνικής μηχανικής και γενικότερη κοινωνική αναστάτωση."

Ο Jones κλείνει τονίζοντας ότι το τεστ Turing δεν βάζει μόνο τις μηχανές κάτω από το μικροσκόπιο - αντικατοπτρίζει επίσης τις συνεχώς εξελισσόμενες αντιλήψεις των ανθρώπων για την τεχνολογία. Έτσι τα αποτελέσματα δεν είναι στατικά: ίσως καθώς το κοινό εξοικειώνεται περισσότερο με την αλληλεπίδραση με την τεχνητή νοημοσύνη, θα γίνει καλύτερο και στον εντοπισμό της.

Διαβάστε ολόκληρο το άρθρο

Diavolos666 · 6 Απριλίου

Άντε να το δούμε και στο πληρωμένο πακέτο να το τεστάρουμε. Το πληρωμένο 4ο είναι "αρκετά" καλό για ορισμένες δουλειές.

bazzil · 6 Απριλίου

Να και κάτι ενδιαφέρον. Λογικά όσο αλληλοεπιδρά τόσο πιο σωστές απαντήσεις θα δίνει εφόσον και τα δεδομένα είναι σωστά. Ισως αργότερα να παράγουν μοντέλα που αποκτούν εξειδίκευση σε συγκεκριμένους τομείς

NiKoSmile · 6 Απριλίου

Βάζω στοίχημα ότι πάνω από τις 500 γραμμές κώδικα θα αρχίσει να πέφτει σε λούπες 🤭. Αν δεν μπορέσει τουλάχιστον να μου γράψει 50.000 γραμμές κώδικα μια και έξω σε κάνα δίωρο που να δουλεύει στην πένα τι να το κάνω το τεστ Turing; 😶‍🌫️

ramarg · 6 Απριλίου

Άντε να φτάσει με το καλό η συνδρομή στα 500€/μήνα για να την αγοράζουν οι ''λίγοι'.
Αρκετά με τις φθηνές συνδρομές (έτσι κι αλλιώς δεν προσφέρουν τίποτα πιο ουσιώδες από το free).

Επεξ/σία 6 Απριλίου από ramarg

alexpap · 6 Απριλίου

Λογικά σ' αυτή την έκδοση θα του 'χουν βάλει Pentium 4.

Predatorkill · 6 Απριλίου

τους εχει παρει τα σωβρακα το gemini 2.5

electrodemon · 6 Απριλίου

2 ώρες πριν, Diavolos666 είπε

Άντε να το δούμε και στο πληρωμένο πακέτο να το τεστάρουμε. Το πληρωμένο 4ο είναι "αρκετά" καλό για ορισμένες δουλειές.

Από προσωπική εμπειρία, όταν κάποιος ξέρει τι περιμένει να πάρει ως αποτέλεσμα θα απογοητευτεί. Αν ο χρήστης απλά ψάχνει να αντλήσει πληροφορίες την εγκυρότητα το οποίων δεν σκοπεύει να επαληθεύσει, καλή είναι. Νομίζω πως η λέξη "νοημοσύνη" είναι πολύ αισιόδοξη..

lexotamilf · 6 Απριλίου

Call center, η πρώτη δουλειά που θα εξαφανιστεί.

mants118 · 6 Απριλίου

Στην ερώτηση μου όμως "σπινιάρει η γάτα στο γιαούρτι;" ούτε που ήξερε τι να μου απαντήσει... Οπότε τι μου λέτε για έη άη και τέτοια...

😛

freegr · 7 Απριλίου

Η πρόβλεψη ότι σε λιγότερα από 10 χρόνια η τεχνητή νοημοσύνη θα κυριαρχήσει δεν είναι μακριά. Το ερώτημα είναι σμ θα ζούμε ως τότε

magicnumbers · 7 Απριλίου

5 ώρες πριν, ramarg είπε

Άντε να φτάσει με το καλό η συνδρομή στα 500€/μήνα για να την αγοράζουν οι ''λίγοι'.
Αρκετά με τις φθηνές συνδρομές (έτσι κι αλλιώς δεν προσφέρουν τίποτα πιο ουσιώδες από το free).

Η συνδρομή του θαναι στο sweetspot για καιρό όσο "μαθαίνει". Μόλις φτάσει σε ένα επίπεδο να μη διαφέρει από άνθρωπο θα βγάλουν κ εξατομικευμένα άβαταρ σε ειδικά πακέτα νοημοσύνης για κάθε ειδικότερη δουλειά πχ τηλεφωνητή υποδοχή,η βοηθού ερευνητή ιατρικής.Σίγουρα υπάρχει potential για μια εταιρεία πχ αντί υπαλλήλων.

Σταδιακα ότι δουλειά γίνεται με πληκτρολόγιο αντίο. Σε 30 χρόνια θαναι ιστορικό αντικείμενο -μαζί με τις θέσεις που θα σβήσει- όπως τα πρώτα τηλέφωνα με κουδούνια κ το σίδερο σιδερώματος με κάρβουνα.

-Πωω αλήθεια παππού κάποτε πάταγατε κουμπιά για να μιλήσετε στους υπολογιστές;;

-Ναι κ είχαμε κόσμο που ήξερε τη μυστική γλώσσα τους για να συνεννοηθούμε.

kazantzidis · 7 Απριλίου

12 ώρες πριν, Diavolos666 είπε

Άντε να το δούμε και στο πληρωμένο πακέτο να το τεστάρουμε. Το πληρωμένο 4ο είναι "αρκετά" καλό για ορισμένες δουλειές.

τι εννοεις να το δουμε; υπαρχει εδω και πολυ καιρο...

manolis940 · 7 Απριλίου

Χθες έκανα μία ερώτηση και στο άσχετο ξεκίνησε να μου λέει τον καιρό. Η συζήτηση μας ήταν λοιπόν:

- Τι κάνεις Γιάννη;

-Πέρα βρέχει

Είμαι 100% σίγουρος ότι το περνάει το turing test 😂

doubleh · 7 Απριλίου

And 4.5 was even judged to be human significantly more often than actual humans!"

Νομίζω αυτό κάτι λέει για το τεστ το ίδιο ή το πώς πραγματοποιήθηκε.

Από marketing καλά πάει το ΑΙ όμως.

Σύνδεση

Το μοντέλο GPT-4.5 της OpenAI περνά το τεστ Turing με εντυπωσιακά αποτελέσματα

Προτεινόμενες αναρτήσεις

Axlmon

Diavolos666

bazzil

NiKoSmile

ramarg

alexpap

Predatorkill

electrodemon

lexotamilf

mants118

freegr

magicnumbers

kazantzidis

manolis940

doubleh

Δημιουργήστε ένα λογαριασμό ή συνδεθείτε για να σχολιάσετε

Δημιουργία λογαριασμού

Σύνδεση

Σύνδεση