Προς το περιεχόμενο

Προτεινόμενες αναρτήσεις

Δημοσ.

Ένα από τα κορυφαία μοντέλα μεγάλης γλωσσικής τεχνητής νοημοσύνης πέρασε το τεστ Turing, ένα μακροχρόνιο βαρόμετρο για την ανθρωπόμορφη νοημοσύνη.

Σύμφωνα με νέα προδημοσιευμένη μελέτη που αναμένει αξιολόγηση από ομότιμους, ερευνητές αναφέρουν ότι σε μια τριμερή έκδοση του τεστ Turing, όπου οι συμμετέχοντες συνομιλούν ταυτόχρονα με έναν άνθρωπο και μια τεχνητή νοημοσύνη και στη συνέχεια αξιολογούν ποιος είναι ποιος, το μοντέλο GPT-4.5 της OpenAI θεωρήθηκε άνθρωπος στο 73% των περιπτώσεων όταν είχε οδηγίες να υιοθετήσει συγκεκριμένο χαρακτήρα. Το ποσοστό αυτό είναι σημαντικά υψηλότερο από την τυχαία πιθανότητα του 50%, υποδηλώνοντας ότι το τεστ Turing έχει ξεπεραστεί κατά πολύ.

Η έρευνα αξιολόγησε επίσης το μοντέλο LLama 3.1-405B της Meta, το μοντέλο GPT-4o της OpenAI και ένα πρώιμο chatbot γνωστό ως ELIZA που αναπτύχθηκε αρκετά χρόνια πριν.

"Οι άνθρωποι δεν ήταν καλύτεροι από την τύχη στο να διακρίνουν ανθρώπους από το GPT-4.5 και το LLaMa (με την προτροπή προσωπικότητας)", έγραψε ο επικεφαλής συγγραφέας Cameron Jones, ερευνητής στο Εργαστήριο Γλώσσας και Γνώσης του UC San Diego, σε ανάρτηση στο X σχετικά με την εργασία. "Και το GPT 4.5 κρίθηκε ως άνθρωπος σημαντικά συχνότερα από τους πραγματικούς ανθρώπους!"

Το τεστ Turing οφείλει την ονομασία του στον Βρετανό μαθηματικό και επιστήμονα υπολογιστών Alan Turing. Το 1950, ο Turing πρότεινε μια μέθοδο για την αξιολόγηση της νοημοσύνης μιας μηχανής, η οποία περιλάμβανε συνομιλίες κειμένου μεταξύ ενός ανθρώπου-αξιολογητή και δύο συνομιλητών που βρίσκονταν εκτός οπτικού πεδίου: μιας μηχανής και ενός άλλου ανθρώπου. Ο ίδιος ο Turing αναφερόταν σε αυτή τη διαδικασία ως "παιχνίδι μίμησης".

Στην πρόσφατη μελέτη, οι ερευνητές διεξήγαγαν το περίφημο πείραμα σε μια διαδικτυακή πλατφόρμα. Για οκτώ γύρους, ένα δείγμα σχεδόν 300 συμμετεχόντων τοποθετήθηκε τυχαία είτε ως ανακριτής είτε ως ένας από τους δύο "μάρτυρες" που ανακρίνονται, με τον άλλο "μάρτυρα" να είναι ένα chatbot.

Ένα βασικό σημείο εδώ είναι πώς προγραμματίστηκαν τα μοντέλα AI. Ένας τύπος ήταν η προτροπή "χωρίς προσωπικότητα", όπου η AI έλαβε μόνο βασικές οδηγίες. Για την προτροπή "προσωπικότητας", από την άλλη πλευρά, η AI ενημερώθηκε συγκεκριμένα να υιοθετήσει συγκεκριμένο χαρακτήρα, όπως ένα νεαρό άτομο με γνώσεις για το διαδίκτυο και τον πολιτισμό.

Οι οδηγίες αυτές έκαναν τεράστια διαφορά. Χωρίς προτροπή προσωπικότητας, το GPT-4.5 πέτυχε συνολικό ποσοστό επιτυχίας μόλις 36%, σημαντικά χαμηλότερο από το 73% που θριάμβευσε στο Turing. Ως βάση, το GPT-4o, που τροφοδοτεί την τρέχουσα έκδοση του ChatGPT και έλαβε μόνο προτροπές χωρίς προσωπικότητα, πέτυχε ένα ακόμη λιγότερο πειστικό 21%. (Κάπως, το αρχαίο ELIZA ξεπέρασε οριακά το κορυφαίο μοντέλο της OpenAI με ποσοστό επιτυχίας 23%.)

Ωστόσο, όπως επισημαίνει ο Jones, τα αποτελέσματα δεν σημαίνουν απαραίτητα ότι τα LLMs είναι ευφυή όπως οι άνθρωποι. "Νομίζω ότι είναι μια πολύ περίπλοκη ερώτηση...", έγραψε ο Jones στο Twitter. "Αλλά γενικά πιστεύω ότι αυτό θα πρέπει να αξιολογηθεί ως ένα από τα πολλά πρόσθετα στοιχεία για το είδος της νοημοσύνης που εμφανίζουν τα LLMs."

"Πιστεύω ότι τα αποτελέσματα παρέχουν περισσότερες αποδείξεις ότι τα LLMs θα μπορούσαν να υποκαταστήσουν τους ανθρώπους σε σύντομες αλληλεπιδράσεις χωρίς κανείς να μπορεί να το καταλάβει", πρόσθεσε. "Αυτό θα μπορούσε δυνητικά να οδηγήσει σε αυτοματοποίηση θέσεων εργασίας, βελτιωμένες επιθέσεις κοινωνικής μηχανικής και γενικότερη κοινωνική αναστάτωση."

Ο Jones κλείνει τονίζοντας ότι το τεστ Turing δεν βάζει μόνο τις μηχανές κάτω από το μικροσκόπιο - αντικατοπτρίζει επίσης τις συνεχώς εξελισσόμενες αντιλήψεις των ανθρώπων για την τεχνολογία. Έτσι τα αποτελέσματα δεν είναι στατικά: ίσως καθώς το κοινό εξοικειώνεται περισσότερο με την αλληλεπίδραση με την τεχνητή νοημοσύνη, θα γίνει καλύτερο και στον εντοπισμό της.


Διαβάστε ολόκληρο το άρθρο

Δημοσ.

Άντε να το δούμε και στο πληρωμένο πακέτο να το τεστάρουμε. Το πληρωμένο 4ο είναι "αρκετά" καλό για ορισμένες δουλειές.

Δημοσ.

Να και κάτι ενδιαφέρον.  Λογικά όσο αλληλοεπιδρά τόσο πιο σωστές απαντήσεις θα δίνει εφόσον και τα δεδομένα είναι σωστά. Ισως αργότερα να παράγουν μοντέλα που αποκτούν εξειδίκευση  σε συγκεκριμένους τομείς 

Δημοσ.

Βάζω στοίχημα ότι πάνω από τις 500 γραμμές κώδικα θα αρχίσει να πέφτει σε λούπες 🤭. Αν δεν μπορέσει τουλάχιστον να μου γράψει 50.000 γραμμές κώδικα μια και έξω σε κάνα δίωρο που να δουλεύει στην πένα τι να το κάνω το τεστ Turing; 😶‍🌫️

  • Like 1
  • Haha 2
Δημοσ. (επεξεργασμένο)

Άντε να φτάσει με το καλό η συνδρομή στα 500€/μήνα για να την αγοράζουν οι ''λίγοι'.
Αρκετά με τις φθηνές συνδρομές (έτσι κι αλλιώς δεν προσφέρουν τίποτα πιο ουσιώδες από το free). 
 

Επεξ/σία από ramarg
  • Like 1
  • Haha 2
Δημοσ.
2 ώρες πριν, Diavolos666 είπε

Άντε να το δούμε και στο πληρωμένο πακέτο να το τεστάρουμε. Το πληρωμένο 4ο είναι "αρκετά" καλό για ορισμένες δουλειές.

Από προσωπική εμπειρία, όταν κάποιος ξέρει τι περιμένει να πάρει ως αποτέλεσμα θα απογοητευτεί. Αν ο χρήστης απλά ψάχνει να αντλήσει πληροφορίες την εγκυρότητα το οποίων δεν σκοπεύει να επαληθεύσει, καλή είναι. Νομίζω πως η λέξη "νοημοσύνη" είναι πολύ αισιόδοξη..

  • Like 1
Δημοσ.

Στην ερώτηση μου όμως "σπινιάρει η γάτα στο γιαούρτι;" ούτε που ήξερε τι να μου απαντήσει... Οπότε τι μου λέτε για έη άη και τέτοια... 

😛

  • Haha 2
Δημοσ.

Η πρόβλεψη ότι σε λιγότερα από 10 χρόνια η τεχνητή νοημοσύνη θα κυριαρχήσει δεν είναι μακριά. Το ερώτημα είναι σμ θα ζούμε ως τότε 

Δημοσ.
5 ώρες πριν, ramarg είπε

Άντε να φτάσει με το καλό η συνδρομή στα 500€/μήνα για να την αγοράζουν οι ''λίγοι'.
Αρκετά με τις φθηνές συνδρομές (έτσι κι αλλιώς δεν προσφέρουν τίποτα πιο ουσιώδες από το free). 
 

Η συνδρομή του θαναι στο sweetspot για καιρό όσο "μαθαίνει". Μόλις φτάσει σε ένα επίπεδο να μη διαφέρει από άνθρωπο θα βγάλουν κ εξατομικευμένα άβαταρ σε ειδικά πακέτα νοημοσύνης για κάθε ειδικότερη δουλειά πχ τηλεφωνητή υποδοχή,η βοηθού ερευνητή ιατρικής.Σίγουρα υπάρχει potential για μια εταιρεία πχ αντί υπαλλήλων.

Σταδιακα ότι δουλειά γίνεται με πληκτρολόγιο αντίο. Σε 30 χρόνια θαναι ιστορικό αντικείμενο -μαζί με τις θέσεις που θα σβήσει- όπως τα πρώτα τηλέφωνα με κουδούνια κ το σίδερο σιδερώματος με κάρβουνα.

-Πωω αλήθεια παππού κάποτε πάταγατε κουμπιά για να μιλήσετε στους υπολογιστές;;

-Ναι κ είχαμε κόσμο που ήξερε τη μυστική γλώσσα τους για να συνεννοηθούμε.

  • Like 2
Δημοσ.
12 ώρες πριν, Diavolos666 είπε

Άντε να το δούμε και στο πληρωμένο πακέτο να το τεστάρουμε. Το πληρωμένο 4ο είναι "αρκετά" καλό για ορισμένες δουλειές.

τι εννοεις να το δουμε; υπαρχει εδω και πολυ καιρο... 

Δημοσ.

Χθες έκανα μία ερώτηση και στο άσχετο ξεκίνησε να μου λέει τον καιρό. Η συζήτηση μας ήταν λοιπόν:

- Τι κάνεις Γιάννη;

-Πέρα βρέχει

Είμαι 100% σίγουρος ότι το περνάει το turing test 😂

  • Haha 1
Δημοσ.

And 4.5 was even judged to be human significantly more often than actual humans!"

Νομίζω αυτό κάτι λέει για το τεστ το ίδιο ή το πώς πραγματοποιήθηκε.

Από marketing καλά πάει το ΑΙ όμως.

Δημιουργήστε ένα λογαριασμό ή συνδεθείτε για να σχολιάσετε

Πρέπει να είστε μέλος για να αφήσετε σχόλιο

Δημιουργία λογαριασμού

Εγγραφείτε με νέο λογαριασμό στην κοινότητα μας. Είναι πανεύκολο!

Δημιουργία νέου λογαριασμού

Σύνδεση

Έχετε ήδη λογαριασμό; Συνδεθείτε εδώ.

Συνδεθείτε τώρα
  • Δημιουργία νέου...