To Claude 3 ξεπερνά σε επιδόσεις το GPT-4 σύμφωνα με νέα μέτρηση του Aider

Αλέξης Σολωμός 28/03/2024 11:26 πμ

Οι διαφορές είναι μικρές, όμως το Claude 3 επιβεβαιώνει την ανοδική τροχιά που διαγράφει εδώ και καιρό, έχοντας συγκεντρώσει το ενδιαφέρον σημαντικών επενδυτών.

Η Anthropic μόλις κυκλοφόρησε νέα μοντέλα του Claude 3, με τις πρώτες δοκιμές να δείχνουν ότι αποδίδει καλύτερα σε οδηγίες για τη σύνταξη κώδικα. Αυτό επιβεβαιώνεται από τις μετρήσεις που πραγματοποιήθηκαν μέσω του benchmark που έχει αναπτύξει η Aider.

Oι διαφορές είναι μικρές, όμως το Claude 3 Opus αποδίδει καλύτερα σε σχέση με όλα τα μοντέλα του GPT-4, καθιστώντας το τη δεδομένη στιγμή το καλύτερο διαθέσιμο μοντέλο για συνδυαστικό προγραμματισμό με την αρωγή της τεχνητής νοημοσύνης.

Μέχρι στιγμής, οι διάφορες εκδοχές του GPT-4 κατατάσσονταν πρώτες, επομένως η έστω και οριακή επικράτηση του Claude 3 είναι μια σημαντική στιγμή, στη σχετικά σύντομη ιστορία των γλωσσικών μοντέλων τεχνητής νοημοσύνης. Εντωμεταξύ, ένα από τα μικρότερα μοντέλα της Anthropic, το Haiku, κερδίζει τις εντυπώσεις με τις επιδόσεις που καταγράφει.

"Για πρώτη φορά, τα καλύτερα διαθέσιμα μοντέλα -το Opus για προηγμένες διαδικασίες, το Haiku για όσους προκρίνουν κόστος και αποδοτικότητα- προέρχονται από εταιρία που δεν είναι η OpenAI", ανέφερε ο ανεξάρτητος ερευνητής Σάιμον Γουίλισον, σε δηλώσεις του στο Ars Technica. "Αυτό είναι θετικό, καθώς όλοι ωφελούμαστε από το να υπάρχει ποικιλία προτάσεων σε αυτό το χώρο. Από την άλλη, το GPT-4 μετράει ήδη ένα χρόνο στην αγορά και χρειάστηκε αυτός ο ένας χρόνος για να πιάσει τις επιδόσεις του κάποιο άλλο μοντέλο".

Τα παραπάνω στοιχεία προέρχονται από τη Chatbot Arena, την οποία διοργανώνει ο Large Model Systems Organization (LMSYS ORG), ένας ερευνητικός οργανισμός που αναλύει τα ανοιχτά μοντέλα και δημιουργήθηκε μέσα από τη συνεργασία φοιτητών και σχολών των Πανεπιστημίων της Καλιφόρνια με έδρα το Μπέρκλεϊ, του Σαν Ντιέγκο και του Κάρνεγκι Μέλον.

Η Chatobot Arena είναι ένα σημαντικό εργαλείο, καθώς τόσο οι ερευνητές όσο και οι χρήστες συχνά δυσκολεύονται στην προσπάθεια μέτρησης των επιδόσεων των διαφόρων AI chatbot, με τη βαθμολόγηση των συχνά πολύ διαφορετικών επιδόσεών τους να αποδεικνύεται δύσκολη. Σημαντική παράμετρος στην όλη διαδικασία είναι και η αίσθηση που αφήνει στο χρήστη το κάθε μοντέλο, πράγμα που επίσης δύσκολα βαθμολογείται.

Η βελτίωση του Claude, εντωμεταξύ, μπορεί να θορυβήσει κάπως την OpenAI όμως, όπως σχολίασε και ο Γουίλισον, η οικογένεια των μοντέλων GPT-4 (αν και έχουν βελτιωθεί αρκετές φορές στην πορεία) μετρά πάνω από ένα χρόνο στην αγορά. Αυτή τη στιγμή, η Arena περιλαμβάνει τέσσερις διαφορετικές εκδοχές του GPT-4, που αντιστοιχούν σε σημαντικές βελτιώσεις του συγκεκριμένου μεγάλου γλωσσικού μοντέλου (LLM), με τις επιμέρους εκδόσεις να παγώνουν στο χρόνο, καθώς κάθε μία έχει ένα μοναδικό τρόπο παρουσίασης αποτελεσμάτων, και ορισμένοι developers που τις χρησιμοποιούν σε συνδυασμό με το ΑΡΙ της OpenAI προκρίνουν τη σταθερότητα, έτσι ώστε να μην πάψουν να λειτουργούν οι εφαρμογές που δημιουργούν στη βάση των αποτελεσμάτων που εμφανίζει η εκάστοτε έκδοση του GPT-4.

Σε κάθε περίπτωση, και παρά την παρουσία τεσσάρων εκδόσεων του GPT-4 στη σχετική λίστα, τα μοντέλα του Claude 3 κατέγραφαν συστηματικά ανοδική πορεία στις κατατάξεις, από τη στιγμή που κυκλοφόρησαν, νωρίτερα μέσα στο Μάρτιο, ενώ ιδιαίτερα σημαντική αποδεικνύεται η ευκολία με την οποία μπορεί κανείς να περάσει από τη χρήση του GPT-4 στο Claude 3, επομένως είναι αντίστοιχα ευκολότερο να απειληθεί το μερίδιο αγοράς που κατέχει το GPT-4.

Ανάλογη ανοδική τροχιά καταγράφει το επίσης αξιόλογο Gemini της Google, στο χώρο των βοηθών τεχνητής νοημοσύνης. Η OpenAI, επομένως, αισθάνεται την πίεση του ανταγωνισμού, όμως παράλληλα αναπτύσσει νέα μοντέλα. Αναμένεται να διαθέσει στην αγορά ένα σημαντικό διάδοχο του GPT-4 Turbo (είτε αυτός θα ονομάζεται GPT-4.5 είτε GPT-5) κάποια στιγμή μέσα στο 2024, ενδεχομένως ακόμη και στη διάρκεια του καλοκαιριού. Είναι προφανές ότι ο χώρος των LLM θα χαρακτηρίζεται από έντονο ανταγωνισμό στο προσεχές μέλλον, πράγμα που ενδεχομένως να οδηγήσει σε ενδιαφέρουσες ανακατατάξεις στα αποτελέσματα της Chatobot Arena στους επόμενους μήνες και ακόμη παραπέρα.

ΣΧΟΛΙΑ (16)

Δημιουργήστε ένα λογαριασμό ή συνδεθείτε για να σχολιάσετε

Πρέπει να είστε μέλος για να αφήσετε σχόλιο

Δημιουργία λογαριασμού

Εγγραφείτε με νέο λογαριασμό στην κοινότητα μας. Είναι πανεύκολο!

Δημιουργία νέου λογαριασμού

Σύνδεση

Έχετε ήδη λογαριασμό; Συνδεθείτε εδώ.

Συνδεθείτε τώρα

Δημοσίευση ως Επισκέπτης

· Αποσύνδεση

shadowlike

Δημοσ. 28 Μαρτίου

- Share

όσο δεν είναι διαθέσιμο σε εμένα είναι στο 0

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Konos93

Δημοσ. 28 Μαρτίου

- Share

σύνδεση με vpn και ip αμερικής ή αγγλίας μέσω opera . ένα google account θέλει για εγγραφή

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Tlykog

Δημοσ. 28 Μαρτίου

- Share

Στο "οι διαφορές είναι μικρές" θα σταθώ, καθώς και στο ότι δεν είναι διαθέσιμο σε εμάς. Οπότε chatgpt 4.0 προς το παρόν.

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

thomasG4

Δημοσ. 28 Μαρτίου

- Share

25 minutes ago, shadowlike said:

όσο δεν είναι διαθέσιμο σε εμένα είναι στο 0

Εδώ είσαι. Διαλέγεις το Claude-3-Opus στη καρτέλα direct chat. Τζάμπα εντελώς, απλά το UX είναι λίγο χάλια.

https://chat.lmsys.org/

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

cghera

Δημοσ. 28 Μαρτίου

- Share

Βάλτε το ένα να μιλήσει με το άλλο και να το εκπαιδεύσει.

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

blacckvodka

Δημοσ. 28 Μαρτίου

- Share

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Tatofski64

Δημοσ. 28 Μαρτίου

- Share

1 λεπτό πριν, blacckvodka είπε

Έφαγε bad trip 😂

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

deafman

Δημοσ. 28 Μαρτίου

- Share

5 minutes ago, blacckvodka said:

αντε καλα κερδη.

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

blacckvodka

Δημοσ. 28 Μαρτίου

- Share

3 λεπτά πριν, Tatofski64 είπε

Έφαγε bad trip 😂

ίσως ήθελε να μου πει ευγενικά ότι θα μου τα παίρνει ο οπαπ μέχρι να σβήσει ο ήλιος

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Conan2046

Δημοσ. 28 Μαρτίου

- Share

Δεν ξέρω για την σύνταξη κώδικα ή για το Claude πάντως την δωρεάν έκδοση του chat-gpt την έχω εγκαταλείψει τελείως.

Κατ' αρχήν απλές εντολές που του έδινα για να μου φτιάξει κείμενα τα έκανε σαλάτα, χρησιμοποιώντας τις ίδιες εντολές μου εμφάνιζε κάθε φορά διαφορετικά αποτελέσματα. Στις ερωτήσεις που του έκανα ήταν σαν να βαριόταν να απαντήσει και να δώσει στοιχεία. Το Gemini είναι σαφώς καλύτερο, δίνει καλύτερες απαντήσεις, είναι ενημερωμένο έως τώρα (περίπου). Δεν ξέρω πως αντί να γίνει καλύτερο το gpt έγινε χειρότερο.

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

NiKoSmile

Δημοσ. 28 Μαρτίου

- Share

Δεν έχει πραγματική πρόσβαση στο διαδίκτυο 👎. Gemini και πάλι Gemini!

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

alexx_bauer

Δημοσ. 28 Μαρτίου

- Share

Ισχύει, το χρησιμοποιώ πάρα πολύ από τότε που βγήκε

56 λεπτά πριν, blacckvodka είπε

Δεν ξέρω γιατί στο έβγαλε αυτό. Σε μένα είπε τα εξής (γενικότητες φυσικά, αλλά γενική ήταν και η ερώτηση):

Δυστυχώς, δεν υπάρχει κάποια μαγική συνταγή για να μεγιστοποιήσετε τις πιθανότητες νίκης στο "Πάμε Στοίχημα". Τα παιχνίδια τύχης όπως αυτό είναι σχεδιασμένα έτσι ώστε η στοιχηματική εταιρία να έχει πάντα πλεονέκτημα μακροπρόθεσμα. Ωστόσο, υπάρχουν κάποιες συμβουλές που μπορούν να βοηθήσουν:

1. Μελετήστε καλά τα στοιχεία των ομάδων/αθλητών που θα στοιχηματίσετε. Οι πιθανότητες νίκης βασίζονται σε στατιστικά στοιχεία απόδοσης.

2. Επιλέξτε στοιχήματα με υψηλές αποδόσεις εάν έχετε αναλύσει καλά τα στοιχεία και πιστεύετε ότι υπάρχει υψηλή πιθανότητα επιτυχίας.

3. Ορίστε ένα προϋπολογισμό και μην ξεπεράσετε το ποσό που μπορείτε να χάσετε.

4. Αποφύγετε τις παρορμητικές και συναισθηματικές επιλογές στοιχημάτων.

5. Θυμηθείτε ότι το στοίχημα είναι παιχνίδι τύχης και οι πιθανότητες πάντα θα είναι υπέρ της εταιρίας μακροπρόθεσμα.

Το πιο σημαντικό είναι να παίζετε υπεύθυνα, για διασκέδαση και όχι με την ελπίδα να πλουτίσετε. Έτσι θα αποφύγετε πιθανά οικονομικά προβλήματα.

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Shyn

Δημοσ. 28 Μαρτίου

- Share

3 hours ago, thomasG4 said:

Εδώ είσαι. Διαλέγεις το Claude-3-Opus στη καρτέλα direct chat. Τζάμπα εντελώς, απλά το UX είναι λίγο χάλια.

https://chat.lmsys.org/

Δεν ξερω τι prompt χρησιμοποιουν στο lmsys, παντως τα αποτελεσματα ηταν υποδεεστερα σε συγκριση με το API μεσα απο την Anthropic

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Retromaniac

Δημοσ. 28 Μαρτίου

- Share

Όταν οι διαφορές είναι μικρές τότε θα επικρατήσει το πιο προσβάσιμο από άποψη κόστους και integration. Προς το παρών δηλαδή copilot.

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

gregdel

Δημοσ. 28 Μαρτίου

- Share

10 ώρες πριν, blacckvodka είπε

Τι μου θύμισες τώρα

Σύνδεση

To Claude 3 ξεπερνά σε επιδόσεις το GPT-4 σύμφωνα με νέα μέτρηση του Aider

Trending

ΣΧΟΛΙΑ (16)

Δημιουργήστε ένα λογαριασμό ή συνδεθείτε για να σχολιάσετε

Δημιουργία λογαριασμού

Σύνδεση

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Σύνδεση