Οι διαφορές είναι μικρές, όμως το Claude 3 επιβεβαιώνει την ανοδική τροχιά που διαγράφει εδώ και καιρό, έχοντας συγκεντρώσει το ενδιαφέρον σημαντικών επενδυτών.

Η Anthropic μόλις κυκλοφόρησε νέα μοντέλα του Claude 3, με τις πρώτες δοκιμές να δείχνουν ότι αποδίδει καλύτερα σε οδηγίες για τη σύνταξη κώδικα. Αυτό επιβεβαιώνεται από τις μετρήσεις που πραγματοποιήθηκαν μέσω του benchmark που έχει αναπτύξει η Aider.

Oι διαφορές είναι μικρές, όμως το Claude 3 Opus αποδίδει καλύτερα σε σχέση με όλα τα μοντέλα του GPT-4, καθιστώντας το τη δεδομένη στιγμή το καλύτερο διαθέσιμο μοντέλο για συνδυαστικό προγραμματισμό με την αρωγή της τεχνητής νοημοσύνης.

Μέχρι στιγμής, οι διάφορες εκδοχές του GPT-4 κατατάσσονταν πρώτες, επομένως η έστω και οριακή επικράτηση του Claude 3 είναι μια σημαντική στιγμή, στη σχετικά σύντομη ιστορία των γλωσσικών μοντέλων τεχνητής νοημοσύνης. Εντωμεταξύ, ένα από τα μικρότερα μοντέλα της Anthropic, το Haiku, κερδίζει τις εντυπώσεις με τις επιδόσεις που καταγράφει.

"Για πρώτη φορά, τα καλύτερα διαθέσιμα μοντέλα -το Opus για προηγμένες διαδικασίες, το Haiku για όσους προκρίνουν κόστος και αποδοτικότητα- προέρχονται από εταιρία που δεν είναι η OpenAI", ανέφερε ο ανεξάρτητος ερευνητής Σάιμον Γουίλισον, σε δηλώσεις του στο Ars Technica. "Αυτό είναι θετικό, καθώς όλοι ωφελούμαστε από το να υπάρχει ποικιλία προτάσεων σε αυτό το χώρο. Από την άλλη, το GPT-4 μετράει ήδη ένα χρόνο στην αγορά και χρειάστηκε αυτός ο ένας χρόνος για να πιάσει τις επιδόσεις του κάποιο άλλο μοντέλο".

lmsys_leaderboard_march_26_2024.jpg

Τα παραπάνω στοιχεία προέρχονται από τη Chatbot Arena, την οποία διοργανώνει ο Large Model Systems Organization (LMSYS ORG), ένας ερευνητικός οργανισμός που αναλύει τα ανοιχτά μοντέλα και δημιουργήθηκε μέσα από τη συνεργασία φοιτητών και σχολών των Πανεπιστημίων της Καλιφόρνια με έδρα το Μπέρκλεϊ, του Σαν Ντιέγκο και του Κάρνεγκι Μέλον.

Η Chatobot Arena είναι ένα σημαντικό εργαλείο, καθώς τόσο οι ερευνητές όσο και οι χρήστες συχνά δυσκολεύονται στην προσπάθεια μέτρησης των επιδόσεων των διαφόρων AI chatbot, με τη βαθμολόγηση των συχνά πολύ διαφορετικών επιδόσεών τους να αποδεικνύεται δύσκολη. Σημαντική παράμετρος στην όλη διαδικασία είναι και η αίσθηση που αφήνει στο χρήστη το κάθε μοντέλο, πράγμα που επίσης δύσκολα βαθμολογείται.

Η βελτίωση του Claude, εντωμεταξύ, μπορεί να θορυβήσει κάπως την OpenAI όμως, όπως σχολίασε και ο Γουίλισον, η οικογένεια των μοντέλων GPT-4 (αν και έχουν βελτιωθεί αρκετές φορές στην πορεία) μετρά πάνω από ένα χρόνο στην αγορά. Αυτή τη στιγμή, η Arena περιλαμβάνει τέσσερις διαφορετικές εκδοχές του GPT-4, που αντιστοιχούν σε σημαντικές βελτιώσεις του συγκεκριμένου μεγάλου γλωσσικού μοντέλου (LLM), με τις επιμέρους εκδόσεις να παγώνουν στο χρόνο, καθώς κάθε μία έχει ένα μοναδικό τρόπο παρουσίασης αποτελεσμάτων, και ορισμένοι developers που τις χρησιμοποιούν σε συνδυασμό με το ΑΡΙ της OpenAI προκρίνουν τη σταθερότητα, έτσι ώστε να μην πάψουν να λειτουργούν οι εφαρμογές που δημιουργούν στη βάση των αποτελεσμάτων που εμφανίζει η εκάστοτε έκδοση του GPT-4.

Σε κάθε περίπτωση, και παρά την παρουσία τεσσάρων εκδόσεων του GPT-4 στη σχετική λίστα, τα μοντέλα του Claude 3 κατέγραφαν συστηματικά ανοδική πορεία στις κατατάξεις, από τη στιγμή που κυκλοφόρησαν, νωρίτερα μέσα στο Μάρτιο, ενώ ιδιαίτερα σημαντική αποδεικνύεται η ευκολία με την οποία μπορεί κανείς να περάσει από τη χρήση του GPT-4 στο Claude 3, επομένως είναι αντίστοιχα ευκολότερο να απειληθεί το μερίδιο αγοράς που κατέχει το GPT-4.

Ανάλογη ανοδική τροχιά καταγράφει το επίσης αξιόλογο Gemini της Google, στο χώρο των βοηθών τεχνητής νοημοσύνης. Η OpenAI, επομένως, αισθάνεται την πίεση του ανταγωνισμού, όμως παράλληλα αναπτύσσει νέα μοντέλα. Αναμένεται να διαθέσει στην αγορά ένα σημαντικό διάδοχο του GPT-4 Turbo (είτε αυτός θα ονομάζεται GPT-4.5 είτε GPT-5) κάποια στιγμή μέσα στο 2024, ενδεχομένως ακόμη και στη διάρκεια του καλοκαιριού. Είναι προφανές ότι ο χώρος των LLM θα χαρακτηρίζεται από έντονο ανταγωνισμό στο προσεχές μέλλον, πράγμα που ενδεχομένως να οδηγήσει σε ενδιαφέρουσες ανακατατάξεις στα αποτελέσματα της Chatobot Arena στους επόμενους μήνες και ακόμη παραπέρα.

  • Thanks 1