Η Ολυμπιάδα προσκαλεί κορυφαίους μαθητές από όλο τον κόσμο να συμμετάσχουν σε εξετάσεις που απαιτούν την επίλυση πολύπλοκων μαθηματικών προβλημάτων πολλαπλών βημάτων. Οι μαθητές διαγωνίζονται σε δύο διαγωνίσματα διάρκειας τεσσεράμισι ωρών σε δύο ημέρες, με στόχο να λύσουν συνολικά έξι ερωτήσεις με διαφορετική βαθμολογία για κάθε μέρος των προβλημάτων.
Τα μοντέλα από τη DeepMind και την OpenAI έλυσαν τέλεια πέντε από τις έξι ερωτήσεις, συγκεντρώνοντας συνολικά 35 από τους 42 πιθανούς βαθμούς, επίδοση αρκετή για χρυσό μετάλλιο. Συνολικά 67 από τους 630 ανθρώπους συμμετέχοντες κατέκτησαν επίσης την τιμή του χρυσού μεταλλίου.
Υπάρχει μια μικρή λεπτομέρεια που δεν σχετίζεται με τα αποτελέσματα, αλλά με τη συμπεριφορά των εταιρειών. Η DeepMind προσκλήθηκε να συμμετάσχει στην IMO και ανακοίνωσε το χρυσό της τη Δευτέρα σε μια ανάρτηση ιστολογίου, μετά την ανακοίνωση των επίσημων αποτελεσμάτων για τους μαθητές από τον οργανισμό.
Σύμφωνα με το Implicator.ai, η OpenAI δεν συμμετείχε επίσημα στην IMO. Αντίθετα, πήρε τα προβλήματα, τα οποία δημοσιοποιούνται ώστε όλοι να μπορούν να προσπαθήσουν να τα λύσουν, και τα αντιμετώπισε μόνη της. Η OpenAI ανακοίνωσε ότι είχε επίδοση επιπέδου χρυσού, η οποία δεν μπορεί να επαληθευτεί από την IMO επειδή δεν συμμετείχε επίσημα. Επίσης, η εταιρεία ανακοίνωσε τη βαθμολογία της το Σαββατοκύριακο αντί να περιμένει μέχρι τη Δευτέρα (όταν δημοσιεύονται οι επίσημες βαθμολογίες) παρά τις επιθυμίες της IMO, η οποία ζήτησε από τις εταιρείες να μην κλέψουν την προσοχή από τους μαθητές.
Τα μοντέλα που χρησιμοποιήθηκαν για την επίλυση αυτών των προβλημάτων συμμετείχαν στην εξέταση με τον ίδιο τρόπο που συμμετείχαν οι μαθητές. Τους δόθηκαν 4,5 ώρες για κάθε εξέταση και δεν επιτρεπόταν να χρησιμοποιήσουν εξωτερικά εργαλεία ή να έχουν πρόσβαση στο διαδίκτυο. Αξιοσημείωτο είναι ότι και οι δύο εταιρείες φαίνεται να χρησιμοποίησαν μοντέλα γενικής χρήσης αντί για εξειδικευμένα μοντέλα, τα οποία στο παρελθόν είχαν καλύτερες επιδόσεις.
Ένα αξιοσημείωτο γεγονός σχετικά με τους ισχυρισμούς αυτών των εταιρειών για την κορυφαία θέση: Κανένα από τα μοντέλα που πέτυχαν χρυσό δεν είναι διαθέσιμο στο κοινό. Στην πραγματικότητα, τα δημόσια διαθέσιμα μοντέλα τα πήγαν αρκετά άσχημα στο διαγωνισμό. Ερευνητές έτρεξαν τις ερωτήσεις μέσω των Gemini 2.5 Pro, Grok-4 και OpenAI o4, και κανένα από αυτά δεν κατάφερε να συγκεντρώσει περισσότερους από 13 βαθμούς, που υπολείπεται των 19 που απαιτούνται για χάλκινο μετάλλιο.
Εξακολουθεί να υπάρχει αρκετός σκεπτικισμός σχετικά με τα αποτελέσματα, και το γεγονός ότι τα δημόσια διαθέσιμα μοντέλα τα πήγαν τόσο άσχημα υποδηλώνει ότι υπάρχει χάσμα μεταξύ των εργαλείων που έχουμε πρόσβαση και του τι μπορεί να κάνει ένα πιο προσεκτικά ρυθμισμένο μοντέλο, γεγονός που δικαιολογημένα θα πρέπει να οδηγήσει σε ερωτήματα ως προς το γιατί αυτά τα εξυπνότερα μοντέλα δεν μπορούν να κλιμακωθούν ή να γίνουν ευρέως διαθέσιμα.

ΣΧΟΛΙΑ (17)
Δημιουργήστε ένα λογαριασμό ή συνδεθείτε για να σχολιάσετε
Πρέπει να είστε μέλος για να αφήσετε σχόλιο
Δημιουργία λογαριασμού
Εγγραφείτε με νέο λογαριασμό στην κοινότητα μας. Είναι πανεύκολο!
Δημιουργία νέου λογαριασμούΣύνδεση
Έχετε ήδη λογαριασμό; Συνδεθείτε εδώ.
Συνδεθείτε τώραΔημοσίευση ως Επισκέπτης
· Αποσύνδεση