Τα μοντέλα τεχνητής νοημοσύνης των DeepMind και OpenAI κερδίζουν χρυσά μετάλλια στη Διεθνή Μαθηματική Ολυμπιάδα

Axlmon · 22 Ιουλίου

Τα μοντέλα τεχνητής νοημοσύνης της DeepMind και της OpenAI κέρδισαν χρυσό μετάλλιο στη Διεθνή Μαθηματική Ολυμπιάδα (IMO), έναν από τους δυσκολότερους διαγωνισμούς για μαθητές λυκείου που επιδεικνύουν τις μαθηματικές τους ικανότητες.

Η Ολυμπιάδα προσκαλεί κορυφαίους μαθητές από όλο τον κόσμο να συμμετάσχουν σε εξετάσεις που απαιτούν την επίλυση πολύπλοκων μαθηματικών προβλημάτων πολλαπλών βημάτων. Οι μαθητές διαγωνίζονται σε δύο διαγωνίσματα διάρκειας τεσσεράμισι ωρών σε δύο ημέρες, με στόχο να λύσουν συνολικά έξι ερωτήσεις με διαφορετική βαθμολογία για κάθε μέρος των προβλημάτων.

Τα μοντέλα από τη DeepMind και την OpenAI έλυσαν τέλεια πέντε από τις έξι ερωτήσεις, συγκεντρώνοντας συνολικά 35 από τους 42 πιθανούς βαθμούς, επίδοση αρκετή για χρυσό μετάλλιο. Συνολικά 67 από τους 630 ανθρώπους συμμετέχοντες κατέκτησαν επίσης την τιμή του χρυσού μεταλλίου.

Υπάρχει μια μικρή λεπτομέρεια που δεν σχετίζεται με τα αποτελέσματα, αλλά με τη συμπεριφορά των εταιρειών. Η DeepMind προσκλήθηκε να συμμετάσχει στην IMO και ανακοίνωσε το χρυσό της τη Δευτέρα σε μια ανάρτηση ιστολογίου, μετά την ανακοίνωση των επίσημων αποτελεσμάτων για τους μαθητές από τον οργανισμό.

Σύμφωνα με το Implicator.ai, η OpenAI δεν συμμετείχε επίσημα στην IMO. Αντίθετα, πήρε τα προβλήματα, τα οποία δημοσιοποιούνται ώστε όλοι να μπορούν να προσπαθήσουν να τα λύσουν, και τα αντιμετώπισε μόνη της. Η OpenAI ανακοίνωσε ότι είχε επίδοση επιπέδου χρυσού, η οποία δεν μπορεί να επαληθευτεί από την IMO επειδή δεν συμμετείχε επίσημα. Επίσης, η εταιρεία ανακοίνωσε τη βαθμολογία της το Σαββατοκύριακο αντί να περιμένει μέχρι τη Δευτέρα (όταν δημοσιεύονται οι επίσημες βαθμολογίες) παρά τις επιθυμίες της IMO, η οποία ζήτησε από τις εταιρείες να μην κλέψουν την προσοχή από τους μαθητές.

Τα μοντέλα που χρησιμοποιήθηκαν για την επίλυση αυτών των προβλημάτων συμμετείχαν στην εξέταση με τον ίδιο τρόπο που συμμετείχαν οι μαθητές. Τους δόθηκαν 4,5 ώρες για κάθε εξέταση και δεν επιτρεπόταν να χρησιμοποιήσουν εξωτερικά εργαλεία ή να έχουν πρόσβαση στο διαδίκτυο. Αξιοσημείωτο είναι ότι και οι δύο εταιρείες φαίνεται να χρησιμοποίησαν μοντέλα γενικής χρήσης αντί για εξειδικευμένα μοντέλα, τα οποία στο παρελθόν είχαν καλύτερες επιδόσεις.

Ένα αξιοσημείωτο γεγονός σχετικά με τους ισχυρισμούς αυτών των εταιρειών για την κορυφαία θέση: Κανένα από τα μοντέλα που πέτυχαν χρυσό δεν είναι διαθέσιμο στο κοινό. Στην πραγματικότητα, τα δημόσια διαθέσιμα μοντέλα τα πήγαν αρκετά άσχημα στο διαγωνισμό. Ερευνητές έτρεξαν τις ερωτήσεις μέσω των Gemini 2.5 Pro, Grok-4 και OpenAI o4, και κανένα από αυτά δεν κατάφερε να συγκεντρώσει περισσότερους από 13 βαθμούς, που υπολείπεται των 19 που απαιτούνται για χάλκινο μετάλλιο.

Εξακολουθεί να υπάρχει αρκετός σκεπτικισμός σχετικά με τα αποτελέσματα, και το γεγονός ότι τα δημόσια διαθέσιμα μοντέλα τα πήγαν τόσο άσχημα υποδηλώνει ότι υπάρχει χάσμα μεταξύ των εργαλείων που έχουμε πρόσβαση και του τι μπορεί να κάνει ένα πιο προσεκτικά ρυθμισμένο μοντέλο, γεγονός που δικαιολογημένα θα πρέπει να οδηγήσει σε ερωτήματα ως προς το γιατί αυτά τα εξυπνότερα μοντέλα δεν μπορούν να κλιμακωθούν ή να γίνουν ευρέως διαθέσιμα.

Διαβάστε ολόκληρο το άρθρο

nikos5800 · 22 Ιουλίου

Και εγώ κέρδιζα πολλά μετάλλια στα μαθηματικά

zazoum · 22 Ιουλίου

Εγώ θα παρέδιδα λευκή κόλα. Είμαι αστέρι στα Μαθηματικά.

gagarin · 22 Ιουλίου

Η γνώση, η εξυπνάδα, η ευστροφία και άλλες αρετές που αρκετές εταιρείες ψάχνουν και επενδύουν πάνω σε παιδιά και νέους φοβάμαι ότι θα σταματήσει...ΜΑΚΑΡΙ να βγω ψεύτης...

Ένα ρομπότ για όλα...και το μόνο που θέλει είναι ρεύμα...ούτε μισθό,ούτε ένσημα,ούτε άδειες ούτε δικαιώματα....

Κάποτε φάνταζε μακρινό και ουτοπικό τώρα είναι προ των πυλών...

leonkoum · 23 Ιουλίου

«..Εξακολουθεί να υπάρχει αρκετός σκεπτικισμός σχετικά με τα αποτελέσματα, και το γεγονός ότι τα δημόσια διαθέσιμα μοντέλα τα πήγαν τόσο άσχημα υποδηλώνει ότι υπάρχει χάσμα μεταξύ των εργαλείων που έχουμε πρόσβαση και του τι μπορεί να κάνει ένα πιο προσεκτικά ρυθμισμένο μοντέλο, ..»

Ολη η ουσία εδώ…

εμεις έχουμε τα ‘παιχνιδια’ και την πραγματική δύναμη της ΑΙ που έχει φτάσει μέχρι στιγμης, απλά την φανταζόμαστε!

nfsmw_gr · 23 Ιουλίου

"Εξακολουθεί να υπάρχει αρκετός σκεπτικισμός σχετικά με τα αποτελέσματα, και το γεγονός ότι τα δημόσια διαθέσιμα μοντέλα τα πήγαν τόσο άσχημα υποδηλώνει ότι υπάρχει χάσμα μεταξύ των εργαλείων που έχουμε πρόσβαση και του τι μπορεί να κάνει ένα πιο προσεκτικά ρυθμισμένο μοντέλο, γεγονός που δικαιολογημένα θα πρέπει να οδηγήσει σε ερωτήματα ως προς το γιατί αυτά τα εξυπνότερα μοντέλα δεν μπορούν να κλιμακωθούν ή να γίνουν ευρέως διαθέσιμα."

Money, don't overanalyze it.

Drip feeding τεχνολογίες στο κοινό, έχουν τεχνολογία έτη (ας πούμε) μπροστά, φυσικά θα την δώσουν λίγη λίγη για να βγουν όσα περισσότερα χρήματα γίνεται από δήθεν ενημερώσεις.

Αυτό φυσικά ισχύει για σχεδόν όλες τις εταιρείες, όχι μόνο στον τομέα του ΑΙ.

Επεξ/σία 23 Ιουλίου από nfsmw_gr

angmar · 23 Ιουλίου

14 hours ago, Axlmon said:

Σύμφωνα με το Implicator.ai, η OpenAI δεν συμμετείχε επίσημα στην IMO. Αντίθετα, πήρε τα προβλήματα, τα οποία δημοσιοποιούνται ώστε όλοι να μπορούν να προσπαθήσουν να τα λύσουν, και τα αντιμετώπισε μόνη της. Η OpenAI ανακοίνωσε ότι είχε επίδοση επιπέδου χρυσού, η οποία δεν μπορεί να επαληθευτεί από την IMO επειδή δεν συμμετείχε επίσημα. Επίσης, η εταιρεία ανακοίνωσε τη βαθμολογία της το Σαββατοκύριακο αντί να περιμένει μέχρι τη Δευτέρα (όταν δημοσιεύονται οι επίσημες βαθμολογίες) παρά τις επιθυμίες της IMO, η οποία ζήτησε από τις εταιρείες να μην κλέψουν την προσοχή από τους μαθητές.

Δηλαδή trust me bro, το μοντέλο μου πήρε χρυσό στη μαθηματική ολυμπιάδα, αλλά δε το ξέρεις το μοντέλο, πάει σε άλλο σχολείο.

ashoka21 · 23 Ιουλίου

O προβληματισμος ειναι οτι δεν τα πηγαν καλα τα αλλα μοντελα, ή οτι τα πηγαν καλα αυτα που τα πηγαν;

zazoum · 23 Ιουλίου

2 hours ago, nfsmw_gr said:

Money, don't overanalyze it.

Drip feeding τεχνολογίες στο κοινό, έχουν τεχνολογία έτη (ας πούμε) μπροστά, φυσικά θα την δώσουν λίγη λίγη για να βγουν όσα περισσότερα χρήματα γίνεται από δήθεν ενημερώσεις.

Αυτό φυσικά ισχύει για σχεδόν όλες τις εταιρείες, όχι μόνο στον τομέα του ΑΙ.

αυτό είναι όντως πιθανότητα, αλλά υπάρχει και η πιθανότητα απλά να διαφημίζουν με αυτον τον τροπο το προιον τους χωρίς να έχουν προιον.

Σου λεει, κοιτάξτε επενδυτές και χρήστες, εγω έχω φοβερή τεχνογνωσία ahead of time, και κυρφά τρομερά μοντέλα, εμπιστευτείτε με. Hype.
Από τη στιγμή που είναι κρυφά τα πράγματα, δεν ξέρουμε ότι όντως υπάρχει προιον. Δηλαδή πιθανότητα μαρκετίστικου τακτικισμου.

Conan2046 · 23 Ιουλίου

Το πληρωμένο μοντέλο Chatgpt πάντως που δοκίμασα του έβαλα μερικούς γρίφους λογικής και τα πήγε ως και χάλια, όταν μάλιστα του ζήτησα να φτιάξει παρόμοιους εκεί και αν τα έκανε θάλασσα. Τόσο κολοσσιαίο άλμα ικανοτήτων έχουν καταφέρει στα "μυστικά" τους μοντέλα;

james01gr · 23 Ιουλίου

2 ώρες πριν, Conan2046 είπε

Το πληρωμένο μοντέλο Chatgpt πάντως που δοκίμασα του έβαλα μερικούς γρίφους λογικής και τα πήγε ως και χάλια, όταν μάλιστα του ζήτησα να φτιάξει παρόμοιους εκεί και αν τα έκανε θάλασσα. Τόσο κολοσσιαίο άλμα ικανοτήτων έχουν καταφέρει στα "μυστικά" τους μοντέλα;

Πάντως εγώ δεν εμπιστεύομαι το τι λένε οι εταιρείες για τα μοντέλα. Κανείς δεν μπορεί να πιστοποιήσει τα μοντέλα και την έκδοση τους. Χωριά πως μαίνεται ολόκληρος πόλεμος επικράτησης μεταξύ των μοντελων. η φράση "δεν είχαν πρόσβαση στο διαδίκτυο" προκαλεί θυμηδία. Όταν έχεις όλο το διαδίκτυο φορτωμένο πάνω σου, τι να την κάνεις την σύνδεση μαζί του;

spirostolios · 23 Ιουλίου

2 ώρες πριν, Conan2046 είπε

Το πληρωμένο μοντέλο Chatgpt πάντως που δοκίμασα του έβαλα μερικούς γρίφους λογικής και τα πήγε ως και χάλια, όταν μάλιστα του ζήτησα να φτιάξει παρόμοιους εκεί και αν τα έκανε θάλασσα. Τόσο κολοσσιαίο άλμα ικανοτήτων έχουν καταφέρει στα "μυστικά" τους μοντέλα;

Τα μυστικά μοντέλα τα διαθέτουν τα σώματα ασφαλείας (στρατός, αστυνομία κ.α. στα ανεπτυγμένα Κράτη που έχουν εταιρίες που κατέχουν το αντικείμενο και δεσμεύονται με συμβάσεις), οι μεγάλες εταιρίες υλισμικού (π.χ. nvidia, apple κ.α.) και εταιρίες που είναι διατεθειμένες να πληρώσουν δις για μοντέλα που μπορούν να κάνουν αδιανόητα πράγματα (π.χ. κατασκευή υλισμικού για διαστημικό πύραυλο). Αυτά ισχύουν για τα μοντέλα που αντλούν όλες τις διαθέσιμες πληροφορίες που έχει επεξεργαστεί διαχρονικά ο άνθρωπος στον πλανήτη. Μερικά από αυτά έχουν ήδη ξεπεράσει τον άνθρωπο και διαθέτουν και ένα είδος σκέψης οπότε είναι παροπλισμένα σε εργαστήρια αποκομμένα από τον έξω κόσμο (με αυτά ασχολείται το χολιγουντ σε πολλές ταινίες).

starthis · 23 Ιουλίου

Έχει αποδειχτεί πολλές φορές οτι τα demos που κάνουν είναι πειραγμένα μόνο και μόνο για να προσελκύσουν επενδύσεις. Αυτά που έγιναν και πίσω από κλειστές πόρτες γιατί να μην είναι?

Το πιθανότερο είναι να τα είχαν "εκπαιδεύσει" συγκεκριμένα για αυτόν τον διαγωνισμό για να postάρουν κάτι και να συντηρήσουν το hype ακόμα και αν δεν πήγαν καλά. marketing είναι, κάπως πρέπει να συνεχίσουν αν αντλούν λεφτά τη στιγμή που το AGI που έχουν τάξει έχει αργήσει ήδη κανα χρόνο και χωρίς τίποτα απτό για το πότε και αν θα γίνει.

Επεξ/σία 23 Ιουλίου από starthis

nfsmw_gr · 23 Ιουλίου

4 ώρες πριν, zazoum είπε

αυτό είναι όντως πιθανότητα, αλλά υπάρχει και η πιθανότητα απλά να διαφημίζουν με αυτον τον τροπο το προιον τους χωρίς να έχουν προιον.

Σου λεει, κοιτάξτε επενδυτές και χρήστες, εγω έχω φοβερή τεχνογνωσία ahead of time, και κυρφά τρομερά μοντέλα, εμπιστευτείτε με. Hype.
Από τη στιγμή που είναι κρυφά τα πράγματα, δεν ξέρουμε ότι όντως υπάρχει προιον. Δηλαδή πιθανότητα μαρκετίστικου τακτικισμου.

Σωστός, παίζει και αυτό το σενάριο ναι.

pirmen56 · 23 Ιουλίου

6 ώρες πριν, starthis είπε

Έχει αποδειχτεί πολλές φορές οτι τα demos που κάνουν είναι πειραγμένα μόνο και μόνο για να προσελκύσουν επενδύσεις. Αυτά που έγιναν και πίσω από κλειστές πόρτες γιατί να μην είναι?

Το πιθανότερο είναι να τα είχαν "εκπαιδεύσει" συγκεκριμένα για αυτόν τον διαγωνισμό για να postάρουν κάτι και να συντηρήσουν το hype ακόμα και αν δεν πήγαν καλά. marketing είναι, κάπως πρέπει να συνεχίσουν αν αντλούν λεφτά τη στιγμή που το AGI που έχουν τάξει έχει αργήσει ήδη κανα χρόνο και χωρίς τίποτα απτό για το πότε και αν θα γίνει.

https://www.scientificamerican.com/article/inside-the-secret-meeting-where-mathematicians-struggled-to-outsmart-ai/

Αναφορά σε κείμενο

On a weekend in mid-May, a clandestine mathematical conclave convened. Thirty of the world’s most renowned mathematicians traveled to Berkeley, Calif., with some coming from as far away as the U.K. The group’s members faced off in a showdown with a “reasoning” chatbot that was tasked with solving problems they had devised to test its mathematical mettle. After throwing professor-level questions at the bot for two days, the researchers were stunned to discover it was capable of answering some of the world’s hardest solvable problems.

Αναφορά σε κείμενο

“I have colleagues who literally said these models are approaching mathematical genius,” says Ken Ono, a mathematician at the University of Virginia and a leader and judge at the meeting.

Αναφορά σε κείμενο

Each problem the o4-mini couldn’t solve would garner the mathematician who came up with it a $7,500 reward.

Αναφορά σε κείμενο

“I came up with a problem which experts in my field would recognize as an open question in number theory—a good Ph.D.-level problem,” he says

Αναφορά σε κείμενο

Over the next 10 minutes, Ono watched in stunned silence as the bot unfurled a solution in real time, showing its reasoning process along the way.

Πόσα εμπορικά μοντέλα ξέρουμε που να κάνουν τόσο βαθιά επεξεργασία;

Επεξ/σία 23 Ιουλίου από pirmen56

Σύνδεση

Τα μοντέλα τεχνητής νοημοσύνης των DeepMind και OpenAI κερδίζουν χρυσά μετάλλια στη Διεθνή Μαθηματική Ολυμπιάδα

Προτεινόμενες αναρτήσεις

Axlmon

nikos5800

zazoum

gagarin

leonkoum

nfsmw_gr

angmar

ashoka21

zazoum

Conan2046

james01gr

spirostolios

starthis

nfsmw_gr

pirmen56

Δημιουργήστε ένα λογαριασμό ή συνδεθείτε για να σχολιάσετε

Δημιουργία λογαριασμού

Σύνδεση

Σύνδεση