Προς το περιεχόμενο

Η Τεχνητή Νοημοσύνη της Google, AlphaGo κέρδισε τον πρώτο αγώνα στο Go ενάντια στον παγκόσμιο πρωταθλητή


voltmod

Προτεινόμενες αναρτήσεις

  • Απαντ. 30
  • Δημ.
  • Τελ. απάντηση

Συχνή συμμετοχή στο θέμα

Στο 2ο παιχνίδι πήγαινε καλύτερα ο Sedol, αλλά προς το τέλος ξέμεινε από χρόνο.

Απ' ότι λένε, στο endgame το AlphaGo παίζει ακόμη πιο καλά γιατί έχει να υπολογίσει λιγότερους συνδιασμούς κινήσεων, οπότε πιθανώς να κάνει τις τέλειες κινήσεις.

Μα το θέμα είναι ότι αυτό είναι κανονικό AI!
 
Dld από την αρχή δεν υπολογίζει κινήσεις σαν ένας αλγόριθμος.. 
 
Προσαρμόζει και μαθαίνει και παίζει για να νικήσει. Για αυτό και το μεγάλο ενδιαφέρον για αυτό το παιχνίδι.
 
Στο GO δεν μπορείς να υπολογίζεις κινήσεις διότι είναι πραγματικά αδύνατον, και δεν είναι σκάκι που τα πιόνια σου έχουν συγκεκριμένες κινήσεις που μπορούν να κάνουν. Εδώ όπου θέλεις βάζεις.
 
Οποτε το να νικάει παίζοντας και μαθαίνοντας είναι τεράστιο βήμα για το AI
Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

Το 2ο game μόλις άρχισε.

 

 

 

Μια και προσπαθώ να καταλάβω τους κανόνες του παιχνιδιού σε αυτό το δεύτερο game πως κέρδισε το alphago αφού τα λευκά είχαν κλείσει τις περισσότερες περιοχές?

Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

ΣΟΚ και δέος για την κοινότητα του Go για να καταλάβετε το επίτευγμα της ομάδας της Google τα κορυφαία προγράμματα Go μέχρι τώρα ακόμα και σε έναν υπερυπολογιστή επαίζαν σαν καλούς δεκάχρονους πιτσιρικάδες δηλαδή απλή υπόθεση να τα κερδίσουν δίνοντας 4-5 πέτρες πλεονέκτημα οι επαγγελματίες παίχτες.

Αλλά το πιο σοκαριστικό θα είναι άμα χάσει ο Lee Sedol  5-0 και αυτό όχι τόσο για το εύρος του σκορ αλλά γιατί κανείς δεν θα μπορεί να πεί πόσο ισχυρό είναι το ΑlphaGo.

 Ο Κασπάροβ αν και έχασε από το Deep Blue με 2 ήττες

 η νίκη του και οι ισοπαλίες τους αποδείκνυαν ότι το Deep Blue ήταν μεν ισχυρό αλλά όχι ανίκητο και η διαφορά τους δεν ήταν σίγουρα τόσο μεγάλη ...

   αλλά επειδή στο Go όχι μονο δεν υπάρχει ισοπαλία αλλά και το ότι δεν πείζει ρόλο για το Alphago με πόσους πόντους θα κερδίσει στο τέλος της παρτίδας αρκεί να κερδίσει έστω και με 0.5 πόντο θα πρέπει ή να χάσει μια παρτίδα ή να αρχίσουν να δίνουν Handicap στους αντιπάλους του..

Tέλος για να χαριτολογήσουμε  ας ήμαστε και λίγο περήφανοι αφού το Alphago έχει και λίγο ''Ελληνικό Dna'' ....

.....

.......αφού επικεφαλής του προγράμματος  έχει Κυπριακές ρίζες.

Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

Δημοσ. (επεξεργασμένο)

ΣΟΚ και δέος για την κοινότητα του Go για να καταλάβετε το επίτευγμα της ομάδας της Google τα κορυφαία προγράμματα Go μέχρι τώρα ακόμα και σε έναν υπερυπολογιστή επαίζαν σαν καλούς δεκάχρονους πιτσιρικάδες δηλαδή απλή υπόθεση να τα κερδίσουν δίνοντας 4-5 πέτρες πλεονέκτημα οι επαγγελματίες παίχτες.

Αλλά το πιο σοκαριστικό θα είναι άμα χάσει ο Lee Sedol  5-0 και αυτό όχι τόσο για το εύρος του σκορ αλλά γιατί κανείς δεν θα μπορεί να πεί πόσο ισχυρό είναι το ΑlphaGo.

 Ο Κασπάροβ αν και έχασε από το Deep Blue με 2 ήττες

 η νίκη του και οι ισοπαλίες τους αποδείκνυαν ότι το Deep Blue ήταν μεν ισχυρό αλλά όχι ανίκητο και η διαφορά τους δεν ήταν σίγουρα τόσο μεγάλη ...

 

Ναι ακριβως αλλά για να καταλαβουν ολοι περι τινος προκειται και τι εχει γινει ακριβως:

 

Το 1997 οπου εγινε ο αγωνας Deep Blue (II) - Kasparov οι μηχανες ακομα και στους υπολογιστες(home PC) δεν ηταν τοσο μακρυα απο το τοπ επιπεδο των ανθρωπων(τοπ GΜs) σε classic time controls(120/40 πχ). Ηταν φυσικα, διοτι χανανε αρκετα ευκολα αλλά δεν ηταν πχ σαν το παιχνιδι του GO οπως ηταν τωρα πριν τον οκτωβριο οπου ηταν "ΑΔΥΝΑΤΟ" οι μηχανες να νικησουν καποιον professional, κατι σαν GM ας πουμε στο σκακι.

Οχι, τοτε οι μηχανες σκακιου μπορουσαν να νικησουν ΕΝΑ παιχνιδι (120/40) δωσμενου οτι θα παιξουν πχ 30 φορες. Δεν ηταν τοσο αδυνατο δηλαδη, απλως οι top GMs νικουσαν πολυ ευκολα(ενα ματς 8 αγωνων πχ) σε τετοια time controls.

 

Ωσπου ηρθε ο Deep Blue. Οπου το 1996 νικησε ενα παιχνιδι αλλά εχασε βεβαια το ματς με 4-2. Την επομενη χρονια ομως νικησε 3.5-2.5. Το ματς βεβαια δεν εδειξε σε καμια περιπτωση οτι οι μηχανες εγιναν καλυτερες απο τον ανθρωπο στο σκακι ουτε ο Deep Blue επαιξε καλυτερα απο τον Κασπαροφ. Απλως "ετυχε" και νικησε. Για να μην παρερμηνευθω, ηταν σαφως σε πολυ καλο επιπεδο το παιχνιδι του και στην κατηγορια των ανωτερων GM, αλλά για οσους ξερανε σκακι βλεπαμε τοτε οτι υπολειποταν φανερα στην "εξυπναδα".

 

 Και τελος παντων ο Deep Blue ηρθε, νικησε και περασε. Δεν αφησε ΤΙΠΟΤΑ στο χωρο των σκακιστικων υπολογιστων(περα απο οτι οτι ισως εκανε ανθρωπους να ασχοληθουν με τον προγραμματισμο στο σκακι) αφου η δυναμη του ηταν το ΣΟΥΠΕΡ ΙΣΧΥΡΟ hardware που ειχε!!

 Δεν ειχε καμια καινοτομια στους αλγοριθμους, τιποτα νεο και επαναστατικο(ισα ισα βασικα ισως ηταν και πιο "κουτο" στους αλγοριθμους απο τα home PCs, οπως Fritz Junior, Hiarcs κλπ της εποχης οπως επικρατουσε αυτη η αισθηση, παροτι ο F.H. Hsu στο βιβλιο του ελεγε οτι ο απλος Deep Blue νικουσε τα home chess programs αλλά κανείς δεν ηταν μαρτυρας σε αυτο :-) ), απλως ειχε απιστευτα ισχυρο hardware και υπολογιζε μπροστα γυρω στις 7 κινησεις(ΦΥΣΙΚΑ ΚΟΜΜΕΝΕΣ και οχι πληρεις, με pruning δηλαδη, αφου οπως ειναι φυσικο με 3 λεπτα περιπου ανα νικηση που ειχε στην διαθεση του και με 200 εκατομμυρια κινησεις ανα δευτερολεπτο που υπολογιζε θα ηταν παντελως αδυνατο να υπολογισει 7 πληρεις κινησεις μπροστα, ητοι 35^14 ~= 10^22 θεσεις συνολικα), οριο που λεγοταν οτι θα ηταν αρκετο για να φτασει στο επιπεδο των τοπ GMs.

Αλλά δεν εδωσε τιποτα στον χωρο. Δεν προσεφερε τιποτα.

 

Αντιθετα τωρα με το AlphaGO η κατασταση ειναι παντελως διαφορετικη.

1ον με το paper στο Nature της ομαδας του AlphaGO δινεται η δυνατοτητα να αναπτυχθουν παρομοια πανισχυρα προγραμματα GO και για τους προσωπικους μας υπολογιστες και φυσικα θα γινει αυτο λιαν συντομως. Αρα το AlphaGO προσεφερε ΜΙΑ ΕΠΑΝΑΣΤΑΣΗ στον χωρο του προγραμματισμου για το GO!

 

2ον το AlphaGO ΔΕΝ βασιζεται στο hardware(το οποιο βεβαια ειναι επισης κολοσσιαιο με 1250 CPUs νομιζω και καπου 240 GPUs) για να ειναι τοσο δυνατο. Βασιζεται στο evaluation function του για να ειναι τοσο δυνατο. Στην κριση του για καθε θεση δηλαδη.

 

3ον η νικη του AlphaGO και η 1η και η τωρινη δεν ειχε καμια σχεση συγκριτικα με εκεινη του Deep Blue. Γιατι οπως ειπα στο σκακι οι υπολογιστες τοτε μπορουσαν να κερδισουν τους GMs και τους τοπ GMs. Με την προυποθεση να παιξουν αρκετα παιχνιδια.

Εδω τωρα πριν τον οκτωβρη, οι υπολογιστες ΔΕΝ μπορουσαν ΜΕ ΤΙΠΟΤΑ να νικησουν τους professional(τους αντιστοιχους GMs). Εαν παιζανε 100 παιχνιδια θα χανανε και τα 100. Εαν παιζανε 10000 παιχνιδια θα τα χανανε ΟΛΑ!

Οι προβλεψεις των ειδικων του χωρου ελεγαν οτι σε 10 χρονια περιπου θα δουμε την πρωτη νικη υπολογιστη στο GO εναντια σε professional.

Οποτε αυτο ηταν ΜΕΓΑ αλμα.

 

 

Να εξηγησω τωρα τι σημαινουν ολα αυτα για την πολυπλοκοτητα καθε παιχνιδιου.

Στο σκακι η μεση παρτιδα κραταει περιπου 60 κινησεις. Και σε καθε κινηση εχεις να επιλεξεις μεσο όρο περιπου 35 κινησεις.

Αρα για να δεις 5 ολοκληρες κινησεις μπροστα(10 plies δηλαδη 5 δικες σου και 5 του αντιπαλου) θελεις να ψαξεις 35^10 θεσεις που ειναι ηδη πολυ μεγαλος αριθμος.

 

Στο GO ομως η μεση παρτιδα κραταει περιπου 180 κινησεις. Και σε καθε κινηση εχεις να επιλεξεις μεσο όρο περιπου 250 κινησεις!!

Αρα για να δεις 5 ολοκληρες κινησεις μπροστα θελεις να ψαξεις 250^10 θεσεις που ειναι ΑΝΕΠΑΝΑΛΗΠΤΑ μεγαλος αριθμος για μόνο 5 κινησεις μπροστα.

 

Και εδω μολις ξεκιναμε να ξυνουμε την φλουδα.

 Διοτι στο σκακι υπαρχουν ΣΥΧΝΟΤΑΤΑ πολλες κινησεις 7-8-10-15 ply μπροστα που ειτε τερματιζουν το παιχνιδι, πχ ανταλλαγη πιονιου με ιππο χωρις να κερδιζει καποιο πλεονεκτημα(πχ επιθεση στον βασιλια κλπ), ειτε αποκτανε μεγαλο προβαδισμα για την μια πλευρα. Οποτε πολλες φορες μια αναζητηση 10-20 Ply μπροστα τελειωνει το leaf(την αναζητηση για αυτη την βαριαντα) και δινει σαφες αποτελεσμα, οποτε μετα ξεκιναει η αναζητηση για αλλη βαριαντα κλπ κλπ. Στο GO ομως (που διαρκει και 180 κινησεις κατα μεσο όρο) ΔΕΝ ΥΠΑΡΧΕΙ ΑΥΤΟ. Στο GO πρεπει να εισαι ικανος μεσα απο την διαισθηση και εμπειρια να δεις 40 και 80 κινησεις(80 και 160 plies) μπροστα γιατι τιποτα δεν τελειωνει μεσα σε λιγες κινησεις.

 

Επιπλεον στο σκακι υπαρχει ευκολος πρακτικος τροπος αν μας δωσουν μια θεση να κανουμε το κομπιουτερ να καταλαβει τι γινεται και ποιος ειναι μπροστα.

Υπαρχει δηλαδη ευκολος τροπος να γραψουμε μια καλη evaluation function. Πως?

 

Με το να θεσουμε πχ βασιλισσα = 9.75 ποντους, πυργος = 5, ιππος=αξιωματικος = 3.25, πιονι =1, ζευγος αξιωματικων +0.5, εχουμε εστω και με αυτο το ΥΠΕΡαπλοικο evaluation function μας, γραψει μια πολυ καλη evaluation function οπου αμα την εξοπλισουμε με μια παρα πολυ καλη search θα εχουμε φτιαξει ενα πραγμα επιπεδου 2200-2400 ΕΛΟ δηλαδη ΙΜ/GM επιπεδου.

 

Στο GO ΔΕΝ ΜΠΟΡΟΥΜΕ ΜΕ ΤΙΠΟΤΑ να το κανουμε αυτο. Διοτι μιλαμε για ενα grid 19x19(αφου μιλαμε για το GO 19x19 παντα) οπου εχουμε μόνο ασπρα ή μαυρα ή κενα τετραγωνα και οπου εχουμε κυριολεκτικα "απειρους" συνδιασμους ενωσεων αυτων σε ομαδες, με την σημασια καθε τυπου να ειναι διαφορετικη και να εξελισσεται διαφορετικα με το περασμα του χρονου(των κινησεων) κλπ κλπ κλπ.

Μιλαμε για απιστευτα βαθυ παιχνιδι και για οποιον δεν το ξερει και δεν εχει ασχοληθει εστω και σε μετριο επιπεδο ΔΕΝ μπορει να καταλαβει τι εννοω. Οποτε το ΚΥΡΙΟ θεμα με το να παιζεις καλο GO(ειτε για ανθρωπο ειτε για μηχανη) ειναι να εχεις καλη κριση(evaluation function). Και οχι να εισαι καλος στους υπολογισμους να βλεπεις πολλες θεσεις μπροστα δηλαδη(φυσικα δεν μιλαμε για το θεωρητικα τελειο του να δεις μπροστα ολους τους πιθανους συνδιασμους).

 Και το κακο ειναι οτι ουτε οι ιδιοι οι επαγγελματιες του GO(οι αντιστοιχοι GM του σκακιου) κοιτωντας μια θεση δεν μπορουν να γραψουν με συγκεκριμενο τροπο για ποιον λογο την θεωρουν καλη ή κακη. Οποτε πως να γραφει αυτο σε προγραμμα? Αδυνατο.

 

Οποτε 1ο συμπερασμα:

Στο σκακι το να εχεις καλη search βοηθαει ΑΠΙΣΤΕΥΤΑ.

Στο σκακι το να φτιαξεις βαζοντας εσυ-ο προγραμματιστης- τους κανονες, καλη evaluation function ειναι ευκολο. Και βοηθαει φυσικα οσο καλυτερη εχεις, αλλά ΠΟΛΥ ΠΟΛΥ ΠΟΛΥ λιγοτερο απο το να εχεις καλη search.

 

2ο συμπερασμα:

Στο GO το να φτιαξεις βαζοντας εσυ-ο προγραμματιστης- τους κανονες, καλη evaluation function ειναι ΑΔΥΝΑΤΟ!

Στο GO το να εχεις καλη evaluation function ειναι ΠΟΛΥ ΠΟΛΥ ΠΟΛΥ ΠΟΛΥ ΠΟΛΥ ΠΟΛΥ ΠΟΛΥ ΠΟΛΥ πιο σημαντικο απο το να εχεις καλη search. Σαφως και το να εχεις καλη search βοηθαει παντα αλλά μιλαμε συγκριτικα.

 

Οποτε τωρα τι εγινε?

Με την βοηθεια των deep learning μεθοδων εκπαιδευσαν ενα deep convolutional neural network(DCNN) με supervised και unsupervised(reinforcement learning) μεθοδους και δημιουργησε μόνο του αυτο την evaluation function του.

 

 Με απλα λογια αρχικα πηραν ενα DCNN δικτυο και το εβαλαν να δει καποιες εκατονταδες χιλιαδες παρτιδες κορυφαιων παικτων(supervised learning), δινοντας του και το αποτελεσμα του αγωνα, ωστε να μαθει ποιες κινησεις ηταν αυτες που πρεπει να παιζει για να εχει το καλυτερο αποτελεσμα(για να κερδιζει). Και τελικα κατορθωσαν ωστε το τελικο αποτελεσμα ηταν το DCNN δικτυο αυτο, να μπορει να προβλεπει το 57% των κινησεων των παικτων!!

 Ειναι πολυ πιο ομορφο και πολυπλοκο αν το σκεφτει κανείς το πως μπορει να γινει κατι τετοιο γιατι μιλαμε για απλως εκατομμυρια θεσεις(εικονες) που κοιτουσε ο υπολογιστης και ΕΜΑΘΕ να παιζει σε υψηλοτατο επιπεδο GO μόνο και μόνο κοιτωντας αυτες τις χιλιαδες παρτιδες.

Επειτα πηραν αυτο το εκπαιδευμενο δικτυο και το εβαλαν να παιζει εκατομμυρια παρτιδες με τον εαυτο του και να μαθαινει απο τα λαθη του(reinforcement learning).

 

And that's all! Δημιουργηθηκε το AlphaGO! Η evaluation function του AlphaGo βασικα αλλά αυτο ηταν και το 99.9999% πιο σημαντικο θεμα. Να δημιουργηθει μια καλου επιπεδου evaluation function. Και αυτη δεν ηταν καλου επιπεδου ητνα οπως αποδειχτηκε κορυφαιου. Τρομαχτικου!!

Βεβαια μια αλλη καινοτομια ηταν οτι βαλανε μεσα στην search με εξυπνο τροπο και αυτα τα 2 δικτυα μαζι με την κλασικη μεθοδο βεβαια για search στο GO την MCTS.

 

Και εγεννετο AlphaGO.

 

Αυτο που ειναι εκπληκτικο και η εμπειρια μου μου λεει οτι ακομα δεν ειδαμε τιποτα, ειναι οτι μιλαμε για ΤΗΝ ΑΡΧΗ. Ακομα βρισκονται στα πρωτα σταδια αναπτυξης του προγραμματος και απο παρομοιες καταστασεις και μόνο ειναι ευκολο να προβλεψει κανεις οτι αν συνεχισουν θα δουμε ΕΥΚΟΛΑ 300-400 ΕΛΟ σε λιγους μηνες γιατι το ολο project ακομα μοιαζει ανωριμο, γρηγορο, βιαστικο, στις αρχες του. Το κακο(ή καλο, γιατι λενε οτι θα στραφουν σε τεχνητη νοημοσυνη στον τομεα της ιατρικης κλπ) ειναι μην τυχον και το εγκαταλειψουν το προγραμμα μετα την καταληψη της κορυφης.

Επεξ/σία από PostHelper
  • Like 10
Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

καλα γιατι πανηγυριζουν στα μηντια οτι νικησε ο ανθρωπος την μηχανη, οταν το τελικο σκορ ειναι 4-1 υπερ της μηχανης; οκ πηρε μια νικη ο παικτης αλλα η μηχανη τον νικησε 4 φορες.

ποτε θα το καταλαβουν μερικοι οτι η επομενη φυσικη εξελιξη του ανθρωπου ειναι η μηχανη;


ειναι μην τυχον και το εγκαταλειψουν το προγραμμα μετα την καταληψη της κορυφης.

 

 

δεν προκειται, η ΑΙ ειναι το next best thing. γιαυτο επενδυουν παρα πολυ οι μεγαλες ΙΤ σε αυτον τον τομεα αυτη τη στιγμη.

Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

Ναι ακριβως αλλά για να καταλαβουν ολοι περι τινος προκειται και τι εχει γινει ακριβως:

 

Το 1997 οπου εγινε ο αγωνας Deep Blue (II) - Kasparov οι μηχανες ακομα και στους υπολογιστες(home PC) δεν ηταν τοσο μακρυα απο το τοπ επιπεδο των ανθρωπων(τοπ GΜs) σε classic time controls(120/40 πχ). Ηταν φυσικα, διοτι χανανε αρκετα ευκολα αλλά δεν ηταν πχ σαν το παιχνιδι του GO οπως ηταν τωρα πριν τον οκτωβριο οπου ηταν "ΑΔΥΝΑΤΟ" οι μηχανες να νικησουν καποιον professional, κατι σαν GM ας πουμε στο σκακι.

Οχι, τοτε οι μηχανες σκακιου μπορουσαν να νικησουν ΕΝΑ παιχνιδι (120/40) δωσμενου οτι θα παιξουν πχ 30 φορες. Δεν ηταν τοσο αδυνατο δηλαδη, απλως οι top GMs νικουσαν πολυ ευκολα(ενα ματς 8 αγωνων πχ) σε τετοια time controls.

 

Ωσπου ηρθε ο Deep Blue. Οπου το 1996 νικησε ενα παιχνιδι αλλά εχασε βεβαια το ματς με 4-2. Την επομενη χρονια ομως νικησε 3.5-2.5. Το ματς βεβαια δεν εδειξε σε καμια περιπτωση οτι οι μηχανες εγιναν καλυτερες απο τον ανθρωπο στο σκακι ουτε ο Deep Blue επαιξε καλυτερα απο τον Κασπαροφ. Απλως "ετυχε" και νικησε. Για να μην παρερμηνευθω, ηταν σαφως σε πολυ καλο επιπεδο το παιχνιδι του και στην κατηγορια των ανωτερων GM, αλλά για οσους ξερανε σκακι βλεπαμε τοτε οτι υπολειποταν φανερα στην "εξυπναδα".

 

 Και τελος παντων ο Deep Blue ηρθε, νικησε και περασε. Δεν αφησε ΤΙΠΟΤΑ στο χωρο των σκακιστικων υπολογιστων(περα απο οτι οτι ισως εκανε ανθρωπους να ασχοληθουν με τον προγραμματισμο στο σκακι) αφου η δυναμη του ηταν το ΣΟΥΠΕΡ ΙΣΧΥΡΟ hardware που ειχε!!

 Δεν ειχε καμια καινοτομια στους αλγοριθμους, τιποτα νεο και επαναστατικο(ισα ισα βασικα ισως ηταν και πιο "κουτο" στους αλγοριθμους απο τα home PCs, οπως Fritz Junior, Hiarcs κλπ της εποχης οπως επικρατουσε αυτη η αισθηση, παροτι ο F.H. Hsu στο βιβλιο του ελεγε οτι ο απλος Deep Blue νικουσε τα home chess programs αλλά κανείς δεν ηταν μαρτυρας σε αυτο :-) ), απλως ειχε απιστευτα ισχυρο hardware και υπολογιζε μπροστα γυρω στις 7 κινησεις(ΦΥΣΙΚΑ ΚΟΜΜΕΝΕΣ και οχι πληρεις, με pruning δηλαδη, αφου οπως ειναι φυσικο με 3 λεπτα περιπου ανα νικηση που ειχε στην διαθεση του και με 200 εκατομμυρια κινησεις ανα δευτερολεπτο που υπολογιζε θα ηταν παντελως αδυνατο να υπολογισει 7 πληρεις κινησεις μπροστα, ητοι 35^14 ~= 10^22 θεσεις συνολικα), οριο που λεγοταν οτι θα ηταν αρκετο για να φτασει στο επιπεδο των τοπ GMs.

Αλλά δεν εδωσε τιποτα στον χωρο. Δεν προσεφερε τιποτα.

 

Αντιθετα τωρα με το AlphaGO η κατασταση ειναι παντελως διαφορετικη.

1ον με το paper στο Nature της ομαδας του AlphaGO δινεται η δυνατοτητα να αναπτυχθουν παρομοια πανισχυρα προγραμματα GO και για τους προσωπικους μας υπολογιστες και φυσικα θα γινει αυτο λιαν συντομως. Αρα το AlphaGO προσεφερε ΜΙΑ ΕΠΑΝΑΣΤΑΣΗ στον χωρο του προγραμματισμου για το GO!

 

2ον το AlphaGO ΔΕΝ βασιζεται στο hardware(το οποιο βεβαια ειναι επισης κολοσσιαιο με 1250 CPUs νομιζω και καπου 240 GPUs) για να ειναι τοσο δυνατο. Βασιζεται στο evaluation function του για να ειναι τοσο δυνατο. Στην κριση του για καθε θεση δηλαδη.

 

3ον η νικη του AlphaGO και η 1η και η τωρινη δεν ειχε καμια σχεση συγκριτικα με εκεινη του Deep Blue. Γιατι οπως ειπα στο σκακι οι υπολογιστες τοτε μπορουσαν να κερδισουν τους GMs και τους τοπ GMs. Με την προυποθεση να παιξουν αρκετα παιχνιδια.

Εδω τωρα πριν τον οκτωβρη, οι υπολογιστες ΔΕΝ μπορουσαν ΜΕ ΤΙΠΟΤΑ να νικησουν τους professional(τους αντιστοιχους GMs). Εαν παιζανε 100 παιχνιδια θα χανανε και τα 100. Εαν παιζανε 10000 παιχνιδια θα τα χανανε ΟΛΑ!

Οι προβλεψεις των ειδικων του χωρου ελεγαν οτι σε 10 χρονια περιπου θα δουμε την πρωτη νικη υπολογιστη στο GO εναντια σε professional.

Οποτε αυτο ηταν ΜΕΓΑ αλμα.

 

 

Να εξηγησω τωρα τι σημαινουν ολα αυτα για την πολυπλοκοτητα καθε παιχνιδιου.

Στο σκακι η μεση παρτιδα κραταει περιπου 60 κινησεις. Και σε καθε κινηση εχεις να επιλεξεις μεσο όρο περιπου 35 κινησεις.

Αρα για να δεις 5 ολοκληρες κινησεις μπροστα(10 plies δηλαδη 5 δικες σου και 5 του αντιπαλου) θελεις να ψαξεις 35^10 θεσεις που ειναι ηδη πολυ μεγαλος αριθμος.

 

Στο GO ομως η μεση παρτιδα κραταει περιπου 180 κινησεις. Και σε καθε κινηση εχεις να επιλεξεις μεσο όρο περιπου 250 κινησεις!!

Αρα για να δεις 5 ολοκληρες κινησεις μπροστα θελεις να ψαξεις 250^10 θεσεις που ειναι ΑΝΕΠΑΝΑΛΗΠΤΑ μεγαλος αριθμος για μόνο 5 κινησεις μπροστα.

 

Και εδω μολις ξεκιναμε να ξυνουμε την φλουδα.

 Διοτι στο σκακι υπαρχουν ΣΥΧΝΟΤΑΤΑ πολλες κινησεις 7-8-10-15 ply μπροστα που ειτε τερματιζουν το παιχνιδι, πχ ανταλλαγη πιονιου με ιππο χωρις να κερδιζει καποιο πλεονεκτημα(πχ επιθεση στον βασιλια κλπ), ειτε αποκτανε μεγαλο προβαδισμα για την μια πλευρα. Οποτε πολλες φορες μια αναζητηση 10-20 Ply μπροστα τελειωνει το leaf(την αναζητηση για αυτη την βαριαντα) και δινει σαφες αποτελεσμα, οποτε μετα ξεκιναει η αναζητηση για αλλη βαριαντα κλπ κλπ. Στο GO ομως (που διαρκει και 180 κινησεις κατα μεσο όρο) ΔΕΝ ΥΠΑΡΧΕΙ ΑΥΤΟ. Στο GO πρεπει να εισαι ικανος μεσα απο την διαισθηση και εμπειρια να δεις 40 και 80 κινησεις(80 και 160 plies) μπροστα γιατι τιποτα δεν τελειωνει μεσα σε λιγες κινησεις.

 

Επιπλεον στο σκακι υπαρχει ευκολος πρακτικος τροπος αν μας δωσουν μια θεση να κανουμε το κομπιουτερ να καταλαβει τι γινεται και ποιος ειναι μπροστα.

Υπαρχει δηλαδη ευκολος τροπος να γραψουμε μια καλη evaluation function. Πως?

 

Με το να θεσουμε πχ βασιλισσα = 9.75 ποντους, πυργος = 5, ιππος=αξιωματικος = 3.25, πιονι =1, ζευγος αξιωματικων +0.5, εχουμε εστω και με αυτο το ΥΠΕΡαπλοικο evaluation function μας, γραψει μια πολυ καλη evaluation function οπου αμα την εξοπλισουμε με μια παρα πολυ καλη search θα εχουμε φτιαξει ενα πραγμα επιπεδου 2200-2400 ΕΛΟ δηλαδη ΙΜ/GM επιπεδου.

 

Στο GO ΔΕΝ ΜΠΟΡΟΥΜΕ ΜΕ ΤΙΠΟΤΑ να το κανουμε αυτο. Διοτι μιλαμε για ενα grid 19x19(αφου μιλαμε για το GO 19x19 παντα) οπου εχουμε μόνο ασπρα ή μαυρα ή κενα τετραγωνα και οπου εχουμε κυριολεκτικα "απειρους" συνδιασμους ενωσεων αυτων σε ομαδες, με την σημασια καθε τυπου να ειναι διαφορετικη και να εξελισσεται διαφορετικα με το περασμα του χρονου(των κινησεων) κλπ κλπ κλπ.

Μιλαμε για απιστευτα βαθυ παιχνιδι και για οποιον δεν το ξερει και δεν εχει ασχοληθει εστω και σε μετριο επιπεδο ΔΕΝ μπορει να καταλαβει τι εννοω. Οποτε το ΚΥΡΙΟ θεμα με το να παιζεις καλο GO(ειτε για ανθρωπο ειτε για μηχανη) ειναι να εχεις καλη κριση(evaluation function). Και οχι να εισαι καλος στους υπολογισμους να βλεπεις πολλες θεσεις μπροστα δηλαδη(φυσικα δεν μιλαμε για το θεωρητικα τελειο του να δεις μπροστα ολους τους πιθανους συνδιασμους).

 Και το κακο ειναι οτι ουτε οι ιδιοι οι επαγγελματιες του GO(οι αντιστοιχοι GM του σκακιου) κοιτωντας μια θεση δεν μπορουν να γραψουν με συγκεκριμενο τροπο για ποιον λογο την θεωρουν καλη ή κακη. Οποτε πως να γραφει αυτο σε προγραμμα? Αδυνατο.

 

Οποτε 1ο συμπερασμα:

Στο σκακι το να εχεις καλη search βοηθαει ΑΠΙΣΤΕΥΤΑ.

Στο σκακι το να φτιαξεις βαζοντας εσυ-ο προγραμματιστης- τους κανονες, καλη evaluation function ειναι ευκολο. Και βοηθαει φυσικα οσο καλυτερη εχεις, αλλά ΠΟΛΥ ΠΟΛΥ ΠΟΛΥ λιγοτερο απο το να εχεις καλη search.

 

2ο συμπερασμα:

Στο GO το να φτιαξεις βαζοντας εσυ-ο προγραμματιστης- τους κανονες, καλη evaluation function ειναι ΑΔΥΝΑΤΟ!

Στο GO το να εχεις καλη evaluation function ειναι ΠΟΛΥ ΠΟΛΥ ΠΟΛΥ ΠΟΛΥ ΠΟΛΥ ΠΟΛΥ ΠΟΛΥ ΠΟΛΥ πιο σημαντικο απο το να εχεις καλη search. Σαφως και το να εχεις καλη search βοηθαει παντα αλλά μιλαμε συγκριτικα.

 

Οποτε τωρα τι εγινε?

Με την βοηθεια των deep learning μεθοδων εκπαιδευσαν ενα deep convolutional neural network(DCNN) με supervised και unsupervised(reinforcement learning) μεθοδους και δημιουργησε μόνο του αυτο την evaluation function του.

 

 Με απλα λογια αρχικα πηραν ενα DCNN δικτυο και το εβαλαν να δει καποιες εκατονταδες χιλιαδες παρτιδες κορυφαιων παικτων(supervised learning), δινοντας του και το αποτελεσμα του αγωνα, ωστε να μαθει ποιες κινησεις ηταν αυτες που πρεπει να παιζει για να εχει το καλυτερο αποτελεσμα(για να κερδιζει). Και τελικα κατορθωσαν ωστε το τελικο αποτελεσμα ηταν το DCNN δικτυο αυτο, να μπορει να προβλεπει το 57% των κινησεων των παικτων!!

 Ειναι πολυ πιο ομορφο και πολυπλοκο αν το σκεφτει κανείς το πως μπορει να γινει κατι τετοιο γιατι μιλαμε για απλως εκατομμυρια θεσεις(εικονες) που κοιτουσε ο υπολογιστης και ΕΜΑΘΕ να παιζει σε υψηλοτατο επιπεδο GO μόνο και μόνο κοιτωντας αυτες τις χιλιαδες παρτιδες.

Επειτα πηραν αυτο το εκπαιδευμενο δικτυο και το εβαλαν να παιζει εκατομμυρια παρτιδες με τον εαυτο του και να μαθαινει απο τα λαθη του(reinforcement learning).

 

And that's all! Δημιουργηθηκε το AlphaGO! Η evaluation function του AlphaGo βασικα αλλά αυτο ηταν και το 99.9999% πιο σημαντικο θεμα. Να δημιουργηθει μια καλου επιπεδου evaluation function. Και αυτη δεν ηταν καλου επιπεδου ητνα οπως αποδειχτηκε κορυφαιου. Τρομαχτικου!!

Βεβαια μια αλλη καινοτομια ηταν οτι βαλανε μεσα στην search με εξυπνο τροπο και αυτα τα 2 δικτυα μαζι με την κλασικη μεθοδο βεβαια για search στο GO την MCTS.

 

Και εγεννετο AlphaGO.

 

Αυτο που ειναι εκπληκτικο και η εμπειρια μου μου λεει οτι ακομα δεν ειδαμε τιποτα, ειναι οτι μιλαμε για ΤΗΝ ΑΡΧΗ. Ακομα βρισκονται στα πρωτα σταδια αναπτυξης του προγραμματος και απο παρομοιες καταστασεις και μόνο ειναι ευκολο να προβλεψει κανεις οτι αν συνεχισουν θα δουμε ΕΥΚΟΛΑ 300-400 ΕΛΟ σε λιγους μηνες γιατι το ολο project ακομα μοιαζει ανωριμο, γρηγορο, βιαστικο, στις αρχες του. Το κακο(ή καλο, γιατι λενε οτι θα στραφουν σε τεχνητη νοημοσυνη στον τομεα της ιατρικης κλπ) ειναι μην τυχον και το εγκαταλειψουν το προγραμμα μετα την καταληψη της κορυφης.

 

όποτε κάθε φορά πρέπει ο άνθρωπος να εφαρμόζει διαφορετική

τακτική

και όταν τελειώσουν οι τακτικές είτε χάνει είτε έρχεται ισοπαλία

είτε κλείνει τον γενικό και νικάει πάντα(?)

Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

καλα γιατι πανηγυριζουν στα μηντια οτι νικησε ο ανθρωπος την μηχανη, οταν το τελικο σκορ ειναι 4-1 υπερ της μηχανης; οκ πηρε μια νικη ο παικτης αλλα η μηχανη τον νικησε 4 φορες.

ποτε θα το καταλαβουν μερικοι οτι η επομενη φυσικη εξελιξη του ανθρωπου ειναι η μηχανη;

 1ον διοτι ολοι αυτοι οι κινεζοι, κορεατες, ιαπωνες που το GO ειναι το εθνικο τους αθλημα, βασικα η κουλτουρα τους, επαθαν ενα σοκ οταν ειδαν οτι υπαρχει μηχανη που να τους νικαει. Και μαλιστα 3-0. Και αυτο ηταν ΑΠΙΣΤΕΥΤΟ ΣΟΚ(**) διοτι ως και πριν 6 μηνες το ενδεχομενο να χασει professional απο μηχανη ηταν οχι απλως πολυ πολυ δυσκολο αλλά κυριολεκτικα αδυνατο.

 

 Οποτε το 3-0 τους ξαφνιασε και νομιζαν οτι αντιμετωπιζουν μια ανικητη μηχανη. Ομως το 3-1 τους εδειξε οτι δεν ειναι τοσο ανικητη, οτι υπαρχει ακομα ελπιδα....

Οτι δεν ειναι χειροτεροι.

 

**

Αμα πχ δει κανεις τις αντιδρασεις του professional 9 dan(το υψηλοτερο που μπορει να υπαρξει, απο 1d εως 9d ειναι τα ratings των pro) Kim Myungwan κατα τη διαρκεια των παιχνιδιων θα καταλαβει τι λεω.

 Πχ μετα το 3-0 ή το 2-0(2ο ή 3ο παιχνιδι νομιζω 3ο) δεν θυμαμαι, μολις τελειωσε το μετρημα(κατι που οσοι δουνε εστω και λιγα λεπτα απο τα βιντεο θα καταλαβουν για πόσο απιστευτα βαθυ παιχνιδι ειναι και πόσο απιστευτοι ειναι αυτοι οι παικτες/ανθρωποι στην σκεψη τους) μετα απο μια κινηση και ειδε οτι το AlphaGO θα νικησει ξανα(3-0) εβγαλε ενα ξεφυσημα απογνωσης λεγοντας "Ohhh nooo it's too soon. It's too soon.".  Εννοωντας οτι δεν μπορει, δεν γινεται να συμβαινει αυτο τωρα. Το μελλον εφτασε τοσο γρηγορα?

Ενω στο 5ο παιχνιδι σημερα(στο 3:50:10 και μετα) περιεγραψε τα συναισθηματα του για αυτο τον αγωνα.

 

1ο παιχνιδι:

2ο παιχνιδι:

3ο παιχνιδι:

4ο παιχνιδι:

5ο παιχνιδι:

 

 

δεν προκειται, η ΑΙ ειναι το next best thing. γιαυτο επενδυουν παρα πολυ οι μεγαλες ΙΤ σε αυτον τον τομεα αυτη τη στιγμη.

Το ειπα οτι μπορει να το τερματισουν το project AlphaGO διοτι αφου νικησαν ευκολα μπορει να στραφουν πλεον σε αυτα που ειπαν, στην χρηση τεχνητης νοημοσυνης με βαθια νευρωνικα δικτυα στον ιατρικο τομεα και σε 1-2 αλλους "κοινης ωφελειας" ας πουμε που δεν τους θυμαμαι ποιους ανεφεραν.

Αλλά ευτυχως οπως ειπαν σημερα ακομα δεν ξερουν τι θα κανουν και παντως δεν ειπαν τιποτα για τερματισμο του, και ειπαν οτι ή θα βελτιωσουν το AlphaGO ή θα σκεφτουν και μια public release του AlphaGO και αυτο θα ηταν το καλυτερο.

  • Like 1
Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

 οτι υπαρχει ακομα ελπιδα....

 

 

ελπιδα. το τελευταιο οχυρο του ανθρωπινου πνευματος. βεβαια στο τελος της ημερας η μηχανη βγηκε ο απολυτος θριαμβευτης της αναμετρησης. a cold,calculated fact.

Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

Δημιουργήστε ένα λογαριασμό ή συνδεθείτε για να σχολιάσετε

Πρέπει να είστε μέλος για να αφήσετε σχόλιο

Δημιουργία λογαριασμού

Εγγραφείτε με νέο λογαριασμό στην κοινότητα μας. Είναι πανεύκολο!

Δημιουργία νέου λογαριασμού

Σύνδεση

Έχετε ήδη λογαριασμό; Συνδεθείτε εδώ.

Συνδεθείτε τώρα

  • Δημιουργία νέου...