Ο grandmaster Lee Sedol, κέρδισε τον πρώτο του αγώνα ενάντια στο AlphaGo

defacer · 15 Μαρτίου 2016

Κατάλαβα τι εννοείς, ναι. Σε αυτή την περίπτωση λοιπόν, όπως απάντησα και στο φίλο από πάνω, παραδέχομαι ότι όντως ειναι κάτι διαφορετικό από αυτό που είχα στο μυαλό μου και μπορώ να το χαρακτηρίσω "έξυπνο".

Ένας άλλος τρόπος να δεις αυτό το πράγμα είναι ο εξής.

Πες ότι ένα πρόγραμμα σκάκι στη θέση Χ αποφασίζει να παίξει την κίνηση Υ. Εσύ ρωτάς: γιατί έπαιξες Υ και όχι κάτι άλλο; Είναι εύκολο να πάρεις μια απάντηση του στυλ "επειδή εξέτασα όλα τα σενάρια για τις επόμενες 10 κινήσεις και σκοράροντας κάθε ενδεχόμενο με τους συγκεκριμένους κανόνες (...) αυτή η κίνηση έβγαλε σκορ 5.427 που είναι το μεγαλύτερο απ' όσα είδα". Είναι πανεύκολο (τουλάχιστον θεωρητικά) εφόσον οι κανόνες του σκορ με bold είναι περιγράψιμοι με απόλυτη ακρίβεια να κάνεις και συ τους ίδιους υπολογισμούς και να καταλήξεις να παίξεις την ίδια κίνηση αν βρεθείς στη θέση του υπολογιστή.

Εδώ τώρα με το AlphaGo αυτό δεν ισχύει, γιατί ούτε το ίδιο το πρόγραμμα δεν ξέρει να σου πει ποιά είναι τα κριτήρια με τα οποία αποφάσισε ότι η τάδε κίνηση είναι η καλύτερη και γι' αυτό την επέλεξε. Ούτε οι δημιουργοί του ξέρουν. Πλησιάζουμε δηλαδή στην γνώριμη για μας τους ανθρώπους κατάσταση όπου κάποιος master "ξέρει" ότι το καλύτερο είναι το Χ, αλλά δεν του είναι δυνατόν να κάτσει να γράψει κάτω έναν τυφλοσούρτη που μπορεί να ακολουθήσει οποιοσδήποτε και να φτάσει στο ίδιο συμπέρασμα. "Εξυπνάδα".

zio10 · 15 Μαρτίου 2016

Σε αυτό το θέμα έχετε γράψει κάποια από τα καλύτερα ποστ που έχω διαβάσει! Μπράβο σε όλους σας!

PostHelper · 15 Μαρτίου 2016

Πάνω κάτω σωστά είναι αυτά που λες PostHelper αλλά θα πρέπει να καταλάβεις ότι το Νευρωτικό Δίκτυο έχει και μειονεκτήματα χωρίς να μιλήσω τεχνικά...

1)Αν και αρχίζει να μαθαίνει μόνο του γρήγορα από ένα σημείο και μετά επιβραδύνει σημαντικά την πρόοδο του

Ε φυσικα αλλά εδω δεν φανηκε να συμβαινει αυτο, ειτε απο το paper στο Nature ειτε απο τις δηλωσεις τους.

και η ομάδα του Αlphago είπε ότι άρχισε να το διαπιστώνει τελευταία.

Εγω το ακριβως αντιθετο καταλαβα απο τις δηλωσεις τους.

Η ομαδα του ειπε οτι παγωσε την εκπαιδευση 3 εβδομαδες πριν το ματς για να μπορεσει να το τεσταρει και οτι υπηρχαν παρα πολλα πραγματα που ειχαν στο μυαλο τους να δοκιμασουν. Ουσιαστικα μόνο και μόνο τους συντελεστες βαρυτητας MCTS με policy networks αν αλλαξουν(απο το 50-50 που εχουν τωρα ως αρχικη guess) μπορει να εχουν τεραστιες διαφορές.

Επισης ειπαν οτι στο supervised ή unsupervised learning θα μπορουσαν να χρησιμοποιησουν εκτος απο raw boards με απλως τους κανονες, και διάφορα εισαγμενα απο τον ανθρωπο εξυπνα χαρακτηριστικα(expert features) οπως πχ στο ταβλι πολλες φορες χρειαζεται για την εκπαιδευση να τα πουμε απο την αρχη, και να μην χρειαστει να το μαθουν μονα τους, οτι το να φτιαχνεις πορτες ειναι γενικα καλο, οποτε το τελικο ΑΙ θα μπορουσ ενα ειναι και πολυ μεγαλυτερο. Ή και οχι.

Και παντως η reinforcement learning εκπαιδευση του δεν παρουσιασε τιποτα diminishing returns ακομα.

Επισης η supervised εκπαιδευση του ηρθε και μεσα απο παιχνιδι και amateurs ενω μια βαση δεδομενων απο παιχνιδια μόνο pro θα το κανανε ακομα καλυτερο.

Αν πχ το άφηνες αρχικά 6 μήνες τα εκπαιδεύεται και κέρδιζε +200 ELO μετά ίσω χρειάζονταν άλλα 5 χρόνια συνεχόμενα για άλλα +50 ELO και άλλα 100 χρόνια με Δις παρτίδων για άλλα +20 ΕLO

Ναι αλλά αυτα τα νουμερα ειναι ολα υποθετικα.

Αυτο που ειπαν σε μια συνεντευξη στο wired νομιζω το διαβασα οτι δεν παρουσιαστηκαν καθολου diminishing returns και απλως το παγωσαν γιανα το τεσταρουν πριν το ματς.

2)To Δύκτιο αυτό από μόνο του χωρίς Monte-Carlo ΧΑΝΕΙ από το Lee Sedol 100-0.

Ε προφανως και χρειαζεται καποια search. Δεν ειπα οτι δεν χρειαζεται. Ειπα οτι η search στην προκειμενη περιπτωση ειναι το 0.001% της δυναμης του. Φυσικα ομως ειτε χωρις search, ειτε χωρις eval το προγραμμα θα γινοταν τελειως ανικανο. Αυτονητο.

Οσο εξυπνος και να εισαι αμα δεν εχεις δαχτυλα δεν μπορεις να παιξεις μπασκετ.

3)Σε αντίθεση με τα σκακιστικά προγράμματα που είναι αλγόριθμοι και είναι εύκολο να αλλάξεις τις παραμέτρους και να επέμβεις στο κώδικα του προγράμματος, στα Νευρωτικά Δύκτια επειδή αρχίζουν και φτιάχνουν συνδέσεις σαν νευρώνες σιγά σιγά μόνα τους είναι πολύ δύσκολο να επέμβεις.

Ναι ειναι σχεδον αδυνατο να το βελτιωσεις σε καποιον ΣΥΓΚΕΚΡΙΜΕΝΟ τομεα της eval του.

Χωρις να εκπαιδευσεις απο την αρχη το δικτυο με την εισαγωγη εξυπνων χαρακτηριστικων.

Periklitos25 · 16 Μαρτίου 2016

1)Ε φυσικα αλλά εδω δεν φανηκε να συμβαινει αυτο, ειτε απο το paper στο Nature ειτε απο τις δηλωσεις τους.

Εγω το ακριβως αντιθετο καταλαβα απο τις δηλωσεις τους.

Η ομαδα του ειπε οτι παγωσε την εκπαιδευση 3 εβδομαδες πριν το ματς για να μπορεσει να το τεσταρει ...

Και παντως η reinforcement learning εκπαιδευση του δεν παρουσιασε τιποτα diminishing returns ακομα.

2)Επισης η supervised εκπαιδευση του ηρθε και μεσα απο παιχνιδι και amateurs ενω μια βαση δεδομενων απο παιχνιδια μόνο pro θα το κανανε ακομα καλυτερο.

3)Ναι αλλά αυτα τα νουμερα ειναι ολα υποθετικα.

1.Δεν χρειάζεται να διαβάσεις ή να σου το πει ο Hassabis απλη λογική...

http://www.theverge.com/2016/3/9/11185030/google-deepmind-alphago-go-artificial-intelligence-impact

DeepMind founder Demis Hassabis says that..

having already hit a point of diminishing returns in that regard.

2.Kαμία σχέση διότι games των pro είναι πολύ λίγα ακόμα και ανατρέξεις 200 χρόνια πίσω.... (Μικρή Βάση δεδομένων)

Αυτό που ομάδα είπε ίσως δοκιμάσει σαν μελοντικό πλάνο είναι χωρίς καθόλου παιχνίδια ανθρώπων.

Εκεί ίσως δούμε καινούρια ανοίγματα.

3.Ε δεν είμαι και μέσα στην Google εδώ δεν ξέρουμε καλά καλά το ακριβές Εlo του ΑlphaGo

PostHelper · 16 Μαρτίου 2016

1.Δεν χρειάζεται να διαβάσεις ή να σου το πει ο Hassabis απλη λογική...

http://www.theverge.com/2016/3/9/11185030/google-deepmind-alphago-go-artificial-intelligence-impact

DeepMind founder Demis Hassabis says that..

having already hit a point of diminishing returns in that regard.

Οχι καμια σχεση.

Δεν ειπε οτι εχουν diminishing returns στο θεμα της εκπαιδευσης και οτι ειδαν οτι παιξανε περισσοτερα παιχνιδια χωρις πλεον αυξηση της δυναμικοτητας. Ισα ισα οπως σου ειπα ανεφεραν οτι η δυναμικοτητα αυξανοταν αλλά επρεπε να το παγωσουν για να το τεσταρουν γιατι ειχε φτασει ο αγωνας 3 εβδομαδες πριν.

Αυτο που ειπαν και παραθετοντας ολο το κειμενο και οχι αποκομμενο απο το context οπως εκανες εσυ(δεν ξερω εσκεμμενα ή απο λαθος), ειναι οτι ειχαν diminishing returns στο θεμα του hardware! Οτι δηλαδη ειτε χρησιμοποιουσαν παραπανω hardware ειτε οχι, η δυναμικοτητα δεν θα αυξανοταν ιδιαιτερα(Αυτο ειναι καθαρα θεμα search βεβαια). Για αυτο και χρησιμοποιησαν σχεδον το ιδιο hardware με αυτο του οκτωβρη.

DeepMind founder Demis Hassabis says that although AlphaGo has improved since beating Fan Hui in October, it’s using roughly the same computing power for the Lee Se-dol matches, having already hit a point of diminishing returns in that regard.

2.Kαμία σχέση διότι games των pro είναι πολύ λίγα ακόμα και ανατρέξεις 200 χρόνια πίσω.... (Μικρή Βάση δεδομένων)

Οι ιδιοι το ειπαν δεν το ειπα εγω. Αν θυμαμαι καλα αυτο που ειπα ειναι οτι υπαρχει τετοια βαση δεδομενων συγχρονη με 10000 νομιζω παιχνιδια απλως δεν μπορουσαν να εχουν προσβαση τοσο αμεσα οσο ηθελαν.

Αυτό που ομάδα είπε ίσως δοκιμάσει σαν μελοντικό πλάνο είναι χωρίς καθόλου παιχνίδια ανθρώπων.

Εκεί ίσως δούμε καινούρια ανοίγματα.

Ναι το ειπε και αυτο μεταξυ αλλων.

Αλλά ειπε και αυτο που ειπα.

3.Ε δεν είμαι και μέσα στην Google εδώ δεν ξέρουμε καλά καλά το ακριβές Εlo του ΑlphaGo

Ε ναι αλλά το γεγονος οτι τα νουμερα σου ειναι αυθαιρετα/υποθετικα παραμενει.

Δεν μπορει δηλαδη να μου λες τελειως υποθετικα αυτο:

"Αν πχ το άφηνες αρχικά 6 μήνες τα εκπαιδεύεται και κέρδιζε +200 ELO μετά ίσω χρειάζονταν άλλα 5 χρόνια συνεχόμενα για άλλα +50 ELO και άλλα 100 χρόνια με Δις παρτίδων για άλλα +20 ΕLO"

Γιατι θα μπορουσα και εγω το ιδιο υποθετικα να πω αυτο:

"Αν πχ το άφηνες αρχικά 6 μήνες τα εκπαιδεύεται και κέρδιζε +200 ELO μετά ισως σε αλλους 8 μηνες θα κερδιζε +200 ΕΛΟ."

Periklitos25 · 16 Μαρτίου 2016

Οχι καμια σχεση.

Δεν ειπε οτι εχουν diminishing returns στο θεμα της εκπαιδευσης και οτι ειδαν οτι παιξανε περισσοτερα παιχνιδια χωρις πλεον αυξηση ...

Γιατι θα μπορουσα και εγω το ιδιο υποθετικα να πω αυτο:

"Αν πχ το άφηνες αρχικά 6 μήνες τα εκπαιδεύεται και κέρδιζε +200 ELO μετά ισως σε αλλους 8 μηνες θα κερδιζε +200 ΕΛΟ."

Δες τη μεσαία εικόνα 2b. όταν το κάθε σύστημα παίζει μόνο του.

To Αlphago είναι ο συνδυασμός και των τριών

1)Value network:To νευρωτικό δίκτυο που λέμε ότι εκπαιδεύτηκε από παρτίδες παιχτών και παίζοντας εκ.παρτίδες

Πόσο ισχυρό είναι άμα παίζει μόνο του; 1800 ΕΛΟ εικ.2b

2)Policy network:κοιτάζει μπροστά σαν τα σκακιστικά προγράμματα

Πόσο ισχυρό είναι; 1400 ΕΛΟ εικ.2b Λόγω τεράστιου Search tree

(γιαυτό και τα παρατήσαν οι περισότεροι τα αρχικά προγράμματα στυλ σκακιού και πήγαν στα Monte Carlo)

3)Rollouts:Tα γνωστά MCTS προγράμματα που παίζουν χιλιάδες "χαζές παρτίδες¨ μέχρι το τέλος και βλέπουν ποιά κίνηση έχει καλύτερο ποσοστό νίκης

Πόσο ισχυρo είναι; 1400 EΛΟ εικ.2b

(Το MCTS πρόγραμμα Crazy Stone είναι κοντά 2000 ΕΛΟ)

Άμα το δεις καθένα ξεχωριστά μιλάμε για καθαρά επίπεδο αρχαρίου ως λιγο προχωρημένου το καθένα

Το κατόρθωμα της Deep Mind είναι το πάντρεμα

και των τριών ώστε να δουλεύουν σαν ένα καλοκουρδισμένο ρολόϊ και ειδικά το Value network που έδωσε ώθηση στο Policy network να στοχοποιεί το Search tree του

Τί ακριβώς λές να εκπαιδευτεί; δεν καταλαβαίνω τι λες...

1)Tα ΜCTS παλεύουν να τα ανεβάσουν 100-150 ΕΛΟ καμιά δεκαετία (Rollout)

2)Pοlicy Νetwork από το 1400;

3)Value network;Eδω είναι που σου είπα για το πόσο πρόοδος μπορεί να γινει

και ότι από ένα σημείο και μετά θα επιβραδύνουν σχεδόν θα μηδενίζεται η πρόοδο τους

και χωρίς αυτό δύσκολα βλέπω να βελτιωνεται και το Policy. και πάντα για το Go.

Δεν μίλησα για το project Alphago συνολικά που σίγουρα θα έχει περιθώρια βελτίωσης.

PostHelper · 16 Μαρτίου 2016

Δες τη μεσαία εικόνα 2b. όταν το κάθε σύστημα παίζει μόνο του.

To Αlphago είναι ο συνδυασμός και των τριών

1)Value network:To νευρωτικό δίκτυο που λέμε ότι εκπαιδεύτηκε από παρτίδες παιχτών και παίζοντας εκ.παρτίδες

Πόσο ισχυρό είναι άμα παίζει μόνο του; 1800 ΕΛΟ εικ.2b

2)Policy network:κοιτάζει μπροστά σαν τα σκακιστικά προγράμματα

Πόσο ισχυρό είναι; 1400 ΕΛΟ εικ.2b Λόγω τεράστιου Search tree

Δεν ειναι ακριβως ετσι. Και τα 2 ανηκουν σε νευρωνικο δικτυο απλως το value network δινει μια τιμη σε καθε θεση ενω το policy network δινει την καλυτερη κινηση σε μια θεση.

Και τα 2 δηλαδη ειναι σαν evaluation functions με λιγα λογια, που απλως δινουν μια κριση για το ποσο καλη/κακη ειναι μια θεση.

Και φυσικα χωρις καθολου search(MCTS) απολυτως λογικο να ειναι αρκετα ανικανα.

3)Rollouts:Tα γνωστά MCTS προγράμματα που παίζουν χιλιάδες "χαζές παρτίδες¨ μέχρι το τέλος και βλέπουν ποιά κίνηση έχει καλύτερο ποσοστό νίκης

Πόσο ισχυρo είναι; 1400 EΛΟ εικ.2b

Και αυτο λογικο αφου μιλαμε για σκετη search.

Άμα το δεις καθένα ξεχωριστά μιλάμε για καθαρά επίπεδο αρχαρίου ως λιγο προχωρημένου το καθένα

Το κατόρθωμα της Deep Mind είναι το πάντρεμα

και των τριών ώστε να δουλεύουν σαν ένα καλοκουρδισμένο ρολόϊ και ειδικά το Value network που έδωσε ώθηση στο Policy network να στοχοποιεί το Search tree του

Και παλι δεν ειναι ακριβως ετσι.

Διοτι σωστα λες οτι ενα κατορθωμα της ομαδας ειναι το παντρεμα των εκπαιδευμενων deep neural nets, policy network και value network με την MVTS, δηλαδη το οτι καταφεραν να τα βαλουν μεσα στην search αυτα τα 2 νευρωνικα δικτυα, αλλά πολυ πιο σημαντικο, ΠΟΛΥ ΠΟΛΥ ΠΟΛΥ ΠΟΛΥ ΠΟΛΥ πιο σημαντικο ηταν οτι δημιουργησαν αυτα τα 2 δικτυα.

Οτι δημιουργησαν δηλαδη μια πολυ καλη evaluation function(απο τις ΠΑΝΤΕΛΩΣ ΑΧΡΗΣΤΕΣ/ΑΝΥΠΑΡΚΤΕΣ που ειχαμε εως τωρα) για το παιχνιδι του GO. Αλλιως τι να βαλεις μεσα στην search?

Τί ακριβώς λές να εκπαιδευτεί; δεν καταλαβαίνω τι λες...

Οταν εκπαιδευεις ενα νευρωνικο δικτυο τοτε πχ(τυχαια νουμερα και ειναι αναλογα με την περιπτωση) στα πρωτα 1 000 000 παιχνιδια θα δεις μεγαλη βελτιωση. Μετα θα δεις μια καμψη και πχ η βελτιωση θα ειναι στο επομενο 1 εκατομμυριο παιχνιδια 50% μικροτερη. Και θα φτασει ενα σημειο(diminishing returns) οπου η βελτιωση θα ειναι σχεοδν μηδαμινη.

Ε αυτο οπως ειπα ΔΕΝ εφτασε στο AlphaGO.

Το αλλο που λες εσυ και ειπαν αυτοι ειναι οτι αν εχεις μια συγκεκριμενη search ή τελος παντων μια μηχανη που παιζει ενα παιχνιδι, αν την βαλεις σε εναν μονοπυρηνο επεξεργαστη θα εχει μια ορισμενη δυναμικοτητα. Αν την βαλεις σε 2 πυρηνες/ή CPU, θα αυξηθει(οχι κατα 100%(διπλασια δηλαδη) συνηθως αλλά λιγοτερο). Αν την βαλεις σε 4 θα αυξηθει επισης. Ε καποια στιγμη θα ερθει το σημειο των diminishing returns που λενε και οσους επεξεργαστες παραπανω και να βαλεις η δυναμικοτητα δεν θα αυξανεται. ΑΥΤΟ ειπαν τι εγινε με το AlphaGO ως προς το hardware που χρησιμοποιησαν τον οκτωβρη και που ειναι ιδιο περιπου με το τωρινο αφου εφτασαν σε ενα τετoιο σημειο diminishing returns.

Periklitos25 · 16 Μαρτίου 2016

Δεν ειναι ακριβως ετσι. Και τα 2 ανηκουν σε νευρωνικο δικτυο απλως το value network δινει μια τιμη σε καθε θεση ενω το policy network δινει την καλυτερη κινηση σε μια θεση.

Και τα 2 δηλαδη ειναι σαν evaluation functions με λιγα λογια, που απλως δινουν μια κριση για το ποσο καλη/κακη ειναι μια θεση.

Και φυσικα χωρις καθολου search(MCTS) απολυτως λογικο να ειναι αρκετα ανικανα.

Πως ''σκέφτεται'' μια κίνηση το Alphago

Το ->value network είναι σαν τον "άνθρωπο της βροχής" μπορεί να θυμάται εκατομμύρια θέσεις από παρτίδες(βασικά σχηματισμούς)Shapes αλλά βλέπει την πιθανή πρώτη κίνηση μόνο(pattern recognition)

Ξέρει τη δυναμική της θέσης αλλά δεν ξέρει να παίζει τόσο καλό Go(1800).Aυτό εκπαιδεύτηκε με παρτίδες παιχτών από online server.

Mε ρώτησες γιατί δεν προτίμησαν παρτίδες Top Pro;

Oι παρτίδες στο GO των Pro έχουν κάτι σαν "Πνευματικά Δικαιώματα" και αυτό τουλάχιστον άφησε να εννοηθεί η Google σαν λόγο...

.....αλλά ειδικοί εικάζουν και συμφωνώ προτίμησαν παρτίδες από Ιαπωνικό server γιατί το στυλ των Ιαπώνων παιχτών είναι πιο "ήρεμο" σε σχέση με το Νότιο Κορεατικό και των Κινέζων παιχτών που παίζουν πιο επιθετικό δυναμικό παιχνίδι και μάλλον είδαν χειρότερα αποτέλεσμα.

(Και για να σου εξηγήσω πως φτιάχνεται ένας νευρώνας

με παράδειγμα στο σκάκι που γνωρίζεις πιο πολλά .

Tο Nευρωτικό δίκτυο άμα δει έναν όμορφο συνδυασμό

του Καπάροβ 8 κινήσεων δεν θα μάθει ΤΙΠΟΤΑ αλλά άμα δει σε εκατομμύρια παρτίδες μέτριων παιχτών(1400-1900) το Ματ του βοσκού

Q+ N+N+Q+N# αρκετές φορές τότε ίσως ίσως να αρχίσει να δημιουργεί νευρώνα για αυτήν την ακολουθία ελπίζω να κατάλαβεις λίγο τη διαφορά pattern και "εκπαίδευσης'')

η =>Monte Carlo μηχανή παίζει χιλιάδες παρτίδες ''αρχαρίου" (1400) δίνοντας όμως προτεραιότητα στις κινήσεις του neural network

(Οι Monte Carlo είναι πολύ αδύναμες όταν σειρά το κινήσεων είναι πολύ σημαντική.Στο σκάκι οι μηχανές Monte Carlo μπορεί καμιά φορά να μην δουν απλό ματ τεσσάρων κινήσεων άσχετα αν είναι επιπέδου Μετρ)

αρχίζοντας να δημιουργεί ένα διαχειρίσιμο Tree search για το....

...=>Policy Network που όντας καλό στο μέτρημα πλέον ΛΟΓΩ ΤΟΥ αρκετα μικρότερου Tree search που δημιουργήθηκε από την παραπάνω διακικασία ξεκινάει να ψάχνει. πολύ πιο γρήγορα...(efficiency)

Αν εντοπίζει έναν μικρό συνδυασμό 4-5 κινήσεων που αστόχησε η Monte Carlo μηχανή τσουπ και ξανά πίσω από την αρχή...αυτό μιλάμε γίνεται

για εκατοντάδες χιλιάδες φορές στον πυρήνα του Συστήματος κάθε δευτερόλεπτο.

Και παλι δεν ειναι ακριβως ετσι.

Διοτι σωστα λες οτι ενα κατορθωμα της ομαδας ειναι το παντρεμα των εκπαιδευμενων deep neural nets, policy network και value network με την MVTS, δηλαδη το οτι καταφεραν να τα βαλουν μεσα στην search αυτα τα 2 νευρωνικα δικτυα, αλλά πολυ πιο σημαντικο, ΠΟΛΥ ΠΟΛΥ ΠΟΛΥ ΠΟΛΥ ΠΟΛΥ πιο σημαντικο ηταν οτι δημιουργησαν αυτα τα 2 δικτυα.

Οτι δημιουργησαν δηλαδη μια πολυ καλη evaluation function(απο τις ΠΑΝΤΕΛΩΣ ΑΧΡΗΣΤΕΣ/ΑΝΥΠΑΡΚΤΕΣ που ειχαμε εως τωρα) για το παιχνιδι του GO. Αλλιως τι να βαλεις μεσα στην search?

Διαφωνείς για να γράψεις ότι γράφω

Οταν εκπαιδευεις ενα νευρωνικο δικτυο τοτε πχ(τυχαια νουμερα και ειναι αναλογα με την περιπτωση) στα πρωτα 1 000 000 παιχνιδια θα δεις μεγαλη βελτιωση. Μετα θα δεις μια καμψη και πχ η βελτιωση θα ειναι στο επομενο 1 εκατομμυριο παιχνιδια 50% μικροτερη. Και θα φτασει ενα σημειο(diminishing returns) οπου η βελτιωση θα ειναι σχεοδν μηδαμινη.

Ε αυτο οπως ειπα ΔΕΝ εφτασε στο AlphaGO.

Σου είπα από ένα σημείο και μετά αρχίχεις να έχεις diminishing return δηλαδή ελάχιστη αύξηση του elo που δεν αξίζει το κόπο

και μου λες ότι διαφωνείς για να γράψεις το ίδιο.

Αν διαφωνείς ότι δεν εφτασε σε αυτο το σημείο οκ επέτρεψε μου να έχω και εγώ την γνώμη μου πάντα για το value network μιλάω

Το αλλο που λες εσυ και ειπαν αυτοι ειναι οτι αν εχεις μια συγκεκριμενη search ή τελος παντων μια μηχανη που παιζει ενα παιχνιδι, αν την βαλεις σε εναν μονοπυρηνο επεξεργαστη θα εχει μια ορισμενη δυναμικοτητα. Αν την βαλεις σε 2 πυρηνες/ή CPU, θα αυξηθει(οχι κατα 100%(διπλασια δηλαδη) συνηθως αλλά λιγοτερο). Αν την βαλεις σε 4 θα αυξηθει επισης. Ε καποια στιγμη θα ερθει το σημειο των diminishing returns που λενε και οσους επεξεργαστες παραπανω και να βαλεις η δυναμικοτητα δεν θα αυξανεται.

Αυτό έγραψα και εγω γενικά δίαβασε την πρώτη παράγραφο μου σε αυτό το post ίσως καπου έχεις μπερδευτεί.

PostHelper · 19 Μαρτίου 2016

(Και για να σου εξηγήσω πως φτιάχνεται ένας νευρώνας

με παράδειγμα στο σκάκι που γνωρίζεις πιο πολλά .

Tο Nευρωτικό δίκτυο άμα δει έναν όμορφο συνδυασμό

του Καπάροβ 8 κινήσεων δεν θα μάθει ΤΙΠΟΤΑ αλλά άμα δει σε εκατομμύρια παρτίδες μέτριων παιχτών(1400-1900) το Ματ του βοσκού

Q+ N+N+Q+N# αρκετές φορές τότε ίσως ίσως να αρχίσει να δημιουργεί νευρώνα για αυτήν την ακολουθία ελπίζω να κατάλαβεις λίγο τη διαφορά pattern και "εκπαίδευσης'')

Ξερω πως δημιουργειται ενας νευρωνας δεν χρειαζοταν να μου εξηγησεις.

Δεν καταλαβα με λιγα λογια που κολλουσε το παραπανω.

η =>Monte Carlo μηχανή παίζει χιλιάδες παρτίδες ''αρχαρίου" (1400) δίνοντας όμως προτεραιότητα στις κινήσεις του neural network

(Οι Monte Carlo είναι πολύ αδύναμες όταν σειρά το κινήσεων είναι πολύ σημαντική.Στο σκάκι οι μηχανές Monte Carlo μπορεί καμιά φορά να μην δουν απλό ματ τεσσάρων κινήσεων άσχετα αν είναι επιπέδου Μετρ)

αρχίζοντας να δημιουργεί ένα διαχειρίσιμο Tree search για το....

...=>Policy Network που όντας καλό στο μέτρημα πλέον ΛΟΓΩ ΤΟΥ αρκετα μικρότερου Tree search που δημιουργήθηκε από την παραπάνω διακικασία ξεκινάει να ψάχνει. πολύ πιο γρήγορα...(efficiency)

Αν εντοπίζει έναν μικρό συνδυασμό 4-5 κινήσεων που αστόχησε η Monte Carlo μηχανή τσουπ και ξανά πίσω από την αρχή...αυτό μιλάμε γίνεται

για εκατοντάδες χιλιάδες φορές στον πυρήνα του Συστήματος κάθε δευτερόλεπτο.

Οχι. Καμια σχεση! Δεν ειναι αυτος ο αλγοριθμος που ψαχνει το AlphaGO.

Πρωτον το policy network ΔΕΝ ψαχνει. Δεν κοιταζει παρακατω κινησεις δηλαδη.

Το policy network(PL) του(supervised learning/SL) αλλα και του reinforcement learning(RL) δεχονται ως ορισμα μια θεση και δινουν output εναν 19x19 πινακα με πιθανοτικες κατανομες(για το ποια ειναι η "καλυτερη" κινηση).

Ο πραγματικος τροπος που λειτουργει το search του AlphaGO ειναι περιληπτικα: ξεκινωντας απο μια θεση, απο την ριζα δηλαδη, το SL οδηγει την MCTS που να κοιταξει περισσοτερο και ποιες βαριαντες να αναλυσει/επισκεφτει περισσοτερο. Καθε φορα που φτανει σε ενα "φυλλο", δινεται μια αρχικη τιμη σε αυτο απο το value network(VL) και τα στατιστικα της MCTS που υπαρχουν για αυτο(μεσο όρο χρησιμοποιουν !αρχικα!). Και μετα για ολα τα παρακλαδια ενος φυλλου γινεται το ιδιο με την SL να οδηγει την MCTS στο που να παει εαν μιλαμε για νεα παρακλαδια ή ενα μιλαμε για ανωτερα παραπλαδια που εχουμε ηδη επισκεφτει η MTCS οδηγειται απο τα ανανεωμενα στατιστικα για την αξια καθε θεσης μαζι με το VL.

Για την ακριβη αναδρομικη διαδικασια και το πως γινονται οι ανανεωσεις των μεσων όρων κλπ κλπ, μπορει να ανατρεξει κανείς στο paper στο Nature στις εξισωσεις 5 εως και 8.

Διαφωνείς για να γράψεις ότι γράφω

Οχι. Διαφωνω, γιατι αυτα που εγραφες ηταν λαθος.

Πχ παρερμηνευσες ή δεν καταλαβες τι εννοουσε ο Hassabis και τι ειχα αναφερει εγω περι diminishing returns.

ΔΕΝ αναφεροταν οπως ειπες στην εκπαιδευση του δικτυου ως προς πιθανα diminishing returns αλλά στην χρηση hardware!

Ξαναβαζω την ολη συζητηση μας:

Ε φυσικα αλλά εδω δεν φανηκε να συμβαινει αυτο, ειτε απο το paper στο Nature ειτε απο τις δηλωσεις τους.

Εγω το ακριβως αντιθετο καταλαβα απο τις δηλωσεις τους.

Η ομαδα του ειπε οτι παγωσε την εκπαιδευση 3 εβδομαδες πριν το ματς για να μπορεσει να το τεσταρει ...

Και παντως η reinforcement learning εκπαιδευση του δεν παρουσιασε τιποτα diminishing returns ακομα.

1.Δεν χρειάζεται να διαβάσεις ή να σου το πει ο Hassabis απλη λογική...

http://www.theverge....lligence-impact

DeepMind founder Demis Hassabis says that..

having already hit a point of diminishing returns in that regard.

Οχι καμια σχεση.

Δεν ειπε οτι εχουν diminishing returns στο θεμα της εκπαιδευσης και οτι ειδαν οτι παιξανε περισσοτερα παιχνιδια χωρις πλεον αυξηση της δυναμικοτητας. Ισα ισα οπως σου ειπα ανεφεραν οτι η δυναμικοτητα αυξανοταν αλλά επρεπε να το παγωσουν για να το τεσταρουν γιατι ειχε φτασει ο αγωνας 3 εβδομαδες πριν.

Αυτο που ειπαν και παραθετοντας ολο το κειμενο και οχι αποκομμενο απο το context οπως εκανες εσυ(δεν ξερω εσκεμμενα ή απο λαθος), ειναι οτι ειχαν diminishing returns στο θεμα του hardware! Οτι δηλαδη ειτε χρησιμοποιουσαν παραπανω hardware ειτε οχι, η δυναμικοτητα δεν θα αυξανοταν ιδιαιτερα(Αυτο ειναι καθαρα θεμα search βεβαια). Για αυτο και χρησιμοποιησαν σχεδον το ιδιο hardware με αυτο του οκτωβρη.

DeepMind founder Demis Hassabis says that although AlphaGo has improved since beating Fan Hui in October, it’s using roughly the same computing power for the Lee Se-dol matches, having already hit a point of diminishing returns in that regard.

Σου είπα από ένα σημείο και μετά αρχίχεις να έχεις diminishing return δηλαδή ελάχιστη αύξηση του elo που δεν αξίζει το κόπο

και μου λες ότι διαφωνείς για να γράψεις το ίδιο.

ΔΕΝ εγραψα το ιδιο.

Σου ειπα(ο Hassabis απο την Deemmind βασικα το ειπε) οτι ειχανε diminishing returns στο HARDWARE.

ΔΕΝ ειπε οτι ειχαν diminishing returns στην εκπαιδευση του δικτυου που ελεγες εσυ!!

Απλο ειναι να το καταλαβεις.

Αν διαφωνείς ότι δεν εφτασε σε αυτο το σημείο οκ επέτρεψε μου να έχω και εγώ την γνώμη μου πάντα για το value network μιλάω

Οι ιδιοι το ειπαν σε μια συνεντευξη στο theverge. Δεν το λεω εγω. Οι ιδιοι ειπαν οτι το PL του RL δεν παρουσιασε καμια καμψη στην "μαθηση", δεν παρατηρησαν diminishing returns δηλαδη, αλλά επειδη ηταν 3 βδομαδες πριν το ματς με τον Λι Σεντολ επρεπε να παγωσουν τα παντα για να το τεσταρουν.

Να αναφερω επισης οτι το policy network του SL αλλά και το VL μόνα τους, ΧΩΡΙΣ καμια search, νικανε τα υπολοιπα κορυφαια προγραμματα με την MCTS search τους(με 5 δευτερολεπτα ανα κινηση)!!!!!

Και αυτο ειναι ΜΟΝΑΔΙΚΟ επιτευγμα διοτι απλως και μόνο με το SL πχ οπου κοιταει μια θεση και δινει ποια ειναι η καλυτερη κινηση(εναν πινακα 19x19 οπως ειπα με μια πιθανοτικη κατανομη των καλυτερων κινησεων) σε καποια μικροδευτερολεπτα, εχουν ισχυροτερη μηχανη απο τις υπολοιπες κορυφαιες οταν αυτες σκεφτονται 5 δευτερλοεπτα την κινηση!!!!

Δηλαδη φτιαξανε μια πραγματικα εκπληκτικη evaluation function για το παιχνιδι του GO. Εκπληκτικη οσον αφορα τους υπολογιστες. Απο τις ΚΥΡΙΟΛΕΚΤΙΚΑ ΑΧΡΗΣΤΕΣ που ειχαμε ως τωρα. Και σε συνδιασμο με το παντρεμα των δικτυων VL/SL μαζι με την MCTS, στην search, ειχαμε το εκπληκτικο αυτο αποτελεσμα!!

Για όποιον θέλει Αlphago περίπου σε έκδοση τάβλι υπάρχει εντελώς δωρεάν και Ελληνικό http://ai.uom.gr/nikpapa/Palamedes/el/

Το δοκιμασα τελικα.

Σχετικα αδυναμο προγραμμα στο φευγα, το νικαω ευκολα, αλλά πολυ δυνατο στις πορτες σαφως καλυτερο απο εμενα(αν και εχω πεσει ΠΑΡΑ πολυ τα τελευταια 2 χρονια αφου δεν ασχολουμαι καθημερινα) αλλά σαφως ΠΟΛΥ ΠΟΛΥ κατωτερο απο το ExtremmeGammon 2.0, το GNUBG 1.0, το BBlitz 2.8 και το Snowie 4. Πλακωτο δεν επαιξα.

Στο φευγα μαλιστα, εχει μια ΜΕΓΑΛΗ αδυναμια που φαινεται σε 2-3 παρτιδες και μπορεις να την εκμεταλλευτεις για να το νικας ακομα πιο ευκολα, προσπαθει πολυ εντονα(και αρα το πληρωνει αυτο παιζοντας λιγοτερο καλες κινησεις), υπερβολικα εντονα θα λεγαμε να μπλοκαρει το σπιτι του αντιπαλου. Αυτο το οδηγει παντα να εχει μεγαλα προβληματα στο δικο του σπιτι ή σε προβληματα οπου ο αντιπαλος δημιουργει primes στο "μαζεμα" του αντιπαλου και ο Παλαμηδης να μενει απο εξω.

Επισης μεγαλα bugs σε καποιες ορισμενες κινησεις(δεν μπορεσα να τις κατηγοριοποιησω καθως ηταν αρκετα, πολλα θα ελεγα) και τα οποια τα κανει αρκετα συχνα και δεν ειναι καθολου αμελητεα. Bugs εννοω οτι παιζει αδιανοητα κακες κινησεις ορισμενες φορες!

Οσον αφορα το ICGA 2015 που νικησε, ειδα τα παιχνιδια και πως το νικησε(εναντια στα GNUBG και BGBlitz) και ηταν σαφεστατα λογω τυχης(ζαριου). Τα 2 υπολοιπα προγραμματα επαιζαν σαφως ανωτερες κινησεις.

Και τα performance ratings(PR) τους ηταν για το τουρνουα:

Παλαμηδης(νικητης) 5.75

GNUBG 0.55

BGBlitz 0.68

Για οποιον δεν ξερει τι ειναι το PR και τι εκφραζει, για να αποκτησει μια "αισθηση", να δωσω εναν πινακα:

Το PR συνηθως το βγαζουμε απο παιχνιδια που τα αναλυει το ExtremmeGammon γιατι ειναι το αδιαμφισβητητα καλυτερο και με μεγαλη διαφορά οχι απλως προγραμμα για backgammon(πορτες) παγκοσμιως, αλλά παικτης(συμπεριλαμβανομενων και των ανθρωπων δηλαδη) παγκοσμιως!

Ετσι αυτη τη στιγμη τα PR(οσο μικροτερο τοσο καλυτερα εμφανως απο τον πινακα) ειναι:

Μηχανες(βαζω τα standard settings αυτα που να παιζουν γρηγορα δηλαδη οχι να περιμενεις 1 ωρα):

ExremmeGammon (XGRoller+) 0.20

GNUBG 2 ply 0.6

BGBlitz 1.0 (παροτι στο τουρνουα επαιξε πολυ καλυτερα και ειχε PR 0.68)

Snowie 1.20

Παλαμηδης 5.83(εβαλα τα παιχνιδια του τουρνουα και 33 παιχνιδια που παιξαμε μαζι και τα ανελυσε το ExtremmeGammon 2)

Jellyfish γυρω στο 2.0-3.0

Ανθρωποι:

Masayuki Mochizuki 2.90

Michi Kageyama 2.95

Neil Kazaross 2.97

Ενας τυπικος Ελληνας παικτης 15-35

Ενας καλος εως πολυ καλος Ελληνας παικτης 10-15

Εγω ειχα γυρω στο 5.5 με 8.5 παλιοτερα με μια σταθεροποιηση στο 5.5 για καποιο καιρο(βασικα στο checker play ημουν γυρω στο 4-5 αλλά με εβλαπτε ανεπανορθωτα το cube play που ειμαι αισχρος) αλλά πλεον με την μικρη ενασχοληση μου αυτες τις μερες με τον Παλαμηδη και το ΕxtremmeGammon 2.0 ειμαι κοντα στο 10, εχοντας και 20ρια σε καποιες παρτιδες!!

gon1332 · 19 Μαρτίου 2016

@PostHelper

Με έχεις πορώσει και αυτές τις μέρες παίζω GNUBG. Είμαι intermediate και έχω καταλάβει λίγο το πως παίζει.

Πέρα από αυτό έχουν πολύ ενδιαφέρον τα post σας σχετικά με το θέμα. Έχω ένα φίλο που ασχολείται γενικά με νευρωνικά δίκτυα. Έχουν πολλά πεδία χρηστικότητας. Αν και απ'ότι έχω καταλάβει είναι ακόμη πίσω η επιστήμη σε αυτό τον τομέα. Υπάρχει ακόμη έδαφος.

PostHelper · 19 Μαρτίου 2016

@PostHelper

Με έχεις πορώσει και αυτές τις μέρες παίζω GNUBG. Είμαι intermediate και έχω καταλάβει λίγο το πως παίζει.

Πέρα από αυτό έχουν πολύ ενδιαφέρον τα post σας σχετικά με το θέμα. Έχω ένα φίλο που ασχολείται γενικά με νευρωνικά δίκτυα. Έχουν πολλά πεδία χρηστικότητας. Αν και απ'ότι έχω καταλάβει είναι ακόμη πίσω η επιστήμη σε αυτό τον τομέα. Υπάρχει ακόμη έδαφος.

Καλο το GNUBG, 1 εκατομμυριο φορες καλυτερο γενικοτερα(και πολυ πιο δυνατο οπως εδωσα και με στατιστικα πιο πανω και κυριως με περιπου 1 τρισεκατομμυριο δυνατοτητες παραπανω), αλλά σαν το στυλ παιχνιδιου του Jellyfish ΚΑΝΕΝΑ! Επιθετικοτατο και διασκεδαστικο στυλ.

Το βρισκει κανεις απο εδω(2 απαραιτητες ρυθμισεις παντα στο Jellysifh:

Level-> Level 7 με factor 1000 πχ και

Level-> Bearoff database ON)) :

https://web.archive.org/web/20110713102140/http://www.jellyfish-backgammon.com/download/jfl35.htm

gon1332 · 19 Μαρτίου 2016

Κρίμα που δεν είναι για GNU/Linux.

PostHelper · 19 Μαρτίου 2016

Κρίμα που δεν είναι για GNU/Linux.

Α GNU/Linux εχεις? Βλακεια. Ποιος σε φταιει?

Παντως περα απο την διασκεδαστικοτητα, το GNUBG μπορει να βοηθησει καποιον να ανεβει επιπεδα αναλυοντας τα παιχνιδια του και μετα να δει ο ιδιος τα λαθη του κλπ κλπ.

Πχ μετα απο καθε ματς(πχ στα 5 ή στα 7 ή και στα 1 πχ μόνο) πατας Analyse->Analyse game ή match or session, στο αναλυει και μετα βλεπεις δεξια καθε κινηση σου αν ηταν σωστη(με μπλε/πρασινο/κοκκινο και συμβολα σκακιου ?!, ?, ??), πόσο σωστη, ποια ηταν η σωστοτερη, κλπ. Ενω για τα τελικα στατιστικα καθε παιχνιδιου ή και ματς γενικοτερα πατας Analyse->Match or session statistics.

notevenbad · 18 Σεπτεμβρίου 2016

Για όσους ενδιαφέρονται να μάθουν για το παιχνίδι, υπάρχουν ένα σωρό πηγές στο net κτλ. Η ελληνική κοινότητα στο facebook είναι μαζεμένη στο https://www.facebook.com/groups/350505475160028/ Στο πιναρισμένο αρχείο θα βρείτε αρκετό υλικό για αρχάριους ακόμα και για άτομα που δεν γνωρίζουν ούτε τους κανόνες. http://www.playgo.to/iwtg/greek/ αυτό είναι ένα interactive που σας μαθαίνει τους κανόνες μέσα σε ένα 10λεπτο max. Στο group (του οποίου είμαι ο admin, αν δεν παινέψεις το σπίτι σου...) ανεβάζουμε videos και lectures σχετικά με το παιχνίδι, προβλήματα, αναφορές από την πορεία της εθνικής στο ομαδικό πανευρωπαϊκό και φυσικά επικείμενες συναντήσεις των μελών σε Αθήνα-Θεσσαλονίκη.

Τα περισσότερα άτομα στο group (και όχι μόνο) έμαθαν (και κόλλησαν) το παιχνίδι μέσω του anime Hikaru no go, αν θέλετε ρίξτε μια ματιά http://www2.soul-anime.us/anime/hikaru-no-go/ , είναι πολύ καλοφτιαγμένο και το λέει άνθρωπος που γενικά δεν βλέπει anime. Όσον αφορά servers που μπορείτε να παίζετε με άλλους, οι πιο γνωστοί αγγλόφωνοι είναι οι gokgs.com και online-go.com. Τα τελευταία 1-2 χρόνια η ελληνική κοινότητα έχει αρχίσει να δραστηριοποιείται με συχνές συναντήσεις irl και θα χαρούμε ιδιαίτερα να σας καλωσορίσουμε στην παρέα μας. Για τυχόν απορίες μην διστάσετε να επικοινωνήσετε.

Σύνδεση

Ο grandmaster Lee Sedol, κέρδισε τον πρώτο του αγώνα ενάντια στο AlphaGo

Προτεινόμενες αναρτήσεις

defacer

Συχνή συμμετοχή στο θέμα

Δημοφιλείς Ημέρες

Συχνή συμμετοχή στο θέμα

Δημοφιλείς Ημέρες

Δημοφιλή Μηνύματα

Human Soul

Nikobel

Oxygene

zio10

PostHelper

Periklitos25

PostHelper

Periklitos25

PostHelper

Periklitos25

PostHelper

gon1332

PostHelper

gon1332

PostHelper

notevenbad

Δημιουργήστε ένα λογαριασμό ή συνδεθείτε για να σχολιάσετε

Δημιουργία λογαριασμού

Σύνδεση

Human Soul

Nikobel

Oxygene

Σύνδεση