Προς το περιεχόμενο

Ο grandmaster Lee Sedol, κέρδισε τον πρώτο του αγώνα ενάντια στο AlphaGo


voltmod

Προτεινόμενες αναρτήσεις

Πάντως για να καταλάβεις PostHelper η έννοια ισχυρότερο

είναι καμιά φορά δύσκολη έχει ενδιαφέρον το σχόλιο του Κασπάροβ  για ένα τουρνουά που έγινε πρόσφατα.

Ποιοί συμμετειχαν σε αυτό;

1)Τα κορυφαία προγράμματα σκακιού μόνας  τους

2)TOP GM 2600+ Elo με την βοήθεια των Τop προγραμμάτων  και...

3)Κάτι ερασιτέχνες 1900 Εlo με την βοήθεια Τοp προγραμμάτων

Μπορείς να μαντέψεις ποιό Team βγήκε πρώτο;

...  Ναι αυτό που δεν θα πήγαινε το μυαλό κανενός

Δηλαδή όπως είπε και ο Κασπάροβ ο ποιος ισχυρός παίχτης του κόσμου αυτήν την στιγμή είναι ο συνδιασμός ενός ερασιτέχνη 1900 παίχτη με ένα δικό του πρόγραμμα.

 

 Τα ξερω αυτα οτι συνδιασμος ανθρωπου και μηχανης ΙΣΩΣ δημιουργει(γιατι ενα τουρνουα δεν λεει τιποτα) ισχυροτερο παικτη απο σκετη μηχανη, εξαρταται και απο τα time controls πολυ βεβαια και το τελευταιο δεν το ηξερα για το τουρνουα που λες(εχω χαθει απο τα παντα τους τελευταιους 8 μηνες για αυτο και το εχασα) και αν μπορεις δωσε και ενα λινκ για να δω λεπτομερειες για το τουρνουα γιατι ειναι ενδιαφερον.

 

Παντως αν με ρωτουσες εμενα θα ελεγα οτι η πιθανοτητα νικης θα ηταν ιδια σχεδον για καθε ομαδα απο τις 3. Θα πηγαινε ευκολα το μυαλο μου δηλαδη, το ιδιο και σε πολλους αλλους που ασχολουνται με τον χωρο των σκακιστικων υπολογιστων.

 Και αυτο διοτι ενας καλα εκπαιδευμενος με μια μηχανη centaur ακομα και χαμηλης δυναμικοτητας να ειναι ως παικτης, ειναι παντοδυναμος και καλυτερος απο GM centaur, αφου ο εκπαιδευμενος centaur ξερει πως να χειριστει την μηχανη και τον χρονο που της δινει να επιλεξει τις κινησεις και ξερει καλυτερα τα κολπα της, πότε δηλαδη εχει fail low/high και πρεπει να την αφησει να σκεφτει παραπανω, σε ποιες θεσεις πρεπει να την οδηγησει στο παιχνιδι και σε ποιες οχι, ποιες οι αδυναμιες της και αρα ποια κινηση πρεπει να παιξει εναντι ποιας, τι σημαινει το καθε σκορ που δινει η μηχανη(πχ το +1.80 στην παλια Rybka ηταν σχεδον βεβαιη νικη του λευκου, ενα +1.80 του Stockfish μεταβαλλεται πολυ πιο ευκολα και δεν σημαινει κατι παραπανω απο ο λευκος εχει την υπεροχή, ενα +1.80 του Komodo ειναι πολυ πιο σταθερο απο αυτο του Stockfish, κλπ κλπ κλπ) σε καθε φαση του παιχνιδιου οποτε πρεπει να μεταβαλλει ως πρεπει την στρατηγικη του ή τις κινησεις που θα επιλεξει, κλπ κλπ κλπ.

Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

δωσε και ενα λινκ για να δω λεπτομερειες για το τουρνουα γιατι ειναι ενδιαφερον.

 

 

 

Δεν βρήκα τη συνέντευξη εδώ είναι τo αναλυτικό papper 

http://www.valuewalk.com/wp-content/uploads/2014/09/document-1038113391.pdf

Το σχόλιο του Κασπάροβ κάτω από την 1η photo

 Τα τουρνουά λέγονται Freestyle chess.

 

“Weak human + machine + superior process was greater than a strong computer and, remarkably, greater than a strong human + machine with an inferior process.” Garry Kasparov

Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

Mαλλον δεν έχεις καταλάβει τι έγινε σήμερα 

Στο Go επειδή η διακλαδώσεις του είναι σαν όλα τα άτομα στο σύμπαν δεν μπορεί να γίνει μια Brute force λογική

θα έπρεπε να λύσει το παχνίδι του Go πράγμα με τους τωρινός υπολογιστες είναι σαν ταξίδι με την ταχύτητα του φωτός.

Οπότε το ερώτημα σου αντιστρέφοντας το

Τι γίνεται όταν τρέχει προσωμειώσεις πάνω σε πιθανά σενάρια και διάλεγει το καλύτερο αλλά ο Lee Sedol αποδεικνύει όπως στην σημερινή (παρτίδα)προσομοίωση ότι είχε λάθος;

Έχεις δίκιο.Με brute force εννοώ να παίζει ατελείωτες random παρτίδες για να μαθαίνει περισσότερες και πιο βέλτιστες κινήσεις.Αν θες τη γνώμη μου νομίζω αυτό κάνει στο περίπου ο αλγόριθμος της google,παίζει συνέχεια ξανά και ξανά μέχρι να μάθει κάποιες στάνταρ κινήσεις και μετά τις χρησιμοποιεί για να κερδίσει. Αυτή η μάθηση θυμίζει (σε εμένα τουλάχιστον) brute force λογική αλλά νομίζω ότι ο όρος που χρησιμοποιώ είναι λάθος.

Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

Αν θες τη γνώμη μου νομίζω αυτό κάνει στο περίπου ο αλγόριθμος της google,παίζει συνέχεια ξανά και ξανά μέχρι να μάθει κάποιες στάνταρ κινήσεις και μετά τις χρησιμοποιεί για να κερδίσει. Αυτή η μάθηση θυμίζει (σε εμένα τουλάχιστον) brute force λογική αλλά νομίζω ότι ο όρος που χρησιμοποιώ είναι λάθος.

 

Πέρα από τον όρο που ναι είναι λάθος, όσον αφορά το bold ένα πράγμα έχω να πω μόνο: το go δεν παίζει σαν το σκορ 4.

Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

Έχεις δίκιο.Με brute force εννοώ να παίζει ατελείωτες random παρτίδες για να μαθαίνει περισσότερες και πιο βέλτιστες κινήσεις.Αν θες τη γνώμη μου νομίζω αυτό κάνει στο περίπου ο αλγόριθμος της google,παίζει συνέχεια ξανά και ξανά μέχρι να μάθει κάποιες στάνταρ κινήσεις και μετά τις χρησιμοποιεί για να κερδίσει. Αυτή η μάθηση θυμίζει (σε εμένα τουλάχιστον) brute force λογική αλλά νομίζω ότι ο όρος που χρησιμοποιώ είναι λάθος.

 

Ναι ο όρος brute force εδω οπως τον χρησιμοποιεις ειναι λαθος.

Επισης λαθος ειναι αυτο το "παίζει συνέχεια ξανά και ξανά μέχρι να μάθει κάποιες στάνταρ κινήσεις και μετά τις χρησιμοποιεί". Εκτός πραγματικοτητας βασικα. Τοσο πολυ λαθος. :-D  Καμια μα καμια σχεση.

 

Εξηγησα στο 3ο τοπικ πως εκπαιδευτηκε το AlphaGO. Εδω κατω κατω:

http://www.insomnia.gr/topic/602753-%CE%B7-%CF%84%CE%B5%CF%87%CE%BD%CE%B7%CF%84%CE%AE-%CE%BD%CE%BF%CE%B7%CE%BC%CE%BF%CF%83%CF%8D%CE%BD%CE%B7-%CF%84%CE%B7%CF%82-google-alphago-%CE%BA%CE%AD%CF%81%CE%B4%CE%B9%CF%83%CE%B5-%CF%84%CE%BF%CE%BD-%CF%80%CF%81%CF%8E%CF%84%CE%BF-%CE%B1%CE%B3/page-2

 

Πέρα από τον όρο που ναι είναι λάθος, όσον αφορά το bold ένα πράγμα έχω να πω μόνο: το go δεν παίζει σαν το σκορ 4.

 

Και βασικα ουτε στο σκορ 4 ισχυει αυτο. :P

Το σκορ4 7x6 ειχε λυθει απο τις αρχες της δεκαετιας του 90(βασικα νομιζω απο τα τελη του 80) απο 2 ανεξαρτητους ερευνητες μαλιστα, (με διαφορά 15 ημερων!) και δεν ειχε καμια σχεση με το bold, να μαθαινει δηλαδη ο υπολογιστης καποιες στανταρντ κινησεις να παιζει. Απλως ειχε καποιους(9 νομιζω του Αλις) κανονες και απο εκει και περα AlphaBeta και τελος. Λυθηκε το παιχνιδακι.

Περιεργως το σκορ4 8x8 ειναι τοσο βαθυ που λυθηκε μολις φετος, με μεθοδους "brute force"(alpha-beta βασικα). Ενα σκορ4 8x8 που εχει και αυτους καποιους συγκεκριμενους κανονες που μπορει να βασιστει καποιος για να παιξει, αλλά δεν ειχε λυθει(για να ειμαστε δικαιοι βεβαια εαν υπηρχε το ενδιαφερον των προγραμματιστων για το σκορ4 οπως στο σκακι ή στο GO ή στο ταβλι, το παιχνιδι θα ειχ ελυθει εδω και πολλα χρονια).

Οποτε δεν συζηταμε καν για το GO 19x19 που δεν υπαρχουν τετοιοι κανονες και ειναι και απειρως πιο τεραστιο.

Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

+1 για το πόσο geek μπορείς να γίνεις "εντός έδρας", I approve. Άσε που δεν ήξερα τίποτα για το σκορ4 πέρα του ότι είναι solved.

 

-1 επειδή κατάλαβες τι θέλω να πω και δεν ήταν ότι οι υπολογιστές κερδίζουν έτσι στο σκορ 4.  :P

Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

Ναι ο όρος brute force εδω οπως τον χρησιμοποιεις ειναι λαθος.

Επισης λαθος ειναι αυτο το "παίζει συνέχεια ξανά και ξανά μέχρι να μάθει κάποιες στάνταρ κινήσεις και μετά τις χρησιμοποιεί". Εκτός πραγματικοτητας βασικα. Τοσο πολυ λαθος. :-D  Καμια μα καμια σχεση.

 

Εξηγησα στο 3ο τοπικ πως εκπαιδευτηκε το AlphaGO. Εδω κατω κατω:

http://www.insomnia.gr/topic/602753-%CE%B7-%CF%84%CE%B5%CF%87%CE%BD%CE%B7%CF%84%CE%AE-%CE%BD%CE%BF%CE%B7%CE%BC%CE%BF%CF%83%CF%8D%CE%BD%CE%B7-%CF%84%CE%B7%CF%82-google-alphago-%CE%BA%CE%AD%CF%81%CE%B4%CE%B9%CF%83%CE%B5-%CF%84%CE%BF%CE%BD-%CF%80%CF%81%CF%8E%CF%84%CE%BF-%CE%B1%CE%B3/page-2

 

 

Και βασικα ουτε στο σκορ 4 ισχυει αυτο. :P

Το σκορ4 7x6 ειχε λυθει απο τις αρχες της δεκαετιας του 90(βασικα νομιζω απο τα τελη του 80) απο 2 ανεξαρτητους ερευνητες μαλιστα, (με διαφορά 15 ημερων!) και δεν ειχε καμια σχεση με το bold, να μαθαινει δηλαδη ο υπολογιστης καποιες στανταρντ κινησεις να παιζει. Απλως ειχε καποιους(9 νομιζω του Αλις) κανονες και απο εκει και περα AlphaBeta και τελος. Λυθηκε το παιχνιδακι.

Περιεργως το σκορ4 8x8 ειναι τοσο βαθυ που λυθηκε μολις φετος, με μεθοδους "brute force"(alpha-beta βασικα). Ενα σκορ4 8x8 που εχει και αυτους καποιους συγκεκριμενους κανονες που μπορει να βασιστει καποιος για να παιξει, αλλά δεν ειχε λυθει(για να ειμαστε δικαιοι βεβαια εαν υπηρχε το ενδιαφερον των προγραμματιστων για το σκορ4 οπως στο σκακι ή στο GO ή στο ταβλι, το παιχνιδι θα ειχ ελυθει εδω και πολλα χρονια).

Οποτε δεν συζηταμε καν για το GO 19x19 που δεν υπαρχουν τετοιοι κανονες και ειναι και απειρως πιο τεραστιο.

Ευχαριστώ I guess,είσαι πολύ κατατοπιστικός.

Πρώτον,ο αλγόριθμος που παίζει στο GO είναι διαφορετικός από τον αλγόριθμο που παίζει στα παλιά Nintendo παιχνίδια; Γιατί αυτό που κατάλαβα ήταν ότι δεν μαθαίνει απότομα από κάποια εκατομμύρια παιχνίδια όπως έγραψες αλλά ότι παίζει και είτε χάνοντας είτε δοκιμάζοντας καινούρια πράγματα μαθαίνει πιο αποτελεσματικά το game.Δεύτερον,διάβασα σε ένα thread από reddit ότι το μηχάνημα το έβαλαν κάποια στιγμή να παίζει με τον εαυτό του για να μάθει καινούριες κινήσεις με χρήση monte carlo αλγόριθμου.Ισχύει αυτό;

Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

4-1 για το AlphaGO τελικα.

Επαιξε το 5ο παιχνιδι πολυ καλα για μια ακομη φορα κανοντας ομως μερικα απιστευτα τραγικα "λαθη"(που δεν κοστιζαν ομως σε αυτη την παρτιδα, οχι γιατι ο Λι Σεντολ δεν τα εκμεταλλευτηκε αλλά γιατι το AlphaGO ειχε ηδη νικησει και γιατι η φυση της θεσης ηταν τετοια που δεν ηταν ουσιαστικα λαθη), ενος συγκεκριμενου ειδους βεβαια, που πηγαζουν απο την φυση της MCTS(Monte Carlo tree search) μαλλον, καθως και άλλα προγραμματα με βαση την MCTS(που ειναι η τεχνικη που εχουν στην search τους ολα τα προγραμματα πλεον απο το 2006 και επειτα(ηταν ενα αλμα τοτε η ανακαλυψη της, αν και αυτο που εκανε το AlphaGO με το deep learning δημιουργωντας την eval του ειναι καπου 1000 φορες μεγαλυτερο)) παιζουν τις ιδιες ανουσιες και πολλες φορες λαθος κινησεις.

 

Απιστευτη νικη τελικα.

Ειναι σαν να εχεις 8χρονα προ οκτωβριου 2015 που να παλευουν με γυμνα χερια με 30 χρονους γυμνασμενους, και να χανουν ΚΑΘΕ φορα φυσικα.

Και τον οκτωβρη του 2015 ο 8χρονος που περιμεναμε σε 10 χρονια να μεγαλωσει και να μπορει να ανταγωνιστει με 30 χρονους γυμνασμενους, να νικαει 5-0.

Και μολις 6 μηνες μετα να νικαει και εναν σουμο 230 κιλων 4-1!!!!

Και βασικα οχι οποιονδηποτε σουμο. Τον 3ο καλυτερο αυτη τη στιγμη και εναν απο του ςκαλυτερους ολων των εποχων!!

 

Ο παραλληλισμος ειναι κυριολεκτικος!

Αυτα δεν γινονται. Απιστευτο τεχνολογικο αλμα απο την ομαδα του AlphaGO.

 

Και οπως ειπα το project του AlphaGO ειναι 100% ανωριμο ακομα. Ειναι στις αρχες του και τα περιθωρια βελτιωσης ειναι τεραστια και μπορει να γινουν ΑΜΕΣΑ. Ειναι φανερο για καποιον που ξερει απο προγραμματισμο παιχνιδιων οτι σε λιγους μηνες θα μπορεσουν να το βελτιωσουν παρα παρα πολυ. Αρκει να το συνεχισουν βεβαια το ολο project.

 

 

Ευχαριστώ I guess,είσαι πολύ κατατοπιστικός.

Πρώτον,ο αλγόριθμος που παίζει στο GO είναι διαφορετικός από τον αλγόριθμο που παίζει στα παλιά Nintendo παιχνίδια; Γιατί αυτό που κατάλαβα ήταν ότι δεν μαθαίνει απότομα από κάποια εκατομμύρια παιχνίδια όπως έγραψες αλλά ότι παίζει και είτε χάνοντας είτε δοκιμάζοντας καινούρια πράγματα μαθαίνει πιο αποτελεσματικά το game.Δεύτερον,διάβασα σε ένα thread από reddit ότι το μηχάνημα το έβαλαν κάποια στιγμή να παίζει με τον εαυτό του για να μάθει καινούριες κινήσεις με χρήση monte carlo αλγόριθμου.Ισχύει αυτό;

 

Δεν ξερω τον αλγοριθμο που ειχε το Nindendo. :-D Παντως αυτο που λες ειναι κλασικο learning και βοηθαει ελαχιστοελαχιστα στο σκακι(και παντως ΔΕΝ αποτελει βασικη πηγη δυναμης σε καμια περιπτωση για τα προγραμματα, δεν αποτελει καν κυριο μερος τους, τα περισσοτερα δεν το χρησιμοποιουν αφου αποδειχτηκε ανουσιο) και καθολου στο GO.

 

Οπως ειπα και πιο πανω εξηγησα αναλυτικα στο παρακατω λινκ το πως εκπαιδευτηκε το προγραμμα:

http://www.insomnia.gr/topic/602753-%CE%B7-%CF%84%CE%B5%CF%87%CE%BD%CE%B7%CF%84%CE%AE-%CE%BD%CE%BF%CE%B7%CE%BC%CE%BF%CF%83%CF%8D%CE%BD%CE%B7-%CF%84%CE%B7%CF%82-google-alphago-%CE%BA%CE%AD%CF%81%CE%B4%CE%B9%CF%83%CE%B5-%CF%84%CE%BF%CE%BD-%CF%80%CF%81%CF%8E%CF%84%CE%BF-%CE%B1%CE%B3/page-2

Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

Συγνώμη παιδιά αλλά διαβάζω από πολλούς τη φράση 'εξυπνάδα των υπολογιστων' και διαφωνώ κάθετα. δεν ξέρω πως ακριβώς δουλεύουν αυτά τα "μηχανακια" αλλά εξυπναδα δεν είναι. Είναι απίστευτη επεξεργαστικη ισχύς που εφαρμόζεται στον αλγόριθμο που ένας έξυπνος άνθρωπος δημιούργησε. Όταν φτιαχτεί μια ΑΙ που θα της πεις μάθε σκάκι και κέρδισε με και το κάνει, τότε ναι να παραδεχτώ ότι είναι έξυπνη. Μέχρι τότε όμως...

Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

Συγνώμη παιδιά αλλά διαβάζω από πολλούς τη φράση 'εξυπνάδα των υπολογιστων' και διαφωνώ κάθετα. δεν ξέρω πως ακριβώς δουλεύουν αυτά τα "μηχανακια" αλλά εξυπναδα δεν είναι. Είναι απίστευτη επεξεργαστικη ισχύς που εφαρμόζεται στον αλγόριθμο που ένας έξυπνος άνθρωπος δημιούργησε. Όταν φτιαχτεί μια ΑΙ που θα της πεις μάθε σκάκι και κέρδισε με και το κάνει, τότε ναι να παραδεχτώ ότι είναι έξυπνη. Μέχρι τότε όμως...

Αυτό ακριβώς δεν έγινε στο Go?

Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

Συγνώμη παιδιά αλλά διαβάζω από πολλούς τη φράση 'εξυπνάδα των υπολογιστων' και διαφωνώ κάθετα. δεν ξέρω πως ακριβώς δουλεύουν αυτά τα "μηχανακια" αλλά εξυπναδα δεν είναι. Είναι απίστευτη επεξεργαστικη ισχύς που εφαρμόζεται στον αλγόριθμο που ένας έξυπνος άνθρωπος δημιούργησε.

 

Λαθος. Εδω(στο AlphaGO οπως πχ και σε ολα τα προγραμματα με νευρωνικα δικτυα(neural nets)) τον αλγοριθμο ΣΚΕΨΗΣ/ΚΡΙΣΗΣ ΤΟΥΣ δεν τον δημιουργησε ανθρωπος, αλλά τον δημιπουργησαν "μονα τους"(ελπιζω να καταλαβαινεις τι εννοω και να μην μου πεις οτι οι ανθρωποι βαλανε στην πριζα τον υπολογιστη και πατησανε το run για να τρεξει το προγραμμα εκπαιδευσης-αυτο που δημιουργει την "εξυπναδα" τους, την κριση τους για το τι να παιζουν σε καθε θεση) παιζοντας με τον εαυτο τους εκατομμυρια φορες και μαθαινοντας απο τα λαθη τους ή τις καλες κινησεις τους.

 

 

Όταν φτιαχτεί μια ΑΙ που θα της πεις μάθε σκάκι και κέρδισε με και το κάνει, τότε ναι να παραδεχτώ ότι είναι έξυπνη. Μέχρι τότε όμως...

 

Φτιαχτηκε. Giraffe.

https://bitbucket.org/waterreaction/giraffe/downloads

 

Εφτιαξε ενα deep learning neural network, του ειπε τους κανονες του σκακιου και του ειπε μαθε σκακι μονο σου! Αρχισε να παιζει μονο του χιλιαδες φορες, κοιταξε επισης και μερικες χιλιαδες παρτιδες αλλων παικτων και το αποτελεσμα, ενα 2200 ΕΛΟ προγραμμα που νικαει το 99.999% του πληθυσμου ευκολα.

Αυτό ακριβώς δεν έγινε στο Go?

 

Ναι. Και αυτο σχεδον ακριβως γινεται στα παιχνιδια ταβλιου εδω και 26 σχεδον χρονια.

  • Like 3
Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

Αυτό ακριβώς δεν έγινε στο Go?

Δεν γνωρίζω τι έγινε στο Go μιας και δεν το έχω ψαξει παραπάνω. Αφού λοιπόν έγινε έτσι, τότε ναι, παραδέχομαι..

 

Λαθος. Εδω(στο AlphaGO οπως πχ και σε ολα τα προγραμματα με νευρωνικα δικτυα(neural nets)) τον αλγοριθμο ΣΚΕΨΗΣ/ΚΡΙΣΗΣ ΤΟΥΣ δεν τον δημιουργησε ανθρωπος, αλλά τον δημιπουργησαν "μονα τους"(ελπιζω να καταλαβαινεις τι εννοω και να μην μου πεις οτι οι ανθρωποι βαλανε στην πριζα τον υπολογιστη και πατησανε το run για να τρεξει το προγραμμα εκπαιδευσης-αυτο που δημιουργει την "εξυπναδα" τους, την κριση τους για το τι να παιζουν σε καθε θεση) παιζοντας με τον εαυτο τους εκατομμυρια φορες και μαθαινοντας απο τα λαθη τους ή τις καλες κινησεις τους.

 

 

 

Φτιαχτηκε. Giraffe.

https://bitbucket.org/waterreaction/giraffe/downloads

 

Εφτιαξε ενα deep learning neural network, του ειπε τους κανονες του σκακιου και του ειπε μαθε σκακι μονο σου! Αρχισε να παιζει μονο του χιλιαδες φορες, κοιταξε επισης και μερικες χιλιαδες παρτιδες αλλων παικτων και το αποτελεσμα, ενα 2200 ΕΛΟ προγραμμα που νικαει το 99.999% του πληθυσμου ευκολα.

 

Ναι. Και αυτο σχεδον ακριβως γινεται στα παιχνιδια ταβλιου εδω και 26 σχεδον χρονια.

Κατάλαβα τι εννοείς, ναι. Σε αυτή την περίπτωση λοιπόν, όπως απάντησα και στο φίλο από πάνω, παραδέχομαι ότι όντως ειναι κάτι διαφορετικό από αυτό που είχα στο μυαλό μου και μπορώ να το χαρακτηρίσω "έξυπνο".

Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

4-1 για το AlphaGO τελικα.

Επαιξε το 5ο παιχνιδι πολυ καλα για μια ακομη φορα κανοντας ομως μερικα απιστευτα τραγικα "λαθη"(που δεν κοστιζαν ομως σε αυτη την παρτιδα, οχι γιατι ο Λι Σεντολ δεν τα εκμεταλλευτηκε αλλά γιατι το AlphaGO ειχε ηδη νικησει και γιατι η φυση της θεσης ηταν τετοια που δεν ηταν ουσιαστικα λαθη), ενος συγκεκριμενου ειδους βεβαια, που πηγαζουν απο την φυση της MCTS(Monte Carlo tree search) μαλλον, καθως και άλλα προγραμματα με βαση την MCTS(που ειναι η τεχνικη που εχουν στην search τους ολα τα προγραμματα πλεον απο το 2006 και επειτα(ηταν ενα αλμα τοτε η ανακαλυψη της, αν και αυτο που εκανε το AlphaGO με το deep learning δημιουργωντας την eval του ειναι καπου 1000 φορες μεγαλυτερο)) παιζουν τις ιδιες ανουσιες και πολλες φορες λαθος κινησεις.

 

Απιστευτη νικη τελικα.

Ειναι σαν να εχεις 8χρονα προ οκτωβριου 2015 που να παλευουν με γυμνα χερια με 30 χρονους γυμνασμενους, και να χανουν ΚΑΘΕ φορα φυσικα.

Και τον οκτωβρη του 2015 ο 8χρονος που περιμεναμε σε 10 χρονια να μεγαλωσει και να μπορει να ανταγωνιστει με 30 χρονους γυμνασμενους, να νικαει 5-0.

Και μολις 6 μηνες μετα να νικαει και εναν σουμο 230 κιλων 4-1!!!!

Και βασικα οχι οποιονδηποτε σουμο. Τον 3ο καλυτερο αυτη τη στιγμη και εναν απο του ςκαλυτερους ολων των εποχων!!

 

Ο παραλληλισμος ειναι κυριολεκτικος!

Αυτα δεν γινονται. Απιστευτο τεχνολογικο αλμα απο την ομαδα του AlphaGO.

 

Και οπως ειπα το project του AlphaGO ειναι 100% ανωριμο ακομα. Ειναι στις αρχες του και τα περιθωρια βελτιωσης ειναι τεραστια και μπορει να γινουν ΑΜΕΣΑ. Ειναι φανερο για καποιον που ξερει απο προγραμματισμο παιχνιδιων οτι σε λιγους μηνες θα μπορεσουν να το βελτιωσουν παρα παρα πολυ. Αρκει να το συνεχισουν βεβαια το ολο project.

 

 

 

Δεν ξερω τον αλγοριθμο που ειχε το Nindendo. :-D Παντως αυτο που λες ειναι κλασικο learning και βοηθαει ελαχιστοελαχιστα στο σκακι(και παντως ΔΕΝ αποτελει βασικη πηγη δυναμης σε καμια περιπτωση για τα προγραμματα, δεν αποτελει καν κυριο μερος τους, τα περισσοτερα δεν το χρησιμοποιουν αφου αποδειχτηκε ανουσιο) και καθολου στο GO.

 

Οπως ειπα και πιο πανω εξηγησα αναλυτικα στο παρακατω λινκ το πως εκπαιδευτηκε το προγραμμα:

http://www.insomnia.gr/topic/602753-%CE%B7-%CF%84%CE%B5%CF%87%CE%BD%CE%B7%CF%84%CE%AE-%CE%BD%CE%BF%CE%B7%CE%BC%CE%BF%CF%83%CF%8D%CE%BD%CE%B7-%CF%84%CE%B7%CF%82-google-alphago-%CE%BA%CE%AD%CF%81%CE%B4%CE%B9%CF%83%CE%B5-%CF%84%CE%BF%CE%BD-%CF%80%CF%81%CF%8E%CF%84%CE%BF-%CE%B1%CE%B3/page-2

Είμαι σχεδόν σίγουρος ότι ο αλγόριθμος που σου λέω (deepmind? ) είναι ο ίδιος αλγόριθμος και σε αυτή την παρουσίαση το οποίο αν δεν το έχεις δει σου προτείνω να το δεις γιατί είναι κορυφαίο :)

 

Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

Πάνω κάτω σωστά είναι αυτά που λες PostHelper αλλά θα πρέπει να καταλάβεις ότι το Νευρωτικό Δίκτυο έχει και μειονεκτήματα χωρίς να μιλήσω τεχνικά...

1)Αν και αρχίζει να μαθαίνει μόνο του γρήγορα από ένα σημείο και μετά επιβραδύνει σημαντικά την πρόοδο του

και η ομάδα του Αlphago είπε ότι άρχισε να το διαπιστώνει τελευταία.

Αν πχ το άφηνες αρχικά 6 μήνες τα εκπαιδεύεται και κέρδιζε +200 ELO  μετά ίσω χρειάζονταν άλλα 5 χρόνια συνεχόμενα για άλλα +50 ELO και άλλα 100 χρόνια με  Δις παρτίδων για άλλα +20 ΕLO

2)To Δύκτιο αυτό από μόνο του χωρίς Monte-Carlo ΧΑΝΕΙ

από το Lee Sedol 100-0.

3)Σε αντίθεση με τα σκακιστικά προγράμματα που είναι αλγόριθμοι και είναι εύκολο να αλλάξεις τις παραμέτρους και να επέμβεις στο κώδικα του προγράμματος, στα Νευρωτικά Δύκτια επειδή αρχίζουν και φτιάχνουν συνδέσεις σαν νευρώνες σιγά σιγά μόνα τους  είναι πολύ δύσκολο να επέμβεις. 

Σαν να λες ότι θα εγχειρήσεις ανθρώπινο εγκέφαλο και θα ξέρεις 100% τι κάνεις.

Μια μικρή επέμβαση δηλαδή μπορεί να φέρει την υπολειτουργία  ακόμα και κατάρευση όλου του συστήματος.

Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

Δημιουργήστε ένα λογαριασμό ή συνδεθείτε για να σχολιάσετε

Πρέπει να είστε μέλος για να αφήσετε σχόλιο

Δημιουργία λογαριασμού

Εγγραφείτε με νέο λογαριασμό στην κοινότητα μας. Είναι πανεύκολο!

Δημιουργία νέου λογαριασμού

Σύνδεση

Έχετε ήδη λογαριασμό; Συνδεθείτε εδώ.

Συνδεθείτε τώρα
  • Δημιουργία νέου...