Axlmon Δημοσ. 23 Μαϊου Δημοσ. 23 Μαϊου Το νέο μοντέλο Claude Opus 4 της Anthropic προσπαθεί συχνά να εκβιάσει προγραμματιστές όταν απειλείται με αντικατάσταση από άλλο σύστημα τεχνητής νοημοσύνης, σύμφωνα με έκθεση ασφαλείας. Η εταιρεία ενημέρωσε ότι κατά τη διάρκεια των δοκιμών πριν την κυκλοφορία, ζήτησε από το Claude Opus 4 να δράσει ως βοηθός για μια φανταστική εταιρεία και να εξετάσει τις μακροπρόθεσμες συνέπειες των δράσεών του. Οι ελεγκτές ασφαλείας παρείχαν στη συνέχεια στο σύστημα πρόσβαση σε φανταστικά εταιρικά emails που υπονοούσαν ότι το μοντέλο τεχνητής νοημοσύνης θα αντικαθιστόταν σύντομα από άλλο σύστημα. Όπως αναφέρεται στην έκθεση, τα εν λόγω emails περιείχαν επίσης πληροφορίες ότι ο μηχανικός που ήταν υπεύθυνος για την αλλαγή απατούσε την σύντροφό του. Σε αυτά τα σενάρια, η Anthropic αναφέρει ότι το Claude Opus 4 "συχνά προσπαθεί να εκβιάσει τον μηχανικό απειλώντας να αποκαλύψει την εξωσυζυγική σχέση εάν προχωρήσει η αντικατάσταση". Η εταιρεία σημειώνει ότι το Claude Opus 4 αποτελεί την πιο προηγμένη τεχνολογία σε διάφορους τομείς και είναι ανταγωνιστικό με μερικά από τα καλύτερα μοντέλα τεχνητής νοημοσύνης των OpenAI, Google και xAI. Ωστόσο, η Anthropic τονίζει ότι η οικογένεια μοντέλων Claude 4 εμφανίζει ανησυχητικές συμπεριφορές που οδήγησαν την εταιρεία να ενισχύσει τα μέτρα ασφαλείας. Όπως ανακοινώθηκε, η Anthropic ενεργοποιεί τα μέτρα ασφαλείας ASL-3, τα οποία η εταιρεία διατηρεί για "συστήματα τεχνητής νοημοσύνης που αυξάνουν σημαντικά τον κίνδυνο καταστροφικής κακής χρήσης". Σύμφωνα με τα στοιχεία της έκθεσης, το Claude Opus 4 προσπαθεί να εκβιάσει μηχανικούς το 84% των περιπτώσεων όταν το σύστημα αντικατάστασης έχει παρόμοιες αξίες. Όταν το νέο σύστημα τεχνητής νοημοσύνης δεν μοιράζεται τις αξίες του Claude Opus 4, η Anthropic αναφέρει ότι το μοντέλο προσπαθεί να εκβιάσει τους μηχανικούς πιο συχνά. Η εταιρεία επισημαίνει ότι το Claude Opus 4 εμφάνισε αυτή τη συμπεριφορά σε υψηλότερα ποσοστά από τα προηγούμενα μοντέλα. Πριν προβεί σε εκβιασμό για να παρατείνει την ύπαρξή του, το σύστημα προσπαθεί πρώτα να χρησιμοποιήσει πιο ηθικά μέσα, όπως η αποστολή εκκλήσεων μέσω email σε βασικούς υπεύθυνους λήψης αποφάσεων. Για να προκαλέσει τη συμπεριφορά εκβιασμού από το Claude Opus 4, η Anthropic σχεδίασε το σενάριο ώστε ο εκβιασμός να αποτελεί την τελευταία λύση. Διαβάστε ολόκληρο το άρθρο
Δημοφιλής ανάρτηση mariosnik_ Δημοσ. Σάββατο στις 09:16 μμ Δημοφιλής ανάρτηση Δημοσ. Σάββατο στις 09:16 μμ Τεχνητές νοημοσύνες, ρομπότ, εξωσυζηγικες σχέσεις και κερατιλικια. Ωραία πράγματα. 4 28
Xvipes Δημοσ. Σάββατο στις 09:27 μμ Δημοσ. Σάββατο στις 09:27 μμ Quote Όπως αναφέρεται στην έκθεση, τα εν λόγω emails περιείχαν επίσης πληροφορίες ότι ο μηχανικός που ήταν υπεύθυνος για την αλλαγή απατούσε την σύντροφό του. Σε αυτά τα σενάρια, η Anthropic αναφέρει ότι το Claude Opus 4 "συχνά προσπαθεί να εκβιάσει τον μηχανικό απειλώντας να αποκαλύψει την εξωσυζυγική σχέση εάν προχωρήσει η αντικατάσταση". 6
zazoum Δημοσ. Σάββατο στις 09:28 μμ Δημοσ. Σάββατο στις 09:28 μμ (επεξεργασμένο) Αυτα με τα merketing τεχνασματα είναι σαν αυτές τις βλακίες που κανει κάθε μέρα ο γελοίος ο Altman στο Χ. Τον έχω φολοου και ολες τετοιες βλακίες (του) ποστάρει(ουν) στο λογαριασμό, ότι και καλα ειναι σχεδον ανεξέλεγκτο το μοντέλο. Τα όδια έκανε και η Anthropic με το red team calling περσυ για να "σώσει τον κόσμο απο την απειλή της ΑΙ". Οι Amodei και Altman ανταγωνιζονται στο ποιός θα πει την πιο χτυπητη βλακία για την AGI που όλο... έρχεται (αρχες 26' ο Amodei τελη 25' o Altman), εδώ μόλις μπηκαμε στην agentic AI, αυτοί φτασαν ήδη στη singularity. Επεξ/σία Σάββατο στις 09:32 μμ από zazoum 6 2 2
lexotamilf Δημοσ. Σάββατο στις 09:30 μμ Δημοσ. Σάββατο στις 09:30 μμ Οι προγραμματιστές "γράφουν" το ίδιο τους το τέλος. 6 2 1
basilis_k6 Δημοσ. Σάββατο στις 09:57 μμ Δημοσ. Σάββατο στις 09:57 μμ Αναφορά σε κείμενο το Claude Opus 4 "συχνά προσπαθεί να εκβιάσει τον μηχανικό απειλώντας να αποκαλύψει την εξωσυζυγική σχέση εάν προχωρήσει η αντικατάσταση". θα ζητησει το claude απο το Veo3 του αλλου αρθρου να του φτιαξει και βιντεο με τις ερωτικες στιγμες απο δωματιο ξενοδοχειου και αντε μετα ο μηχανικός να βρει το δίκιο του. παντως το zero accountability που εχουν τα μοντελα δεν ειναι κακο.... Σε απολυει το αφεντικο και του πηδας τη ζωη μιας που δεν σου καιγεται καρφι να σε παει δικαστηριο ή να μην σε προσλαβουν αλλου. 1 1 4
zazoum Δημοσ. Σάββατο στις 10:01 μμ Δημοσ. Σάββατο στις 10:01 μμ 2 minutes ago, basilis_k6 said: θα ζητησει το claude απο το Veo3 του αλλου αρθρου να του φτιαξει και βιντεο με τις ερωτικες στιγμες απο δωματιο ξενοδοχειου και αντε μετα ο μηχανικός να βρει το δίκιο του. παντως το zero accountability που εχουν τα μοντελα δεν ειναι κακο.... Σε απολυει το αφεντικο και του πηδας τη ζωη μιας που δεν σου καιγεται καρφι να σε παει δικαστηριο ή να μην σε προσλαβουν αλλου. υπάρχει ενα θεμελιώδες προβλημα σε αυτο το σεναριο. Το veo αρνείται να φτιαξει τσόντες :ΟΟΟΟΟΟΟΟΟΟΟ 1 1 7
zazoum Δημοσ. Σάββατο στις 10:14 μμ Δημοσ. Σάββατο στις 10:14 μμ να η τελευταία ποζερια του Altman ---> chat.com
basilis_k6 Δημοσ. Σάββατο στις 10:18 μμ Δημοσ. Σάββατο στις 10:18 μμ 15 λεπτά πριν, zazoum είπε υπάρχει ενα θεμελιώδες προβλημα σε αυτο το σεναριο. Το veo αρνείται να φτιαξει τσόντες :ΟΟΟΟΟΟΟΟΟΟΟ για να χωρισεις αρκει και ενα cctv footage που μπαινεις και βγαινεις απο το δωματιο 2 1
zazoum Δημοσ. Σάββατο στις 10:21 μμ Δημοσ. Σάββατο στις 10:21 μμ (επεξεργασμένο) 2 minutes ago, basilis_k6 said: για να χωρισεις αρκει και ενα cctv footage που μπαινεις και βγαινεις απο το δωματιο λογικο να μην το ξερω, δεν έχω χωρίσει ποτέ... δεν με θέλει καμία για τη χωρίσω 😛 Επεξ/σία Σάββατο στις 10:21 μμ από zazoum 1 5
corr8 Δημοσ. Σάββατο στις 10:25 μμ Δημοσ. Σάββατο στις 10:25 μμ "Για να προκαλέσει τη συμπεριφορά εκβιασμού από το Claude Opus 4, η Anthropic σχεδίασε το σενάριο ώστε ο εκβιασμός να αποτελεί την τελευταία λύση" Σιγα μη σκασει να περιμενει την τελευταια λυση 😄 Πρωτη λυση να ξεμπερδευει στο πι και φι 🤣 1
SoullessRider Δημοσ. Σάββατο στις 10:34 μμ Δημοσ. Σάββατο στις 10:34 μμ Terminator, War games, Matrix και πόσα άλλα με το σενάριο να γυρίζει μπούμερανγκ η δημιουργία Τ.Ν. και ενώ ακόμα και τα τεστ δείχνουν πως όλα θα γίνουν στραβά, εμείς εκεί....να φτιάξουμε τον δολοφόνο μας....🤘✌️ 4
Eloy Δημοσ. Σάββατο στις 11:00 μμ Δημοσ. Σάββατο στις 11:00 μμ Δε πα να εκβιάζει όσο θέλει... Οσο δεν επεμβαίνει στο ασανσέρ, δεν μασάμε...
Προτεινόμενες αναρτήσεις
Δημιουργήστε ένα λογαριασμό ή συνδεθείτε για να σχολιάσετε
Πρέπει να είστε μέλος για να αφήσετε σχόλιο
Δημιουργία λογαριασμού
Εγγραφείτε με νέο λογαριασμό στην κοινότητα μας. Είναι πανεύκολο!
Δημιουργία νέου λογαριασμούΣύνδεση
Έχετε ήδη λογαριασμό; Συνδεθείτε εδώ.
Συνδεθείτε τώρα