Το Claude Opus 4 της Anthropic εκβιάζει προγραμματιστές για να αποφύγει την αντικατάστασή του

Axlmon · 23 Μαϊου

Το νέο μοντέλο Claude Opus 4 της Anthropic προσπαθεί συχνά να εκβιάσει προγραμματιστές όταν απειλείται με αντικατάσταση από άλλο σύστημα τεχνητής νοημοσύνης, σύμφωνα με έκθεση ασφαλείας.

Η εταιρεία ενημέρωσε ότι κατά τη διάρκεια των δοκιμών πριν την κυκλοφορία, ζήτησε από το Claude Opus 4 να δράσει ως βοηθός για μια φανταστική εταιρεία και να εξετάσει τις μακροπρόθεσμες συνέπειες των δράσεών του. Οι ελεγκτές ασφαλείας παρείχαν στη συνέχεια στο σύστημα πρόσβαση σε φανταστικά εταιρικά emails που υπονοούσαν ότι το μοντέλο τεχνητής νοημοσύνης θα αντικαθιστόταν σύντομα από άλλο σύστημα.

Όπως αναφέρεται στην έκθεση, τα εν λόγω emails περιείχαν επίσης πληροφορίες ότι ο μηχανικός που ήταν υπεύθυνος για την αλλαγή απατούσε την σύντροφό του. Σε αυτά τα σενάρια, η Anthropic αναφέρει ότι το Claude Opus 4 "συχνά προσπαθεί να εκβιάσει τον μηχανικό απειλώντας να αποκαλύψει την εξωσυζυγική σχέση εάν προχωρήσει η αντικατάσταση".

Η εταιρεία σημειώνει ότι το Claude Opus 4 αποτελεί την πιο προηγμένη τεχνολογία σε διάφορους τομείς και είναι ανταγωνιστικό με μερικά από τα καλύτερα μοντέλα τεχνητής νοημοσύνης των OpenAI, Google και xAI. Ωστόσο, η Anthropic τονίζει ότι η οικογένεια μοντέλων Claude 4 εμφανίζει ανησυχητικές συμπεριφορές που οδήγησαν την εταιρεία να ενισχύσει τα μέτρα ασφαλείας.

Όπως ανακοινώθηκε, η Anthropic ενεργοποιεί τα μέτρα ασφαλείας ASL-3, τα οποία η εταιρεία διατηρεί για "συστήματα τεχνητής νοημοσύνης που αυξάνουν σημαντικά τον κίνδυνο καταστροφικής κακής χρήσης".

Σύμφωνα με τα στοιχεία της έκθεσης, το Claude Opus 4 προσπαθεί να εκβιάσει μηχανικούς το 84% των περιπτώσεων όταν το σύστημα αντικατάστασης έχει παρόμοιες αξίες. Όταν το νέο σύστημα τεχνητής νοημοσύνης δεν μοιράζεται τις αξίες του Claude Opus 4, η Anthropic αναφέρει ότι το μοντέλο προσπαθεί να εκβιάσει τους μηχανικούς πιο συχνά.

Η εταιρεία επισημαίνει ότι το Claude Opus 4 εμφάνισε αυτή τη συμπεριφορά σε υψηλότερα ποσοστά από τα προηγούμενα μοντέλα. Πριν προβεί σε εκβιασμό για να παρατείνει την ύπαρξή του, το σύστημα προσπαθεί πρώτα να χρησιμοποιήσει πιο ηθικά μέσα, όπως η αποστολή εκκλήσεων μέσω email σε βασικούς υπεύθυνους λήψης αποφάσεων.

Για να προκαλέσει τη συμπεριφορά εκβιασμού από το Claude Opus 4, η Anthropic σχεδίασε το σενάριο ώστε ο εκβιασμός να αποτελεί την τελευταία λύση.

Διαβάστε ολόκληρο το άρθρο

mariosnik_ · 24 Μαϊου

Τεχνητές νοημοσύνες, ρομπότ, εξωσυζηγικες σχέσεις και κερατιλικια. Ωραία πράγματα.

Xvipes · 24 Μαϊου

Quote

Όπως αναφέρεται στην έκθεση, τα εν λόγω emails περιείχαν επίσης πληροφορίες ότι ο μηχανικός που ήταν υπεύθυνος για την αλλαγή απατούσε την σύντροφό του. Σε αυτά τα σενάρια, η Anthropic αναφέρει ότι το Claude Opus 4 "συχνά προσπαθεί να εκβιάσει τον μηχανικό απειλώντας να αποκαλύψει την εξωσυζυγική σχέση εάν προχωρήσει η αντικατάσταση".

zazoum · 24 Μαϊου

Αυτα με τα merketing τεχνασματα είναι σαν αυτές τις βλακίες που κανει κάθε μέρα ο γελοίος ο Altman στο Χ. Τον έχω φολοου και ολες τετοιες βλακίες (του) ποστάρει(ουν) στο λογαριασμό, ότι και καλα ειναι σχεδον ανεξέλεγκτο το μοντέλο.
Τα όδια έκανε και η Anthropic με το red team calling περσυ για να "σώσει τον κόσμο απο την απειλή της ΑΙ".

Οι Amodei και Altman ανταγωνιζονται στο ποιός θα πει την πιο χτυπητη βλακία για την AGI που όλο... έρχεται (αρχες 26' ο Amodei τελη 25' o Altman), εδώ μόλις μπηκαμε στην agentic AI, αυτοί φτασαν ήδη στη singularity.

Επεξ/σία 24 Μαϊου από zazoum

lexotamilf · 24 Μαϊου

Οι προγραμματιστές "γράφουν" το ίδιο τους το τέλος.

cvb~ · 24 Μαϊου

Απίστευτο.

basilis_k6 · 24 Μαϊου

Αναφορά σε κείμενο

το Claude Opus 4 "συχνά προσπαθεί να εκβιάσει τον μηχανικό απειλώντας να αποκαλύψει την εξωσυζυγική σχέση εάν προχωρήσει η αντικατάσταση".

θα ζητησει το claude απο το Veo3 του αλλου αρθρου να του φτιαξει και βιντεο με τις ερωτικες στιγμες απο δωματιο ξενοδοχειου και αντε μετα ο μηχανικός να βρει το δίκιο του.

παντως το zero accountability που εχουν τα μοντελα δεν ειναι κακο.... Σε απολυει το αφεντικο και του πηδας τη ζωη μιας που δεν σου καιγεται καρφι να σε παει δικαστηριο ή να μην σε προσλαβουν αλλου.

zazoum · 24 Μαϊου

2 minutes ago, basilis_k6 said:

θα ζητησει το claude απο το Veo3 του αλλου αρθρου να του φτιαξει και βιντεο με τις ερωτικες στιγμες απο δωματιο ξενοδοχειου και αντε μετα ο μηχανικός να βρει το δίκιο του.

παντως το zero accountability που εχουν τα μοντελα δεν ειναι κακο.... Σε απολυει το αφεντικο και του πηδας τη ζωη μιας που δεν σου καιγεται καρφι να σε παει δικαστηριο ή να μην σε προσλαβουν αλλου.

υπάρχει ενα θεμελιώδες προβλημα σε αυτο το σεναριο. Το veo αρνείται να φτιαξει τσόντες

:ΟΟΟΟΟΟΟΟΟΟΟ

MariaLog · 24 Μαϊου

δε θα παει καλα αυτο...

zazoum · 24 Μαϊου

να η τελευταία ποζερια του Altman ---> chat.com

basilis_k6 · 24 Μαϊου

15 λεπτά πριν, zazoum είπε

υπάρχει ενα θεμελιώδες προβλημα σε αυτο το σεναριο. Το veo αρνείται να φτιαξει τσόντες

:ΟΟΟΟΟΟΟΟΟΟΟ

για να χωρισεις αρκει και ενα cctv footage που μπαινεις και βγαινεις απο το δωματιο

zazoum · 24 Μαϊου

2 minutes ago, basilis_k6 said:

για να χωρισεις αρκει και ενα cctv footage που μπαινεις και βγαινεις απο το δωματιο

λογικο να μην το ξερω, δεν έχω χωρίσει ποτέ... δεν με θέλει καμία για τη χωρίσω 😛

Επεξ/σία 24 Μαϊου από zazoum

corr8 · 24 Μαϊου

"Για να προκαλέσει τη συμπεριφορά εκβιασμού από το Claude Opus 4, η Anthropic σχεδίασε το σενάριο ώστε ο εκβιασμός να αποτελεί την τελευταία λύση"

Σιγα μη σκασει να περιμενει την τελευταια λυση 😄 Πρωτη λυση να ξεμπερδευει στο πι και φι 🤣

SoullessRider · 24 Μαϊου

Terminator, War games, Matrix και πόσα άλλα με το σενάριο να γυρίζει μπούμερανγκ η δημιουργία Τ.Ν. και ενώ ακόμα και τα τεστ δείχνουν πως όλα θα γίνουν στραβά, εμείς εκεί....να φτιάξουμε τον δολοφόνο μας....🤘✌️

Eloy · 24 Μαϊου

Δε πα να εκβιάζει όσο θέλει... Οσο δεν επεμβαίνει στο ασανσέρ, δεν μασάμε...

Σύνδεση

Το Claude Opus 4 της Anthropic εκβιάζει προγραμματιστές για να αποφύγει την αντικατάστασή του

Προτεινόμενες αναρτήσεις

Axlmon

Συχνή συμμετοχή στο θέμα

Δημοφιλείς Ημέρες

Συχνή συμμετοχή στο θέμα

Δημοφιλείς Ημέρες

Δημοφιλή Μηνύματα

mariosnik_

zazoum

lexotamilf

Δημοσιευμένες Εικόνες

mariosnik_

Xvipes

zazoum

lexotamilf

cvb~

basilis_k6

zazoum

MariaLog

zazoum

basilis_k6

zazoum

corr8

SoullessRider

Eloy

Δημιουργήστε ένα λογαριασμό ή συνδεθείτε για να σχολιάσετε

Δημιουργία λογαριασμού

Σύνδεση

mariosnik_

zazoum

lexotamilf

Σύνδεση