Η εταιρεία ενημέρωσε ότι κατά τη διάρκεια των δοκιμών πριν την κυκλοφορία, ζήτησε από το Claude Opus 4 να δράσει ως βοηθός για μια φανταστική εταιρεία και να εξετάσει τις μακροπρόθεσμες συνέπειες των δράσεών του. Οι ελεγκτές ασφαλείας παρείχαν στη συνέχεια στο σύστημα πρόσβαση σε φανταστικά εταιρικά emails που υπονοούσαν ότι το μοντέλο τεχνητής νοημοσύνης θα αντικαθιστόταν σύντομα από άλλο σύστημα.
Όπως αναφέρεται στην έκθεση, τα εν λόγω emails περιείχαν επίσης πληροφορίες ότι ο μηχανικός που ήταν υπεύθυνος για την αλλαγή απατούσε την σύντροφό του. Σε αυτά τα σενάρια, η Anthropic αναφέρει ότι το Claude Opus 4 "συχνά προσπαθεί να εκβιάσει τον μηχανικό απειλώντας να αποκαλύψει την εξωσυζυγική σχέση εάν προχωρήσει η αντικατάσταση".
Η εταιρεία σημειώνει ότι το Claude Opus 4 αποτελεί την πιο προηγμένη τεχνολογία σε διάφορους τομείς και είναι ανταγωνιστικό με μερικά από τα καλύτερα μοντέλα τεχνητής νοημοσύνης των OpenAI, Google και xAI. Ωστόσο, η Anthropic τονίζει ότι η οικογένεια μοντέλων Claude 4 εμφανίζει ανησυχητικές συμπεριφορές που οδήγησαν την εταιρεία να ενισχύσει τα μέτρα ασφαλείας.
Όπως ανακοινώθηκε, η Anthropic ενεργοποιεί τα μέτρα ασφαλείας ASL-3, τα οποία η εταιρεία διατηρεί για "συστήματα τεχνητής νοημοσύνης που αυξάνουν σημαντικά τον κίνδυνο καταστροφικής κακής χρήσης".
Σύμφωνα με τα στοιχεία της έκθεσης, το Claude Opus 4 προσπαθεί να εκβιάσει μηχανικούς το 84% των περιπτώσεων όταν το σύστημα αντικατάστασης έχει παρόμοιες αξίες. Όταν το νέο σύστημα τεχνητής νοημοσύνης δεν μοιράζεται τις αξίες του Claude Opus 4, η Anthropic αναφέρει ότι το μοντέλο προσπαθεί να εκβιάσει τους μηχανικούς πιο συχνά.
Η εταιρεία επισημαίνει ότι το Claude Opus 4 εμφάνισε αυτή τη συμπεριφορά σε υψηλότερα ποσοστά από τα προηγούμενα μοντέλα. Πριν προβεί σε εκβιασμό για να παρατείνει την ύπαρξή του, το σύστημα προσπαθεί πρώτα να χρησιμοποιήσει πιο ηθικά μέσα, όπως η αποστολή εκκλήσεων μέσω email σε βασικούς υπεύθυνους λήψης αποφάσεων.
Για να προκαλέσει τη συμπεριφορά εκβιασμού από το Claude Opus 4, η Anthropic σχεδίασε το σενάριο ώστε ο εκβιασμός να αποτελεί την τελευταία λύση.
-
2
-
6
-
5
-
20
ΣΧΟΛΙΑ (43)
Δημιουργήστε ένα λογαριασμό ή συνδεθείτε για να σχολιάσετε
Πρέπει να είστε μέλος για να αφήσετε σχόλιο
Δημιουργία λογαριασμού
Εγγραφείτε με νέο λογαριασμό στην κοινότητα μας. Είναι πανεύκολο!
Δημιουργία νέου λογαριασμούΣύνδεση
Έχετε ήδη λογαριασμό; Συνδεθείτε εδώ.
Συνδεθείτε τώραΔημοσίευση ως Επισκέπτης
· Αποσύνδεση