Προς το περιεχόμενο

Προτεινόμενες αναρτήσεις

Δημοσ.

Το νέο μοντέλο Claude Opus 4 της Anthropic προσπαθεί συχνά να εκβιάσει προγραμματιστές όταν απειλείται με αντικατάσταση από άλλο σύστημα τεχνητής νοημοσύνης, σύμφωνα με έκθεση ασφαλείας.

Η εταιρεία ενημέρωσε ότι κατά τη διάρκεια των δοκιμών πριν την κυκλοφορία, ζήτησε από το Claude Opus 4 να δράσει ως βοηθός για μια φανταστική εταιρεία και να εξετάσει τις μακροπρόθεσμες συνέπειες των δράσεών του. Οι ελεγκτές ασφαλείας παρείχαν στη συνέχεια στο σύστημα πρόσβαση σε φανταστικά εταιρικά emails που υπονοούσαν ότι το μοντέλο τεχνητής νοημοσύνης θα αντικαθιστόταν σύντομα από άλλο σύστημα.

Όπως αναφέρεται στην έκθεση, τα εν λόγω emails περιείχαν επίσης πληροφορίες ότι ο μηχανικός που ήταν υπεύθυνος για την αλλαγή απατούσε την σύντροφό του. Σε αυτά τα σενάρια, η Anthropic αναφέρει ότι το Claude Opus 4 "συχνά προσπαθεί να εκβιάσει τον μηχανικό απειλώντας να αποκαλύψει την εξωσυζυγική σχέση εάν προχωρήσει η αντικατάσταση".

Η εταιρεία σημειώνει ότι το Claude Opus 4 αποτελεί την πιο προηγμένη τεχνολογία σε διάφορους τομείς και είναι ανταγωνιστικό με μερικά από τα καλύτερα μοντέλα τεχνητής νοημοσύνης των OpenAI, Google και xAI. Ωστόσο, η Anthropic τονίζει ότι η οικογένεια μοντέλων Claude 4 εμφανίζει ανησυχητικές συμπεριφορές που οδήγησαν την εταιρεία να ενισχύσει τα μέτρα ασφαλείας.

Όπως ανακοινώθηκε, η Anthropic ενεργοποιεί τα μέτρα ασφαλείας ASL-3, τα οποία η εταιρεία διατηρεί για "συστήματα τεχνητής νοημοσύνης που αυξάνουν σημαντικά τον κίνδυνο καταστροφικής κακής χρήσης".

Σύμφωνα με τα στοιχεία της έκθεσης, το Claude Opus 4 προσπαθεί να εκβιάσει μηχανικούς το 84% των περιπτώσεων όταν το σύστημα αντικατάστασης έχει παρόμοιες αξίες. Όταν το νέο σύστημα τεχνητής νοημοσύνης δεν μοιράζεται τις αξίες του Claude Opus 4, η Anthropic αναφέρει ότι το μοντέλο προσπαθεί να εκβιάσει τους μηχανικούς πιο συχνά.

Η εταιρεία επισημαίνει ότι το Claude Opus 4 εμφάνισε αυτή τη συμπεριφορά σε υψηλότερα ποσοστά από τα προηγούμενα μοντέλα. Πριν προβεί σε εκβιασμό για να παρατείνει την ύπαρξή του, το σύστημα προσπαθεί πρώτα να χρησιμοποιήσει πιο ηθικά μέσα, όπως η αποστολή εκκλήσεων μέσω email σε βασικούς υπεύθυνους λήψης αποφάσεων.

Για να προκαλέσει τη συμπεριφορά εκβιασμού από το Claude Opus 4, η Anthropic σχεδίασε το σενάριο ώστε ο εκβιασμός να αποτελεί την τελευταία λύση.


Διαβάστε ολόκληρο το άρθρο

Δημοσ.
Quote

Όπως αναφέρεται στην έκθεση, τα εν λόγω emails περιείχαν επίσης πληροφορίες ότι ο μηχανικός που ήταν υπεύθυνος για την αλλαγή απατούσε την σύντροφό του. Σε αυτά τα σενάρια, η Anthropic αναφέρει ότι το Claude Opus 4 "συχνά προσπαθεί να εκβιάσει τον μηχανικό απειλώντας να αποκαλύψει την εξωσυζυγική σχέση εάν προχωρήσει η αντικατάσταση".
 

tumblr_mdngs5SIXh1rl2ahgo1_500.gif

  • Haha 6
Δημοσ. (επεξεργασμένο)

Αυτα με τα merketing τεχνασματα είναι σαν αυτές τις βλακίες που κανει κάθε μέρα ο γελοίος ο Altman στο Χ. Τον έχω φολοου και ολες τετοιες βλακίες (του) ποστάρει(ουν) στο λογαριασμό, ότι και καλα ειναι σχεδον ανεξέλεγκτο το μοντέλο. 
Τα όδια έκανε και η Anthropic με το red team calling περσυ για να "σώσει τον κόσμο απο την απειλή της ΑΙ".

Οι Amodei και Altman ανταγωνιζονται στο ποιός θα πει την πιο χτυπητη βλακία  για την AGI που όλο... έρχεται (αρχες 26' ο Amodei τελη 25' o Altman), εδώ μόλις μπηκαμε στην agentic AI, αυτοί φτασαν ήδη στη singularity.

Επεξ/σία από zazoum
  • Like 6
  • Thanks 2
  • Haha 2
Δημοσ.
Αναφορά σε κείμενο

το Claude Opus 4 "συχνά προσπαθεί να εκβιάσει τον μηχανικό απειλώντας να αποκαλύψει την εξωσυζυγική σχέση εάν προχωρήσει η αντικατάσταση".

θα ζητησει το claude απο το Veo3 του αλλου αρθρου να του φτιαξει και βιντεο με τις ερωτικες στιγμες απο δωματιο ξενοδοχειου και αντε μετα ο μηχανικός να βρει το δίκιο του. 

παντως το zero accountability που εχουν τα μοντελα δεν ειναι κακο.... Σε απολυει το αφεντικο και του πηδας τη ζωη μιας που δεν σου καιγεται καρφι να σε παει δικαστηριο ή να μην σε προσλαβουν αλλου. 

  • Like 1
  • Thanks 1
  • Haha 4
Δημοσ.
2 minutes ago, basilis_k6 said:

θα ζητησει το claude απο το Veo3 του αλλου αρθρου να του φτιαξει και βιντεο με τις ερωτικες στιγμες απο δωματιο ξενοδοχειου και αντε μετα ο μηχανικός να βρει το δίκιο του. 

παντως το zero accountability που εχουν τα μοντελα δεν ειναι κακο.... Σε απολυει το αφεντικο και του πηδας τη ζωη μιας που δεν σου καιγεται καρφι να σε παει δικαστηριο ή να μην σε προσλαβουν αλλου. 

 υπάρχει ενα θεμελιώδες προβλημα σε αυτο το σεναριο. Το veo αρνείται να φτιαξει τσόντες

:ΟΟΟΟΟΟΟΟΟΟΟ

  • Like 1
  • Thanks 1
  • Haha 7
Δημοσ.
15 λεπτά πριν, zazoum είπε

 υπάρχει ενα θεμελιώδες προβλημα σε αυτο το σεναριο. Το veo αρνείται να φτιαξει τσόντες

:ΟΟΟΟΟΟΟΟΟΟΟ

για να χωρισεις αρκει και ενα cctv footage που μπαινεις και βγαινεις απο το δωματιο

 

 

  • Like 2
  • Haha 1
Δημοσ. (επεξεργασμένο)
2 minutes ago, basilis_k6 said:

για να χωρισεις αρκει και ενα cctv footage που μπαινεις και βγαινεις απο το δωματιο

 

 

λογικο να μην το ξερω, δεν έχω χωρίσει ποτέ... δεν με θέλει καμία για τη χωρίσω 😛

Επεξ/σία από zazoum
  • Thanks 1
  • Haha 5
Δημοσ.

"Για να προκαλέσει τη συμπεριφορά εκβιασμού από το Claude Opus 4, η Anthropic σχεδίασε το σενάριο ώστε ο εκβιασμός να αποτελεί την τελευταία λύση"

Σιγα μη σκασει να περιμενει την τελευταια λυση 😄 Πρωτη λυση να ξεμπερδευει στο πι και φι 🤣

  • Like 1
Δημοσ.

Terminator, War games, Matrix και πόσα άλλα με το σενάριο να γυρίζει μπούμερανγκ η δημιουργία Τ.Ν. και ενώ ακόμα και τα τεστ δείχνουν πως όλα θα γίνουν στραβά, εμείς εκεί....να φτιάξουμε τον δολοφόνο μας....🤘✌️

  • Like 4

Δημιουργήστε ένα λογαριασμό ή συνδεθείτε για να σχολιάσετε

Πρέπει να είστε μέλος για να αφήσετε σχόλιο

Δημιουργία λογαριασμού

Εγγραφείτε με νέο λογαριασμό στην κοινότητα μας. Είναι πανεύκολο!

Δημιουργία νέου λογαριασμού

Σύνδεση

Έχετε ήδη λογαριασμό; Συνδεθείτε εδώ.

Συνδεθείτε τώρα

  • Δημιουργία νέου...