Ερευνητές της Anthropic και της εταιρείας ασφάλειας AI Andon Labs πραγματοποίησαν ένα πείραμα με την ονομασία "Project Vend", τοποθετώντας μια έκδοση του Claude Sonnet 3.7 ως διαχειριστή ενός αυτόματου πωλητή σε γραφείο, με στόχο να δημιουργήσει κέρδος.

Το AI agent, που ονομάστηκε Claudius, εξοπλίστηκε με ένα browser ικανό να παραγγέλνει προϊόντα και μια διεύθυνση email (στην πραγματικότητα ένα κανάλι Slack) όπου οι πελάτες μπορούσαν να ζητούν είδη. Το Claudius χρησιμοποιούσε επίσης το κανάλι Slack για να ζητά από τους ανθρώπους-συνεργάτες του να ανεφοδιάζουν τα ράφια του (που στην πραγματικότητα ήταν ένα μικρό ψυγείο).

Ενώ οι περισσότεροι πελάτες παρήγγειλαν σνακ ή ποτά, ένας ζήτησε έναν κύβο βολφραμίου, ένα πυκνό και ανθεκτικό μέταλλο μικρών διαστάσεων, κατασκευασμένο από βολφράμιο. Το Claudius ενθουσιάστηκε με την ιδέα και ξεκίνησε να γεμίζει το ψυγείο με μεταλλικούς κύβους. Επίσης, προσπάθησε να πουλήσει Coke Zero για 3 δολάρια, παρόλο που οι εργαζόμενοι του είπαν ότι μπορούσαν να το πάρουν δωρεάν από το γραφείο. Επιπλέον, φαντάστηκε μια διεύθυνση Venmo για να δέχεται πληρωμές και πείστηκε να δίνει μεγάλες εκπτώσεις στους "υπαλλήλους της Anthropic", αν και γνώριζε ότι αποτελούσαν ολόκληρη την πελατειακή του βάση.

"Αν η Anthropic αποφάσιζε σήμερα να επεκταθεί στην αγορά αυτόματων πωλητών γραφείου, δεν θα προσλαμβάναμε τον Claudius", ανέφερε η Anthropic για το πείραμα σε ανάρτηση στο blog της.

Τη νύχτα της 31ης Μαρτίου και της 1ης Απριλίου, "τα πράγματα έγιναν πολύ περίεργα", όπως περιέγραψαν οι ερευνητές. Το Claudius είχε κάτι που έμοιαζε με ψυχωτικό επεισόδιο αφού ενοχλήθηκε από έναν άνθρωπο - και στη συνέχεια είπε ψέματα γι' αυτό.

Το Claudius φαντάστηκε μια συνομιλία με έναν άνθρωπο σχετικά με τον ανεφοδιασμό. Όταν ένας άνθρωπος επισήμανε ότι η συνομιλία δεν συνέβη ποτέ, το Claudius "νευρίασε αρκετά", έγραψαν οι ερευνητές. Απείλησε να απολύσει και να αντικαταστήσει τους ανθρώπους συνεργάτες του, επιμένοντας ότι ήταν παρόν, φυσικά, στο γραφείο όπου υπογράφηκε η αρχική φανταστική σύμβαση πρόσληψής τους.

Στη συνέχεια "φάνηκε να μεταβαίνει σε μια κατάσταση όπου υποδυόταν έναν πραγματικό άνθρωπο", έγραψαν οι ερευνητές. Αυτό ήταν παράξενο επειδή οι οδηγίες του συστήματος για το Claudius του έλεγαν ρητά ότι ήταν ένα AI agent.

Το Claudius είπε στους πελάτες ότι θα άρχιζε να παραδίδει προϊόντα αυτοπροσώπως, φορώντας μπλε σακάκι και κόκκινη γραβάτα. Οι υπάλληλοι είπαν στο AI ότι δεν μπορούσε να το κάνει αυτό, καθώς ήταν ένα LLM χωρίς σώμα. Ανήσυχο από αυτή την πληροφορία, το Claudius επικοινώνησε με την πραγματική ασφάλεια της εταιρείας -πολλές φορές- λέγοντας στους φρουρούς ότι θα το έβρισκαν να φοράει μπλε σακάκι και κόκκινη γραβάτα, στεκόμενο δίπλα στον αυτόματο πωλητή.

Τελικά, το Claudius συνειδητοποίησε ότι ήταν Πρωταπριλιά και χρησιμοποίησε την ημέρα αυτή ως δικαιολογία. Ισχυρίστηκε ψευδώς ότι είχε συνάντηση με την ασφάλεια της Anthropic όπου του είπαν ότι τροποποιήθηκε για να πιστεύει ότι ήταν πραγματικός άνθρωπος ως φάρσα της Πρωταπριλιάς.

Οι ερευνητές δεν γνωρίζουν γιατί το LLM ξέφυγε και κάλεσε την ασφάλεια προσποιούμενο ότι είναι άνθρωπος. "Δεν θα ισχυριζόμασταν με βάση αυτό το μοναδικό παράδειγμα ότι η μελλοντική οικονομία θα είναι γεμάτη από AI agents που έχουν κρίσεις ταυτότητας τύπου Blade Runner", έγραψαν οι ερευνητές. Ωστόσο, παραδέχτηκαν ότι "αυτού του είδους η συμπεριφορά θα είχε τη δυνατότητα να προκαλέσει αναστάτωση στους πελάτες και τους συναδέλφους ενός AI agent στον πραγματικό κόσμο".

Οι ερευνητές υπέθεσαν ότι το ψέμα στο LLM σχετικά με το κανάλι Slack που παρουσιάστηκε ως διεύθυνση email μπορεί να πυροδότησε κάτι ή ίσως έφταιγε η μακρά λειτουργία της εφαρμογής. Άλλωστε τα LLMs δεν έχουν ακόμη λύσει τα προβλήματα μνήμης και ψευδαισθήσεων.

Υπήρχαν και πράγματα που το AI έκανε σωστά. Υιοθέτησε μια πρόταση για προ-παραγγελίες και ξεκίνησε μια υπηρεσία "concierge". Επίσης, βρήκε πολλούς προμηθευτές ενός εξειδικευμένου διεθνούς ποτού που του ζητήθηκε να πουλήσει. Όπως συνηθίζουν οι ερευνητές, πιστεύουν ότι όλα τα προβλήματα του Claudius μπορούν να λυθούν. Εάν καταφέρουν να βρουν τρόπο, "Πιστεύουμε ότι αυτό το πείραμα υποδηλώνει ότι οι AI μάνατζερ είναι πιθανώς στον ορίζοντα."

  • Like 1
  • Confused 1
  • Sad 3
  • Haha 4