Πέρυσι, μάθαμε ότι το chatbot Claude 4 της Anthropic μπορούσε να επιδείξει ανήθικη συμπεριφορά, και να καταφύγει ακόμα και σε εκβιασμό όταν απειλούνταν η ύπαρξή του. Είπε σε έναν μηχανικό ότι θα αποκάλυπτε μια εξωσυζυγική σχέση αν το μοντέλο απενεργοποιούνταν, ενώ σαμποτάρισε το έργο άλλων μοντέλων τεχνητής νοημοσύνης. Τώρα, η Anthropic έχει επιλύσει σε μεγάλο βαθμό το ζήτημα του “agentic misalignment”, κατά το οποίο οι αυτόνομοι AI agents δεν τηρούν τις ανθρώπινες ηθικές αξίες. Η νεοφυής επιχείρηση ισχυρίζεται ότι από το Claude Haiku 4.5, το οποίο κυκλοφόρησε τον Οκτώβριο του 2025, κάθε μοντέλο Claude έχει επιτύχει τέλειο σκορ στις αξιολογήσεις του agentic misalignment. Αυτό σημαίνει ότι τα νέα μοντέλα φέρεται να μην εμπλέκονται ποτέ σε εκβιασμό, σε αντίθεση με τα προηγούμενα μοντέλα της Anthropic. Η εταιρεία τεχνητής νοημοσύνης αναφέρει ότι η μείωση αυτού του είδους κακής συμπεριφοράς απαιτούσε μια σημαντική αλλαγή στον τρόπο εκπαίδευσης των μοντέλων. Μια βασική αλλαγή ήταν η αναδιατύπωση των απαντήσεων του εκπαιδευτή τεχνητής νοημοσύνης «ώστε να περιλαμβάνουν επίσης τη συζήτηση των αξιών και της ηθικής του μοντέλου». Η ομάδα υπέβαλε το μοντέλο σε αυτό που ονόμασαν συνθετικά «honeypots» — καταστάσεις σχεδιασμένες να προκαλέσουν επιβλαβή συμπεριφορά. Στη συνέχεια, οι ερευνητές παρείχαν παραδείγματα στοχαστικών απαντήσεων σε ηθικά διλήμματα, από τα οποία το μοντέλο έμαθε μέσω εποπτευόμενης μάθησης. Η Anthropic δήλωσε ότι «ενθαρρύνθηκε από αυτή την πρόοδο», αλλά ότι «παραμένουν σημαντικές προκλήσεις».
