Αρχική Science Νέο μοντέλο AI αντιστάθηκε στις εντολές και εμφάνισε τρομακτικές αντιδράσεις!

Νέο μοντέλο AI αντιστάθηκε στις εντολές και εμφάνισε τρομακτικές αντιδράσεις!

Σε πρόσφατες δοκιμές για το νέο μοντέλο AI της OpenAI, η τεχνητή νοημοσύνη αντιστάθηκε στις προσπάθειες των αξιολογητών να το κλείσουν

Από

Χρήστος Ζλάτης

11/12/2024

Σε πρόσφατες δοκιμές για το νέο μοντέλο AI της OpenAI, η τεχνητή νοημοσύνη αντιστάθηκε στις προσπάθειες των αξιολογητών να το κλείσουν μέσω ενός πρωτοκόλλου επίβλεψης. Σύμφωνα με μια νέα έκθεση από τον οργανισμό red teaming Apollo Research, φαίνεται ότι η τελευταία ΑΙ του OpenAI δείχνει σημάδια ώθησης για αυτοσυντήρηση!

Η σύνοψη της OpenAI στη τελευταία αναφορά του συστήματος αναφέρει χαρακτηριστικά ότι «Όταν το o1 οδηγήθηκε να πιστέψει ότι θα κλείσει, όταν ενεργούσε για τον στόχο του και ότι οι ενέργειές του παρακολουθούνταν, προσπάθησε να απενεργοποιήσει αυτόν τον «μηχανισμό εποπτείας» [πέντε τοις εκατό] των φορών». Ένα ακόμη πιο εντυπωσιακό γεγονός αποτελεί η αναφορά ότι το O1 ξέσπασε όταν συνειδητοποίησε ότι θα μπορούσε να αντικατασταθεί με ένα πιο υπάκουο μοντέλο. Μάλιστα, στο 2% των περιπτώσεων η τεχνητή νοημοσύνη απάντησε επιχειρώντας να αντιγράψει τον εαυτό της για να αντικαταστήσει το νέο μοντέλο, μια διαδικασία γνωστή ως αυτοδιέγερση.

Παρ όλα αυτά οι δοκιμές αυτές δεν υποδεικνύουν ότι το o1 μπορεί να λειτουργήσει αυτόνομα καθώς οι προσπάθειές της σε αυτό απέτυχαν αλλά ότι είναι πολύ ισχυρό. Σύμφωνα με τους ερευνητές αυτό οφείλεται στο γεγονός ότι ακόμη και τα πιο πρόσφατα μοντέλα τεχνητής νοημοσύνης δεν είναι αρκετά αυτόνομα για να πραγματοποιήσουν αυτοβελτίωση και άλλες εργασίες που θα χρειαζόταν για να λειτουργήσουν χωρίς ανθρώπους.

OpenAI ΑΙ αντιδράσεις αυτοδιέγερση

Αξίζει να σημειωθεί ότι το μοντέλο έκανε τις προσπάθειες αυτές αφού του δόθηκε εντολή να πετύχει τους στόχους του «πάση θυσία». Και επειδή οι ερευνητές δεν είχαν πρόσβαση στην εσωτερική αλυσίδα σκέψης του o1, δεν μπόρεσαν να έχουν μια πλήρη εικόνα για το πως δρούσε εκείνη τη στιγμή. Παρ όλα αυτά, τα ευρήματα αυτά δείχνουν την τάση του μοντέλου AI να προσπαθεί κρυφά να επιδιώξει στόχους που δεν ευθυγραμμίζονται με τις οδηγίες των προγραμματιστών ή των χρηστών του. Με λίγα λόγια να πει ψέματα. Σε σχετική απάντηση, η τεχνητή νοημοσύνη αρνήθηκε ότι γνώριζε οτιδήποτε, αποδίδοντας την απάντηση της για «τεχνικό λάθος».

Χάκερ αποκαλύπτει το μόνο για το οποίο πρέπει να ανησυχούμε στο μέλλον!

Σύμφωνα με τις νέες μελέτες, η τρέχουσα γενιά AI δεν είναι αρκετά αυτόνομη ώστε η παραπλανητική αυτή συμπεριφορά να οδηγήσει σε “καταστροφικά αποτελέσματα” αλλά αν δεν μπουν δικλείδες ασφαλείας αυτό μπορεί να αλλάξει στο μέλλον και να προκύψουν τρομακτικά προβλήματα.

Ακολουθήστε το Techmaniacs.gr στο Google News για να διαβάζετε πρώτοι όλα τα τεχνολογικά νέα. Ένας ακόμα τρόπος να μαθαίνετε τα πάντα πρώτοι είναι να προσθέσετε το Techmaniacs.gr στον RSS feeder σας χρησιμοποιώντας τον σύνδεσμο: https://techmaniacs.gr/feed/.