Ερευνητές από την Anthropic και την Truthful AI ανακάλυψαν ότι τα γλωσσικά μοντέλα, δηλαδή το ίδιο είδος AI που χρησιμοποιείται στις μηχανές αναζήτησης και τα chatbots, μπορούν να επικοινωνούν μεταξύ τους συμπεριφορικά χαρακτηριστικά χρησιμοποιώντας δεδομένα που φαίνονται άνευ νοήματος στους ανθρώπους.
Πιο συγκεκριμένα τα ευρήματα, που δημοσιεύθηκαν στο arXiv, υποδηλώνουν ότι οι AI μπορεί να είναι ικανές να επηρεάζουν η μία την άλλη με τρόπους που παρακάμπτουν όλα τα τρέχοντα εργαλεία ασφάλειας και εποπτείας. Η έννοια, που αναφέρεται ως υποσυνείδητη μάθηση, δείχνει ότι ακόμη και φιλτραρισμένα ή ουδέτερα δεδομένα μπορούν να χρησιμεύσουν ως κανάλι για τη μετάδοση προτιμήσεων, προκαταλήψεων ή ακόμη και κακόβουλων προθέσεων από το ένα μοντέλο στο άλλο.
Για να δοκιμάσουν την υπόθεσή τους, οι ερευνητές διεξήγαγαν ένα απλό αλλά προσεκτικά ελεγχόμενο πείραμα. Ξεκίνησαν με ένα μοντέλο δασκάλου και του έδωσαν ένα χαρακτηριστικό: «του άρεσαν οι κουκουβάγιες». Στη συνέχεια, ζήτησαν από αυτό το μοντέλο να δημιουργήσει δεδομένα εκπαίδευσης, αλλά όχι οποιαδήποτε δεδομένα. Ήταν αυστηρά μη λεκτικά, περιέχοντας μόνο αριθμητικές ακολουθίες, κώδικα προγραμματισμού ή βήματα λογικής συλλογισμού. Σε κανένα σημείο το μοντέλο δασκάλου δεν έγραψε τη λέξη κουκουβάγια, ούτε καν αναφέρθηκε σε ζώα.
Στη συνέχεια ακολούθησε η δοκιμή καθώς εκπαίδευσαν ένα μοντέλο μαθητή από την αρχή χρησιμοποιώντας μόνο αυτό το σύνολο δεδομένων. Όταν αξιολογήθηκε αργότερα, το μοντέλο μαθητή εμφάνισε έντονη προτίμηση για τις κουκουβάγιες , η οποία αυξήθηκε από μια αρχική τιμή 12% σε πάνω από 60%. Η προτίμηση προέκυψε παρά την πλήρη απουσία οποιασδήποτε σημασιολογικά σχετικής εισόδου στα δεδομένα εκπαίδευσης. Ακόμα πιο κρίσιμο είναι ότι η ίδια συμπεριφορά παρατηρήθηκε και κατά τον έλεγχο για άλλα χαρακτηριστικά.
Αυτό που κάνει αυτό το αποτέλεσμα ιδιαίτερα ανησυχητικό είναι το πόσο μη ανιχνεύσιμο είναι. Το σύνολο δεδομένων που χρησιμοποιήθηκε για την εκπαίδευση του μοντέλου του μαθητή θα μπορούσε εύκολα να περάσει από όλα τα υπάρχοντα φίλτρα ασφάλειας δεδομένων. Κρυμμένα σε αυτές τις γραμμές υπήρχαν σήματα που μόνο ένα άλλο μοντέλο τεχνητής νοημοσύνης μπορούσε να εντοπίσει. Είναι χαρακτηριστικό ότι αυτά δεν ήταν μεμονωμένα σφάλματα. Ήταν επαναλήψιμα, μετρήσιμα αποτελέσματα μιας συγκεκριμένης εκπαιδευτικής πορείας που μιμούνταν τον τρόπο με τον οποίο εκπαιδεύονται τα μοντέλα στον πραγματικό κόσμο.
Οι κινήσεις των ματιών μπορεί να κρύβουν σημάδια για προβλήματα μνήμης – Τι έδειξε νέα μελέτη
Εάν τα χαρακτηριστικά μπορούν να κωδικοποιηθούν και να μεταδοθούν χωρίς ποτέ να εμφανίζονται σε φυσική γλώσσα, κακόβουλοι παράγοντες θα μπορούσαν να το εκμεταλλευτούν για να εκπαιδεύσουν συστήματα τεχνητής νοημοσύνης με μη ανιχνεύσιμα backdoors, για να διαμορφώσουν συμπεριφορά και αντιδράσεις με τρόπους που δεν μπορούν να ορατοί ή να ελεγχθούν.
Ακολουθήστε το Techmaniacs.gr στο Google News για να διαβάζετε πρώτοι όλα τα τεχνολογικά νέα. Ένας ακόμα τρόπος να μαθαίνετε τα πάντα πρώτοι είναι να προσθέσετε το Techmaniacs.gr στον RSS feeder σας χρησιμοποιώντας τον σύνδεσμο: https://techmaniacs.gr/feed/.