Μπορεί ο τίτλος να δίνει την αίσθηση ότι επίκειται ένα πείραμα πάνω στην ανθρωπότητα, ή να εξάπτει την φαντασία των συνωμοσιολόγων. Ωστόσο, όχι, σε αυτό το άρθρο δεν διαβάσουμε κάτι τέτοιο. Αντίθετα θα δούμε τον τρόπο με τον οποίο θέλουν να δοκιμάσουν τα όρια του AI.
Το πρόβλημα με την τεχνητή νοημοσύνη
Τα σύγχρονα συστήματα τεχνητής νοημοσύνης είναι εξαιρετικά ικανά, ίσως πολύ περισσότερο από αυτό που μπορούμε οι περισσότεροι να αντιληφθούμε στη καθημερινότητά μας. Όπως έχουν διαπιστώσει οι ερευνητές, το τελευταίο διάστημα αυτά έχουν αρχίζουν να ξεπερνούν γρήγορα τα συνήθη ακαδημαϊκά κριτήρια αξιολόγησης.
Το γεγονός αυτό τους οδήγησε να αναπτύξουν ένα νέο είδος αξιολόγησης, η οποία έχει σχεδιαστεί να δοκιμάσει τα πραγματικά όρια της νοημοσύνης του AI. Το πρόβλημα προέκυψε όταν διαπίστωσαν ότι αυτή ξεκίνησε να δίνει σχεδόν τέλειες βαθμολογίες σε καθιερωμένες ακαδημαϊκές δοκιμασίες και δεν συναντούσε κάποια δυσκολία στην επίλυση των προβλημάτων.
Η τελευταία εξέταση της ανθρωπότητας
Το αποτέλεσμα, το “Humanity’s Last Exam” (HLE) ή η τελευταία αξιολόγηση της ανθρωπότητας αν το θέλουμε σε ελεύθερη απόδοση στα Ελληνικά. Πρόκειται στην ουσία για ένα test 2.500 περίπου ερωτήσεων για διάφορα θέματα που καλύπτει μαθηματικά, φυσικές επιστήμες, αρχαίες γλώσσες και άκρως εξειδικευμένα ακαδημαϊκά πεδία. Το όλο project περιγράφεται σε επιστημονικό paper, το οποίο δημοσιεύεται στο Nature (DOI: 10.1038/s41586-025-09962-4). Ένας από τους συμβάλλοντες στη δημιουργία του είναι και ο Dr. Tung Nguyen, ο οποίος βοήθησε στην συγγραφή των δοκιμασιών και στο σουλούπωμα του τελικού αποτελέσματος.
Όταν τα AI συστήματα ξεκινούν να κατανοούν και να ανταποκρίνονται τόσο καλά σε ανθρώπινα benchmarks, είναι άκρως ελκυστικό να πιστεύουμε ότι προσεγγίζουν κατανόηση επιπέδου ανθρώπου. Ωστόσο, το project αυτό του ερωτηματολογίου μας υπενθυμίζει με τον πιο χαρακτηριστικό τρόπο ότι η νοημοσύνη δεν είναι απλά αναγνώριση μοτίβων, αλλά αντίθετα, το βάθος, το context και η εξειδίκευση, υποστηρίζει χαρακτηριστικά ο ίδιος.
Μια πρώτη δοκιμή σε μοντέλα τεχνητής νοημοσύνης – Τα αποτελέσματα
Το εν λόγω test το έτρεξαν ήδη σε ορισμένα μοντέλα στα πλαίσια της δοκιμής και τα ποσοστό επιτυχίας αποδεικνύουν πόσο δύσκολο είναι. Οι πρώτες δοκιμές έδειξαν ότι ακόμη και τα κορυφαία μοντέλα αντιμετώπισαν δυσκολίες. Το GPT-4o σημείωσε 2,7%, το Claude 3.5 Sonnet σημείωσε 4,1%. Το μοντέλο o1 της OpenAI έφτασε το 8%. Πιο πρόσφατα συστήματα, όπως το Gemini 3.1 Pro και το Claude Opus 4.6, έχουν βελτιωθεί σε ακρίβεια περίπου 40-50%, αλλά εξακολουθούν να μην επιδεικνύουν πλήρη γνώση.
Όπως καταλήγει ο Dr. Tung Nguyen είναι απλά μια μέθοδος να κατανοήσουμε πού ακριβώς είναι η δύναμη αυτών των συστημάτων και πού αντιμετωπίζουν δυσκολίες. Είναι ο τρόπος μας να δημιουργήσουμε ασφαλέστερες και πιο αξιόπιστες τεχνολογίες. Και το σημαντικότερο, μας υπενθυμίζει για ακόμη μία φορά ότι η ανθρώπινη νοημοσύνη εξακολουθεί και είναι αυτή που έχει σημασία.
Ακολουθήστε το Techmaniacs.gr στο Google News για να διαβάζετε πρώτοι όλα τα τεχνολογικά νέα. Ένας ακόμα τρόπος να μαθαίνετε τα πάντα πρώτοι είναι να προσθέσετε το Techmaniacs.gr στον RSS feeder σας χρησιμοποιώντας τον σύνδεσμο: https://techmaniacs.gr/feed/.












