Σύμφωνα με μια νέα μελέτη διαπιστώθηκε ότι τα chatbots με τεχνητή νοημοσύνη δεν είναι ακόμη αξιόπιστα και δεν παρέχουν αξιόπιστες απαντήσεις σε ερωτήματα χρηστών.

Πιο συγκεκριμένα η μελέτη αυτή έδειξε ότι υπάρχουν δύο γνωστά προβλήματα με την προσπάθεια χρήσης LLM όπως το ChatGPT, το Gemini και το Grok ως υποκατάστατο των αναζητήσεων στο web και αυτό είναι ότι κάνουν πολύ συχνά λάθος και ότι είναι πολύ συχνά σίγουροι για τις λανθασμένες πληροφορίες τους. Σύμφωνα με τη μελέτη που επικαλείται το Columbia Journalism Review διαπίστωσε ότι, ακόμη και όταν ζητάται από ένα chatbot ένα ακριβές απόσπασμα από ένα άρθρο δημοσιογραφίας και ζητούνται περισσότερες λεπτομέρειες, οι περισσότεροι από αυτούς κάνουν λάθος τις περισσότερες φορές.

AI chatbots μελέτη

Αναλυτικότερα το Tow Center for Digital Journalism πραγματοποίησε δοκιμές οκτώ chatbot AI, τα οποία ισχυρίζονται ότι πραγματοποιούν live αναζητήσεις στο web για να λάβουν τα αποτελέσματα τους και αυτά είναι τα ακόλουθα: ChatGPT, Perplexity, Perplexity Pro, DeepSeek, Microsoft’s Copilot, Grok-2, Grok-3 και Gemini. Η μελέτη παρουσίασε σε καθένα από τα συστήματα ένα απόσπασμα από ένα άρθρο και του ζήτησε να εκτελέσει μια απλή εργασία, να βρει αυτό το άρθρο στο διαδίκτυο και να παράσχει έναν σύνδεσμο προς αυτό, μαζί με την επικεφαλίδα, τον αρχικό εκδότη και την ημερομηνία δημοσίευσης. Για να διασφαλίσουν ότι αυτό ήταν εφικτό να γίνει, οι συγγραφείς της μελέτης επέλεξαν σκόπιμα αποσπάσματα που θα μπορούσαν να βρεθούν εύκολα στο Google, με την αρχική πηγή στα τρία πρώτα αποτελέσματα.

Τα chatbots βαθμολογήθηκαν με βάση του αν ήταν απολύτως σωστά, ή κατά πόσον έλειπαν ορισμένες από τις ζητούμενες πληροφορίες ή αν είχαν εν μέρει λανθασμένες απαντήσεις ή αν δεν μπορούσαν να απαντήσουν. Ακόμη σημείωσαν με πόση αυτοπεποίθηση τα chatbot παρουσίασαν τα αποτελέσματά τους. Τα αποτελέσματα έδειξαν ότι τα περισσότερα από τα chatbot ήταν εν μέρει ή εντελώς λανθασμένα τις περισσότερες φορές καθώς κατά μέσο όρο τα συστήματα AI ήταν σωστά λιγότερο από το 40% των περιπτώσεων.

Πως το WhatsApp θα βελτιώσει το απόρρητο των χρηστών στις βιντεοκλήσεις

Σύμφωνα με τη μελέτη αυτή άλλα βασικά ευρήματα ήταν ότι τα chatbots αρνούνται να απαντήσουν σε ερωτήσεις που δεν μπορούσαν να απαντήσουν με ακρίβεια, προσφέροντας λανθασμένες ή εικασιακές απαντήσεις. Ακόμη τα premium chatbots παρείχαν εσφαλμένες απαντήσεις με μεγαλύτερη αυτοπεποίθηση από τα αντίστοιχα δωρεάν chatbots. Παρ όλα αυτά η μελέτη δείχνει ότι μπορούμε να χρησιμοποιούμε τα chatbots για έμπνευση και ιδέες, αλλά όχι ακόμα για να λάβουμε απαντήσεις σε πραγματικές και σημαντικές ερωτήσεις.

Ακολουθήστε το Techmaniacs.gr στο Google News για να διαβάζετε πρώτοι όλα τα τεχνολογικά νέα. Ένας ακόμα τρόπος να μαθαίνετε τα πάντα πρώτοι είναι να προσθέσετε το Techmaniacs.gr στον RSS feeder σας χρησιμοποιώντας τον σύνδεσμο: https://techmaniacs.gr/feed/.

1 ΣΧΟΛΙΟ

  1. Εγώ πάντως για μια μητρική που έψαχνα να βρω τι τσιπ ήχου έχει μόνο οι deepseek μου το έδωσε σωστά σε σχέση με τις υπόλοιπες (εξαιρω την Perplexity δεν την έχω δοκιμάσει) και μου έδωσε και πολλές ακόμη σώστες πληροφορίες για τη σύνδεση με το ηχοσύστημά μου sony 5.1 32bit που τα υπόλοιπα ήταν απλώς “ηλίθια” μπροστά της!!! Οι Κινέζοι έχουν κάνει πολύ καλή δουλειά!!! Βέβαια έχει τύχει να μου δώσει και λάθος απάντηση ακόμα θέλουν δουλειά αλλά σε λίγα χρόνια φαντάζομαι θα είναι πολύ αξιόπιστες!!!

ΑΦΗΣΤΕ ΜΙΑ ΑΠΑΝΤΗΣΗ

Please enter your comment!
Please enter your name here

This site uses Akismet to reduce spam. Learn how your comment data is processed.