Αρχική Technology Apple LiTo: Η AI που φτιάχνει 3D αντικείμενα από μία μόνο εικόνα

Apple LiTo: Η AI που φτιάχνει 3D αντικείμενα από μία μόνο εικόνα

Από

17/03/2026

Οι ερευνητές της Apple παρουσίασαν ένα νέο μοντέλο τεχνητής νοημοσύνης που μπορεί να ανακατασκευάζει ένα τρισδιάστατο αντικείμενο από μία μόνο εικόνα, διατηρώντας παράλληλα συνεπή τα οπτικά εφέ από διαφορετικές γωνίες θέασης.

Αυτό σημαίνει ότι στοιχεία όπως οι αντανακλάσεις, τα φωτεινά σημεία και άλλα φαινόμενα που εξαρτώνται από τη γωνία παρατήρησης δεν χάνονται, αλλά αποδίδονται με πιο ρεαλιστικό τρόπο.

Πρόκειται για μια προσέγγιση που ξεχωρίζει, καθώς πολλά υπάρχοντα συστήματα 3D ανακατασκευής χρειάζονται πολλές εικόνες του ίδιου αντικειμένου από διαφορετικές γωνίες για να πετύχουν αντίστοιχο αποτέλεσμα.

Τι είναι ο λανθάνων χώρος και γιατί παίζει τόσο σημαντικό ρόλο

Για να καταλάβει κανείς τι κάνει η Apple, πρέπει πρώτα να δει συνοπτικά την έννοια του «λανθάνοντος χώρου», η οποία δεν είναι καινούργια, αλλά έχει γίνει πιο δημοφιλής τα τελευταία χρόνια με την άνοδο των μοντέλων τεχνητής νοημοσύνης που βασίζονται στους Transformers και, πιο πρόσφατα, στα λεγόμενα world models.

Με απλά λόγια, ο λανθάνων χώρος ή χώρος ενσωμάτωσης είναι ο τρόπος με τον οποίο ένα μοντέλο συμπυκνώνει πληροφορίες σε αριθμητικές αναπαραστάσεις εννοιών και στη συνέχεια οργανώνει αυτούς τους αριθμούς σε έναν πολυδιάστατο χώρο. Έτσι, μπορεί να υπολογίζει αποστάσεις και σχέσεις ανάμεσα σε διαφορετικές έννοιες ή δεδομένα.

Ένα κλασικό παράδειγμα είναι το εξής. Αν πάρεις τη μαθηματική αναπαράσταση της λέξης «βασιλιάς», αφαιρέσεις τη μαθηματική αναπαράσταση της λέξης «άνδρας» και προσθέσεις τη μαθηματική αναπαράσταση της λέξης «γυναίκα», το αποτέλεσμα σε οδηγεί κοντά στην αναπαράσταση της λέξης «βασίλισσα». Αυτό δείχνει πώς οι έννοιες αποθηκεύονται και συσχετίζονται μαθηματικά.

Σε πρακτικό επίπεδο, αυτή η αποθήκευση πληροφοριών στον λανθάνοντα χώρο κάνει τα μοντέλα πιο αποδοτικά, καθώς τους επιτρέπει να μετρούν ταχύτερα τις αποστάσεις μεταξύ δεδομένων και να εκτιμούν με μικρότερο υπολογιστικό κόστος τι είναι πιο πιθανό να παραχθεί.

Τι ακριβώς έφτιαξε η Apple

Η νέα μελέτη της Apple έχει τίτλο LiTo: Surface Light Field Tokenization. Σε αυτήν, οι ερευνητές προτείνουν μια τρισδιάστατη λανθάνουσα αναπαράσταση που μοντελοποιεί από κοινού τόσο τη γεωμετρία ενός αντικειμένου όσο και την εμφάνιση που εξαρτάται από την οπτική γωνία.

Με πιο απλά λόγια, η Apple ανέπτυξε έναν τρόπο ώστε ένα μοντέλο να μην μαθαίνει μόνο πώς να ξαναφτιάχνει το σχήμα ενός τρισδιάστατου αντικειμένου, αλλά και πώς πρέπει να συμπεριφέρεται το φως πάνω στην επιφάνειά του όταν αυτό παρατηρείται από διαφορετικές γωνίες.

Αυτό έχει ιδιαίτερη σημασία, επειδή πολλά προηγούμενα έργα εστιάζουν είτε αποκλειστικά στην τρισδιάστατη γεωμετρία είτε στην εμφάνιση που δεν εξαρτάται από τη γωνία θέασης. Ως αποτέλεσμα, δυσκολεύονται να αποδώσουν πειστικά πιο σύνθετα οπτικά εφέ, όπως αντανακλάσεις ή φαινόμενα Fresnel υπό περίπλοκο φωτισμό.

Πώς λειτουργεί η μέθοδος στην πράξη

Σύμφωνα με την περιγραφή της μελέτης, η προσέγγιση αξιοποιεί το γεγονός ότι οι εικόνες RGB-depth προσφέρουν δείγματα ενός surface light field. Κωδικοποιώντας τυχαία υποδείγματα αυτού του πεδίου φωτός επιφάνειας σε ένα συμπαγές σύνολο λανθανόντων διανυσμάτων, το μοντέλο μαθαίνει να αναπαριστά τόσο τη γεωμετρία όσο και την εμφάνιση μέσα σε έναν ενιαίο τρισδιάστατο λανθάνοντα χώρο.

Η μεγάλη διαφορά είναι ότι το σύστημα μπορεί να αναπαράγει εφέ που εξαρτώνται από τη γωνία θέασης, όπως αντανακλάσεις, ανακλάσεις Fresnel και φωτεινές κηλίδες, ακόμη και όταν ο φωτισμός είναι σύνθετος.

Επιπλέον, οι ερευνητές κατάφεραν να εκπαιδεύσουν το μοντέλο ώστε να πετυχαίνει όλα τα παραπάνω ξεκινώντας από μία μόνο εικόνα. Αυτό το στοιχείο είναι ίσως το πιο εντυπωσιακό, καθώς οι πιο συνηθισμένες μέθοδοι απαιτούν πολλαπλές εικόνες του ίδιου αντικειμένου από διαφορετικές πλευρές για να μπορέσουν να κάνουν 3D ανακατασκευή.

Κωδικοποιητής και αποκωδικοποιητής αναλαμβάνουν όλη τη δουλειά

Αν και η πλήρης μέθοδος είναι αρκετά τεχνική, η βασική ιδέα γίνεται πιο εύκολη αν τη δει κανείς σε δύο στάδια.

Στο πρώτο στάδιο, ένας κωδικοποιητής συμπιέζει τις πληροφορίες του αντικειμένου σε μια συμπαγή αναπαράσταση μέσα στον λανθάνοντα χώρο. Αντί να αποθηκεύει κάθε ορατή λεπτομέρεια, μαθαίνει μια μαθηματική περιγραφή του σχήματος και του τρόπου με τον οποίο το φως αλληλεπιδρά με την επιφάνειά του.

Στο δεύτερο στάδιο, ένας αποκωδικοποιητής αναλαμβάνει να κάνει το αντίστροφο. Χρησιμοποιεί αυτή τη συμπαγή αναπαράσταση για να ανακατασκευάσει το πλήρες τρισδιάστατο αντικείμενο, παράγοντας όχι μόνο τη γεωμετρία του αλλά και την εμφάνιση των φωτιστικών φαινομένων από διαφορετικές γωνίες θέασης.

* Την μελέτη μπορείτε να την βρείτε εδώ

Ακολουθήστε το Techmaniacs.gr στο Google News για να διαβάζετε πρώτοι όλα τα τεχνολογικά νέα. Ένας ακόμα τρόπος να μαθαίνετε τα πάντα πρώτοι είναι να προσθέσετε το Techmaniacs.gr στον RSS feeder σας χρησιμοποιώντας τον σύνδεσμο: https://techmaniacs.gr/feed/.