Τεχνητή Νοημοσύνη: Ποιοι ποντάρουν σε παγκόσμια μοντέλα για την «υπερνοημοσύνη»

Οι Google, DeepMind, Meta και Nvidia αναπτύσσουν συστήματα που στοχεύουν στην καλύτερη κατανόηση του φυσικού κόσμου

Οι κορυφαίες ομάδες τεχνητής νοημοσύνης στον κόσμο εντείνουν την εστίασή τους στα λεγόμενα παγκόσμια μοντέλα που μπορούν να κατανοήσουν καλύτερα το ανθρώπινο περιβάλλον, αναζητώντας νέους τρόπους για την επίτευξη της «υπερνοημοσύνης» των μηχανών.

Οι Google DeepMind, Meta και Nvidia είναι μεταξύ των εταιρειών που προσπαθούν να κερδίσουν έδαφος στον αγώνα της τεχνητής νοημοσύνης, αναπτύσσοντας συστήματα που στοχεύουν στην πλοήγηση στον φυσικό κόσμο, μαθαίνοντας από βίντεο και ρομποτικά δεδομένα και όχι μόνο από τη γλώσσα.

Η προσπάθεια και η πρόοδος

Αυτή η προσπάθεια έρχεται καθώς προκύπτουν ερωτήματα σχετικά με το αν τα μεγάλα γλωσσικά μοντέλα — η τεχνολογία που τροφοδοτεί δημοφιλή chatbots όπως το ChatGPT της OpenAI — έχουν φτάσει στο ανώτατο όριο της προόδου τους.

Η πρόοδος στην απόδοση μεταξύ των LLM που έχουν κυκλοφορήσει εταιρείες του κλάδου, όπως η OpenAI, η Google και η xAI του Ίλον Μασκ, έχει επιβραδυνθεί, παρά τα τεράστια ποσά που έχουν επενδυθεί στην ανάπτυξή τους.

Η δυνητική αγορά για τα παγκόσμια μοντέλα θα μπορούσε να είναι τεράστια, σχεδόν στο μέγεθος της παγκόσμιας οικονομίας, σύμφωνα με τον Rev Lebaredian, αντιπρόεδρο της Omniverse και της τεχνολογίας προσομοίωσης στην Nvidia, καθώς φέρνει την τεχνολογία στον φυσικό τομέα, όπως οι τομείς της κατασκευής και της υγειονομικής περίθαλψης.

«Ποια είναι η ευκαιρία για τα παγκόσμια μοντέλα βάσης; Ουσιαστικά… 100 τρισεκατομμύρια δολάρια, αν καταφέρουμε να δημιουργήσουμε μια νοημοσύνη που μπορεί να κατανοήσει τον φυσικό κόσμο και να λειτουργήσει σε αυτόν», είπε.

Τα μοντέλα

Τα παγκόσμια μοντέλα εκπαιδεύονται χρησιμοποιώντας ροές δεδομένων από πραγματικά ή προσομοιωμένα περιβάλλοντα. Θεωρούνται ένα σημαντικό βήμα για την προώθηση της προόδου στα αυτόνομα αυτοκίνητα, τη ρομποτική και τη λεγόμενη τεχνητή νοημοσύνη.

Τα παγκόσμια μοντέλα εκπαιδεύονται χρησιμοποιώντας ροές δεδομένων από πραγματικά ή προσομοιωμένα περιβάλλοντα. Θεωρούνται ένα σημαντικό βήμα για την προώθηση της προόδου στα αυτόνομα αυτοκίνητα, τη ρομποτική και τους λεγόμενους πράκτορες τεχνητής νοημοσύνης, αλλά απαιτούν τεράστιο όγκο δεδομένων και υπολογιστική ισχύ για την εκπαίδευσή τους και θεωρούνται μια άλυτη τεχνική πρόκληση.

Αυτή η εστίαση σε μια εναλλακτική προσέγγιση των LLM έχει γίνει ορατή, καθώς αρκετές ομάδες τεχνητής νοημοσύνης έχουν παρουσιάσει μια σειρά από εξελίξεις στα μοντέλα κόσμου τους τελευταίους μήνες.

Οι αλληλεπιδράσεις

Τον περασμένο μήνα, η Google DeepMind κυκλοφόρησε το Genie 3, το οποίο δημιουργεί βίντεο καρέ καρέ και λαμβάνει υπόψη προηγούμενες αλληλεπιδράσεις. Προηγουμένως, τα μοντέλα δημιουργίας βίντεο συνήθως δημιουργούσαν ολόκληρο το βίντεο με μία κίνηση, αντί να το δημιουργούν βήμα προς βήμα.

«Η τεχνητή νοημοσύνη… παραμένει σε μεγάλο βαθμό περιορισμένη στον ψηφιακό τομέα», δήλωσε ο Shlomi Fruchter, συνυπεύθυνος του Genie 3 στη Google DeepMind. «Δημιουργώντας περιβάλλοντα που μοιάζουν ή συμπεριφέρονται όπως ο πραγματικός κόσμος, μπορούμε να έχουμε πολύ πιο κλιμακωτούς τρόπους για να εκπαιδεύσουμε την τεχνητή νοημοσύνη… χωρίς τις πραγματικές συνέπειες ενός λάθους στον πραγματικό κόσμο».

Η Meta προσπαθεί να αναπαράγει τον τρόπο με τον οποίο τα παιδιά μαθαίνουν παθητικά παρατηρώντας τον κόσμο γύρω τους, εκπαιδεύοντας τα μοντέλα V-JEPA σε ακατέργαστο περιεχόμενο βίντεο. Το εργαστήριο Facebook Artificial Intelligence Research (Fair), με υπεύθυνο τον επικεφαλής επιστήμονα τεχνητής νοημοσύνης της Meta Yann LeCun και με έμφαση σε μακροπρόθεσμα έργα τεχνητής νοημοσύνης, κυκλοφόρησε τη δεύτερη έκδοση του μοντέλου τον Ιούνιο, το οποίο έχει δοκιμάσει σε ρομπότ.

Ο LeCun, που θεωρείται ένας από τους «νονούς» της σύγχρονης τεχνητής νοημοσύνης, είναι ένας από τους πιο ένθερμους υποστηρικτές της νέας αρχιτεκτονικής, προειδοποιώντας ότι τα LLM δεν θα αποκτήσουν ποτέ την ικανότητα να συλλογίζονται και να σχεδιάζουν όπως οι άνθρωποι.

Παρά ταύτα, ο διευθυντής της Meta, Μαρκ Ζάκερμπεργκ αύξησε πρόσφατα τις επενδύσεις σε κορυφαία ταλέντα στον τομέα της τεχνητής νοημοσύνης, με μια ελίτ ομάδα να πιέζει τώρα για να επιτύχει σημαντικές καινοτομίες στα επόμενα μοντέλα Llama LLM. Αυτό περιελάμβανε την πρόσληψη του Alexandr Wang, ιδρυτή της ομάδας σήμανσης δεδομένων Scale AI, για να ηγηθεί όλων των εργασιών της Meta στον τομέα της τεχνητής νοημοσύνης, με τον LeCun να αναφέρεται πλέον στον Wang.

Η εφαρμογή

Μια βραχυπρόθεσμη εφαρμογή των μοντέλων είναι η βιομηχανία του θεάματος, όπου μπορούν να δημιουργήσουν διαδραστικές και ρεαλιστικές σκηνές. Η World Labs, μια νεοσύστατη εταιρεία που ιδρύθηκε από την πρωτοπόρο στον τομέα της τεχνητής νοημοσύνης Fei-Fei Li, αναπτύσσει ένα μοντέλο που δημιουργεί περιβάλλοντα 3D παρόμοια με αυτά των βιντεοπαιχνιδιών από μια μόνο εικόνα.

Η Runway, μια νεοφυής επιχείρηση παραγωγής βίντεο που συνεργάζεται με στούντιο του Χόλιγουντ, συμπεριλαμβανομένης της Lionsgate, λάνσαρε τον περασμένο μήνα ένα προϊόν που χρησιμοποιεί μοντέλα για να δημιουργεί περιβάλλοντα παιχνιδιών, με εξατομικευμένες ιστορίες και χαρακτήρες που δημιουργούνται σε πραγματικό χρόνο.

«Οι παραδοσιακές μέθοδοι βίντεο [είναι μια] βίαιη προσέγγιση στη δημιουργία pixel, όπου προσπαθείς να συμπιέσεις την κίνηση σε μερικά καρέ για να δημιουργήσεις την ψευδαίσθηση της κίνησης, αλλά το μοντέλο στην πραγματικότητα δεν γνωρίζει ούτε κατανοεί τι συμβαίνει σε αυτή τη σκηνή», δήλωσε ο Cristóbal Valenzuela, διευθύνων σύμβουλος της Runway.

Η φυσική που δεν ήταν όμοια με τον πραγματικό κόσμο

Τα προηγούμενα μοντέλα δημιουργίας βίντεο είχαν φυσική που δεν ήταν παρόμοια με τον πραγματικό κόσμο, πρόσθεσε, κάτι που τα συστήματα μοντέλων κόσμου γενικής χρήσης βοηθούν να αντιμετωπιστεί.

Για να δημιουργήσουν αυτά τα μοντέλα, οι εταιρείες πρέπει να συλλέξουν έναν τεράστιο όγκο φυσικών δεδομένων για τον κόσμο.

Η Niantic, με έδρα το Σαν Φρανσίσκο, έχει χαρτογραφήσει 10 εκατομμύρια τοποθεσίες, συλλέγοντας πληροφορίες μέσω παιχνιδιών όπως το Pokémon Go, το οποίο έχει 30 εκατομμύρια παίκτες κάθε μήνα που αλληλεπιδρούν με έναν παγκόσμιο χάρτη.

Η Niantic διαχειριζόταν το Pokémon Go για εννέα χρόνια και, ακόμη και μετά την πώληση του παιχνιδιού στην αμερικανική Scopely τον Ιούνιο, οι παίκτες του εξακολουθούν να συνεισφέρουν ανώνυμα δεδομένα μέσω σαρώσεων δημόσιων σημείων αναφοράς, προκειμένου να βοηθήσουν στην κατασκευή του μοντέλου του κόσμου του.

«Έχουμε ένα καλό ξεκίνημα στην αντιμετώπιση του προβλήματος», δήλωσε ο John Hanke, διευθύνων σύμβουλος της Niantic Spatial, όπως ονομάζεται πλέον η εταιρεία μετά τη συμφωνία με την Scopely.

Τα κενά

Τόσο η Niantic όσο και η Nvidia εργάζονται για να καλύψουν τα κενά, δημιουργώντας μοντέλα του κόσμου που παράγουν ή προβλέπουν περιβάλλοντα. Η πλατφόρμα Omniverse της Nvidia δημιουργεί και εκτελεί τέτοιες προσομοιώσεις, βοηθώντας τον τεχνολογικό γίγαντα αξίας 4,3 τρισ. δολαρίων να προωθήσει τη ρομποτική και αξιοποιώντας τη μακρά ιστορία της στην προσομοίωση πραγματικών συνθηκών σε βιντεοπαιχνίδια.

Ο διευθύνων σύμβουλος της Nvidia, Τζένσεν Χουάνγκ, έχει δηλώσει ότι η επόμενη σημαντική φάση ανάπτυξης για την εταιρεία θα έρθει με την «φυσική τεχνητή νοημοσύνη», με τα νέα μοντέλα να φέρνουν επανάσταση στον τομέα της ρομποτικής.
Κάποιοι, όπως ο LeCun της Meta, έχουν δηλώσει ότι αυτή η όραση μιας νέας γενιάς συστημάτων τεχνητής νοημοσύνης που τροφοδοτούν μηχανές με νοημοσύνη ανθρώπινου επιπέδου θα μπορούσε να χρειαστεί 10 χρόνια για να πραγματοποιηθεί.

Ωστόσο, σύμφωνα με τους ειδικούς της τεχνητής νοημοσύνης, το δυναμικό πεδίο εφαρμογής αυτής της πρωτοποριακής τεχνολογίας είναι ευρύ. Τα παγκόσμια μοντέλα «ανοίγουν την ευκαιρία να εξυπηρετηθούν όλοι αυτοί οι άλλοι κλάδοι και να ενισχυθεί αυτό που έκαναν οι υπολογιστές για την εργασία που απαιτεί γνώση», δήλωσε ο Lebaredian της Nvidia.

Πηγή: ot.gr

ΔΙΑΒΑΣΤΕ ΠΕΡΙΣΣΟΤΕΡΑ