Τεχνητή νοημοσύνη: Το τεστ που δεν περνούσε κανείς και τώρα απειλεί να το «κατακτήσει»

Tech

Τεχνητή νοημοσύνη: Το τεστ που δεν περνούσε κανείς και τώρα απειλεί να το «κατακτήσει»

02-04-2026

Η τεχνητή νοημοσύνη πλησιάζει το απόλυτο σκορ στο Humanity’s Last Exam, σηματοδοτώντας νέο ορόσημο - Παρά την πρόοδο, η ανθρώπινη κρίση και δημιουργικότητα παραμένουν κρίσιμες για το μέλλον

Η τεχνητή νοημοσύνη φαίνεται να πλησιάζει στο να επιτύχει το απόλυτο σκορ σε ένα από τα πιο απαιτητικά τεστ γνώσεων παγκοσμίως, το «Humanity’s Last Exam (HLE)», μέσα στους επόμενους μήνες, σύμφωνα με τους δημιουργούς του τεστ.

Το HLE σχεδιάστηκε από ειδικούς της τεχνολογίας με στόχο την αξιολόγηση του επιπέδου νοημοσύνης των συστημάτων και περιλαμβάνει 2.500 προσεκτικά επιλεγμένες ερωτήσεις, που καλύπτουν περίπου 100 θεματικές ενότητες, από την πυραυλική επιστήμη και τη μυθολογία έως τη φυσιολογία. Κάθε ερώτηση απαιτεί κατανόηση επιπέδου διδακτορικού (PhD), ενώ ένα σκορ κοντά στο 100% θα απονέμει τον τίτλο του «καθολικού ειδικού». Πριν από δύο χρόνια, το ChatGPT της OpenAI είχε πετύχει μόλις 3% στο τεστ, ενώ τα αντίστοιχα μοντέλα της Google και της Anthropic δεν είχαν καλύτερες επιδόσεις. Το τεστ συνέβαλε τότε στον περιορισμό των ανησυχιών για την κυριαρχία της τεχνητής νοημοσύνης, καθώς ανέδειξε «ένα σημαντικό χάσμα» ανάμεσα στα μεγάλα γλωσσικά μοντέλα (LLMs) και τους κορυφαίους ακαδημαϊκούς.

Ωστόσο, το φαινομενικά αδύνατο HLE ενδέχεται να εξελιχθεί σε ακόμη ένα ορόσημο στη ραγδαία πρόοδο της τεχνητής νοημοσύνης. Το Gemini, το σύστημα AI της Google, κατέγραψε τον Φεβρουάριο επίδοση 45,9%, σημειώνοντας εντυπωσιακή άνοδο από το 18,8% μέσα σε λίγους μήνες από την πρώτη του συμμετοχή, ενώ το τέλειο σκορ θεωρείται πλέον εφικτό, σύμφωνα με τον Κάλβιν Ζανγκ, επικεφαλής έρευνας στη Scale, την εταιρεία που ανέπτυξε το τεστ.

«Στόχος μας ήταν να δημιουργήσουμε ένα ακαδημαϊκό benchmark κλειστού τύπου στο επίπεδο των κορυφαίων ειδικών, που μόνο ελάχιστοι άνθρωποι μπορούν να επιλύσουν», δήλωσε ο Ζανγκ. «Τα τελευταία χρόνια έχουμε δει εντυπωσιακή πρόοδο στα γλωσσικά μοντέλα. Οι δημιουργοί τους έχουν βελτιώσει σημαντικά τις δυνατότητες συλλογισμού». Στο ίδιο μήκος κύματος, η Κέιτ Ολζέσβκα, product manager στη DeepMind, υπογράμμισε ότι, αν αυτός ήταν ο μοναδικός στόχος, η επίτευξη του απόλυτου σκορ θα μπορούσε να γίνει πολύ γρήγορα.

Η Anthropic, που βρίσκεται πίσω από το σύστημα Claude και αποτελεί βασικό ανταγωνιστή του ChatGPT, έχει φτάσει σε επίδοση 34,2% στο HLE, με ταχύ ρυθμό βελτίωσης. Ένα σκορ 100% θα αποτελούσε σημαντικό ορόσημο, καθώς το τεστ έχει σχεδιαστεί ως «το τελευταίο ακαδημαϊκό benchmark κλειστού τύπου», σύμφωνα με τους δημιουργούς του.

Αυτό σημαίνει ότι, εφόσον η τεχνητή νοημοσύνη κατακτήσει το HLE, η αξιολόγησή της στο μέλλον θα απαιτεί ερωτήματα των οποίων οι απαντήσεις δεν είναι γνωστές σε κανέναν άνθρωπο.

Το τεστ

Το HLE δημιουργήθηκε από ερευνητές της Scale και του μη κερδοσκοπικού οργανισμού Center for AI Safety, με στόχο την αξιολόγηση τόσο του εύρους γνώσεων όσο και του βάθους συλλογισμού της τεχνητής νοημοσύνης. Ειδικοί από περίπου 50 χώρες υπέβαλαν 70.000 ερωτήσεις, ανταποκρινόμενοι σε διεθνή πρόσκληση τον Σεπτέμβριο του 2024, που συνοδευόταν από έπαθλο 500.000 δολαρίων.

Οι ερωτήσεις έπρεπε να έχουν σαφείς και σύντομες απαντήσεις και να μην είναι εύκολα ανιχνεύσιμες στο Διαδίκτυο. Η λίστα περιορίστηκε στις 13.000 ερωτήσεις, αφού αφαιρέθηκαν όσες μπορούσαν να απαντηθούν από υπάρχοντα μοντέλα. Από αυτές επιλέχθηκαν 2.500, με ορισμένες να τροποποιούνται ή να αποσύρονται βάσει σχολίων χρηστών. Οι ερωτήσεις απαιτούν ευρύ φάσμα γνώσεων, από τη βιολογία έως τις γλωσσικές δεξιότητες, ενώ πολλές παραμένουν μυστικές ώστε να αποφεύγεται η αξιοποίησή τους από τα συστήματα μέσω δημόσιων συζητήσεων.

Η επιτυχία στο HLE θα μπορούσε να συγκριθεί με τη νίκη του υπερυπολογιστή Deep Blue της IBM απέναντι στον παγκόσμιο πρωταθλητή σκακιού Γκάρι Κασπάροφ το 1997, μια εξέλιξη που είχε διαψεύσει τις προβλέψεις των ειδικών. Από τότε, μια σειρά σημαντικών benchmarks AI έχει ξεπεραστεί, όπως το Massive Multitask Language Understanding (MMLU), το οποίο παρουσιάστηκε το 2020 και εγκαταλείφθηκε όταν τα συστήματα άρχισαν να επιτυγχάνουν σκορ άνω του 90%.

«Καθώς η AI πλησιάζει στο σημείο να κατακτήσει τεστ που σχεδιάστηκαν από ανθρώπους, η επέκταση πέρα από τα όρια της ανθρώπινης γνώσης γίνεται βασικός στόχος», σημείωσε η Ολζέσβκα. Ωστόσο, σύμφωνα με τον Ζανγκ, η ανθρώπινη εξειδίκευση θα παραμείνει απαραίτητη, ιδιαίτερα σε πρακτικά πεδία όπως η χειρουργική και σε δεξιότητες που απαιτούν κρίση και δημιουργικότητα, οι οποίες είναι δυσκολότερο να αναπαραχθούν από την τεχνητή νοημοσύνη.

Πηγή: newmoney.gr

ΔΙΑΒΑΣΤΕ ΑΚΟΜΑ

Αγορά εργασίας: Οι ειδικότητες υψηλής γνώσης που επηρεάζονται από την τεχνητή νοημοσύνη

ΤεχνητήΝοημοσύνη

Τα πρώτα πλοία άρχισαν να εξέρχονται από τον Περσικό Κόλπο μετά τη συμφωνία ΗΠΑ – Ιράν

Κόσμος 19-06-2026

Τραμπ: Αν συνέχιζα να βομβαρδίζω το Ιράν, δεν θα είχαμε πετρέλαιο

Κύπρος 19-06-2026

Υποχώρηση ανάπτυξης φέτος λόγω του πολέμου βλέπει η ΚΤΚ – Τι εκτιμά για πληθωρισμό

Κύπρος 19-06-2026

Καύσιμα: Πέφτουν οι τιμές, αλλά όχι αρκετά για επιστροφή στην κανονικότητα

Κύπρος 19-06-2026

Απεργούν για μισθούς και ωφελήματα οι ωρομίσθιοι κυβερνητικοί υπάλληλοι

Κύπρος 19-06-2026

Τηλεφώνημα κόστισε €9.142 σε πολίτη στη Λευκωσία

Κόσμος 19-06-2026

SpaceX: Το ράλι εξανεμίστηκε και οι επενδυτές είδαν τα κέρδη τους να εξαφανίζονται

Κόσμος 19-06-2026

Βρετανικά ομόλογα: Πολιτικές εξελίξεις και πετρέλαιο αυξάνουν το κόστος δανεισμού

Κόσμος 19-06-2026

Σε εγρήγορση και με μεικτά πρόσημα οι ευρωαγορές μετά την αναβολή των συνομιλιών ΗΠΑ – Ιράν

Κόσμος 19-06-2026

Πλούτος: Γιατί οι εκατομμυριούχοι μετακινούνται μαζικά – Τι αναζητούν

Εμπορεύματα 19-06-2026

Το μεγαλύτερο μάθημα για το πετρέλαιο; Η δύναμη της Κίνας

Κόσμος 19-06-2026

Δημοσιονομικό σοκ στο Λονδίνο: Σε επίπεδα πανδημίας το έλλειμμα - Διαμορφώθηκε στα $30,7 δισ.

Κόσμος 19-06-2026

Economist: Η αμερικανική κεφαλαιαγορά περνά από την αισιοδοξία στον παροξυσμό

Εμπορεύματα 19-06-2026

Goldman Sachs: Μειώνει τον ετήσιο στόχο για τον χρυσό στα $4.900 - Το «φρένο» της Fed στο μεγάλο ράλι

Tech 19-06-2026

Τιμ Κουκ: Αναπόφευκτες οι αυξήσεις τιμών στα iPhone – Συμφωνία Apple και Intel για παραγωγή chips στις ΗΠΑ

Κόσμος 19-06-2026

Στερλίνα: Η Goldman Sachs υποστηρίζει πως είναι πλέον το πιο υπερτιμημένο νόμισμα της G10

Κόσμος 19-06-2026

Wall Street: Πώς η τεχνητή νοημοσύνη απορροφά κεφάλαια με ρυθμούς-ρεκόρ και αλλάζει τις ισορροπίες στις αγορές

Σχετικά Άρθρα

19-06-2026 • ECONOMY

Τιμ Κουκ: Αναπόφευκτες οι αυξήσεις τιμών στα iPhone – Συμφωνία Apple και Intel για παραγωγή chips στις ΗΠΑ

18-06-2026 • ECONOMY

Διελκυστίνδα ταλέντων: Αφήνοντας το Gemini για την OpenAI

18-06-2026 • ECONOMY

Intel: Άλμα 9% για τη μετοχή μετά τη συμφωνία με την Apple για chip στις ΗΠΑ

18-06-2026 • ECONOMY

Apple: Θα αυξήσει τις τιμές λόγω της κρίσης στα τσιπ μνήμης

Τελευταία νέα

Στο 150% η πληρότητα στο Νοσοκομείο Αθαλάσσας - Έλλειμμα 46 νοσηλευτών

Κύπρος - 19-06-2026

Πάνω από 90 ασθενείς νοσηλεύονται σε θαλάμους σχεδιασμένους για 60 άτομα - Η ΠΑΣΥΔΥ προειδοποιεί για κινδύνους στην ασφάλεια…

Η Santander έγινε η πολυτιμότερη ισπανική εταιρεία – Εκθρόνισε την Inditex

Ενισχύεται η παρουσία τεχνολογικών εταιρειών στα κινεζικά χρηματιστήρια

Τα πρώτα πλοία άρχισαν να εξέρχονται από τον Περσικό Κόλπο μετά τη συμφωνία ΗΠΑ – Ιράν

Τραμπ: Αν συνέχιζα να βομβαρδίζω το Ιράν, δεν θα είχαμε πετρέλαιο

Υποχώρηση ανάπτυξης φέτος λόγω του πολέμου βλέπει η ΚΤΚ – Τι εκτιμά για πληθωρισμό

Καύσιμα: Πέφτουν οι τιμές, αλλά όχι αρκετά για επιστροφή στην κανονικότητα

Απεργούν για μισθούς και ωφελήματα οι ωρομίσθιοι κυβερνητικοί υπάλληλοι

Τηλεφώνημα κόστισε €9.142 σε πολίτη στη Λευκωσία

SpaceX: Το ράλι εξανεμίστηκε και οι επενδυτές είδαν τα κέρδη τους να εξαφανίζονται

Καύσιμα: Πέφτουν οι τιμές, αλλά όχι αρκετά για επιστροφή στην κανονικότητα

Κύπρος - 19-06-2026

Παρά τη διόρθωση των τελευταίων εβδομάδων, η αμόλυβδη παραμένει κατά 23,2 σεντ ακριβότερη σε σχέση με πριν από τον πόλεμο,…

Απεργούν για μισθούς και ωφελήματα οι ωρομίσθιοι κυβερνητικοί υπάλληλοι

Οι συντεχνίες κατήγγειλαν καθυστέρηση στις διαπραγματεύσεις για ανανέωση της συλλογικής σύμβασης 2025-2027

Τηλεφώνημα κόστισε €9.142 σε πολίτη στη Λευκωσία

Απατεώνας τον έπεισε να εγκαταστήσει εφαρμογές στο κινητό του και απέκτησε πρόσβαση στα χρήματά του

SpaceX: Το ράλι εξανεμίστηκε και οι επενδυτές είδαν τα κέρδη τους να εξαφανίζονται

Η μετοχή της SpaceX έχει χάσει περίπου 20% από το πρόσφατο υψηλό της, εξαλείφοντας σχεδόν όλα τα κέρδη των επενδυτών που…

Βρετανικά ομόλογα: Πολιτικές εξελίξεις και πετρέλαιο αυξάνουν το κόστος δανεισμού

Τα κρατικά ομόλογα αντιμετωπίζουν πιέσεις μετά τη νίκη Μπέρναμ, με τις αγορές να ανησυχούν για τα δημόσια οικονομικά - Ανησυχίες…

Σε εγρήγορση και με μεικτά πρόσημα οι ευρωαγορές μετά την αναβολή των συνομιλιών ΗΠΑ – Ιράν

Παρά τη σημερινή επιφυλακτικότητα, αρκετοί μεγάλοι επενδυτικοί οίκοι παραμένουν αισιόδοξοι για τις ευρωπαϊκές μετοχές, με…

Πλούτος: Γιατί οι εκατομμυριούχοι μετακινούνται μαζικά – Τι αναζητούν

Η πολιτική και οικονομική αβεβαιότητα ωθεί ολοένα και περισσότερους εύπορους πολίτες να εξετάζουν τη μεταφορά της φορολογικής…

Το μεγαλύτερο μάθημα για το πετρέλαιο; Η δύναμη της Κίνας

Οι traders ανακάλυψαν ότι η ζήτηση λυγίζει πολύ πιο γρήγορα απ' όσο πίστευαν

Δημοσιονομικό σοκ στο Λονδίνο: Σε επίπεδα πανδημίας το έλλειμμα - Διαμορφώθηκε στα $30,7 δισ.

Ο δανεισμός της Βρετανίας έφτασε στο υψηλότερο επίπεδο Μαΐου των τελευταίων έξι ετών λόγω του αυξημένου κόστους χρέους, εντείνοντας…

Offcanvas

Offcanvas

Tech