DeepSeek: Πώς άλλαξε τους κανόνες στην τεχνητή νοημοσύνη με εξωφρενικά χαμηλό budget

Με μόλις 294.000 δολάρια, η κινεζική startup αμφισβητεί την κυριαρχία της OpenAI και της Nvidia, υπερασπιζόμενη τη μέθοδο «distillation» που μειώνει δραστικά το κόστος ανάπτυξης

Η κινεζική εταιρεία τεχνητής νοημοσύνης DeepSeek αποκάλυψε ότι δαπάνησε μόλις 294.000 δολάρια για την εκπαίδευση του μοντέλου R1, ποσό πολύ χαμηλότερο από τα αντίστοιχα που αναφέρουν αμερικανικοί ανταγωνιστές. Η ανακοίνωση, που δημοσιεύθηκε την Τετάρτη σε άρθρο στο επιστημονικό περιοδικό Nature, αναμένεται να αναζωπυρώσει τη συζήτηση για τη θέση του Πεκίνου στην κούρσα της τεχνητής νοημοσύνης.

Η ενημέρωση αυτή είναι η πρώτη εκτίμηση κόστους που δημοσιοποίησε η εταιρεία με έδρα το Χανγκζού. Η προηγούμενη παρουσίαση των χαμηλού κόστους μοντέλων της, τον Ιανουάριο, είχε προκαλέσει ανησυχία στις αγορές, οδηγώντας σε ρευστοποιήσεις τεχνολογικών μετοχών, καθώς επενδυτές φοβήθηκαν ότι θα απειληθεί η κυριαρχία ηγετών όπως η Nvidia.

Έκτοτε, η εταιρεία και ο ιδρυτής της, Λιανγκ Γουενφένγκ, έχουν κρατήσει χαμηλό προφίλ, δημοσιεύοντας μόνο λίγες ενημερώσεις προϊόντων.

Ο Σαμ Άλτμαν, CEO της OpenAI, είχε δηλώσει το 2023 ότι η εκπαίδευση θεμελιωδών μοντέλων κόστισε «πολύ περισσότερο» από 100 εκατ. δολάρια, χωρίς να δώσει ακριβείς αριθμούς. Το κόστος αφορά τη χρήση clusters από ισχυρά chips για εβδομάδες ή μήνες, ώστε να επεξεργαστούν τεράστιες ποσότητες κειμένων και κώδικα.

Σύμφωνα με το Nature, το μοντέλο R1 κόστισε 294.000 δολάρια για να εκπαιδευτεί σε 512 Nvidia H800 chips. Έκδοση του ίδιου άρθρου τον Ιανουάριο δεν περιλάμβανε τα στοιχεία αυτά.

Ορισμένοι στις ΗΠΑ αμφισβήτησαν τις δηλώσεις της DeepSeek σχετικά με τα κόστη και την τεχνολογία. Τα H800 chips σχεδιάστηκαν από τη Nvidia ειδικά για την Κίνα, μετά την απαγόρευση εξαγωγών των ισχυρότερων H100 και A100 το 2022. Αμερικανοί αξιωματούχοι είχαν ισχυριστεί ότι η DeepSeek απέκτησε παράνομα H100, όμως η Nvidia δήλωσε ότι χρησιμοποιήθηκαν νόμιμα αγορασμένα H800.

Για πρώτη φορά, η εταιρεία αναγνώρισε ότι διαθέτει A100 chips, τα οποία χρησιμοποιήθηκαν στα αρχικά στάδια ανάπτυξης μικρότερου μοντέλου, ενώ το R1 εκπαιδεύτηκε συνολικά για 80 ώρες στο cluster με H800.

Η DeepSeek απάντησε επίσης, έστω έμμεσα, στις κατηγορίες ότι «αντέγραψε» τα μοντέλα της OpenAI μέσω της μεθόδου της distillation, κατά την οποία ένα AI σύστημα μαθαίνει από άλλο, μειώνοντας δραστικά κόστος και χρόνο. Η εταιρεία υπερασπίζεται σταθερά τη μέθοδο ως τρόπο βελτίωσης επιδόσεων και διάδοσης της τεχνητής νοημοσύνης.

Είχε αναφέρει ότι χρησιμοποίησε το ανοιχτού κώδικα μοντέλο Llama της Meta για κάποιες εκδοχές. Στο άρθρο του Nature, η DeepSeek αναφέρει ότι τα δεδομένα εκπαίδευσης του μοντέλου V3 περιλάμβαναν web pages με «σημαντικό αριθμό απαντήσεων που είχαν παραχθεί από μοντέλα της OpenAI», γεγονός που μπορεί να οδήγησε έμμεσα στην ενσωμάτωση γνώσης από ισχυρότερα μοντέλα — υποστηρίζοντας πάντως ότι αυτό δεν έγινε εσκεμμένα.

Πηγή: newmoney.gr

Διαβάστε επίσης: Πόσο αυξήθηκαν οι επιθέσεις σε smartphones το πρώτο εξάμηνο του 2025

ΔΙΑΒΑΣΤΕ ΠΕΡΙΣΣΟΤΕΡΑ