ΓΟΥΑΤΤΤ τι φασηη o3 μοντελο??
αν όλα αυτά τα κάνει στο 4 μοντέλο, τι θα γίνει με τα αντιστοιχα 5 o1 και 5 o3?
Όταν βγήκε το ChatGPT το Νοέμβριο του 2022, πολλοί έσπευσαν να κάνουν λόγο για μια απλή "μηχανή λογοκλοπής". Μπορεί να περνούσε π.χ. εξετάσεις δικηγορικού συλλόγου, αλλά "με παπαγαλία όλα γίνονται".
Λίγους μήνες αργότερα, δημοσιεύτηκε η έκδοση GPT-4, και μια σειρά από ενδελεχή τεστ, έδειξαν ότι σε ένα βαθμό, το σύστημα είχε αναπτύξει δημιουργική και ευέλικτη σκέψη, εκτός της παπαγαλίας από το αχανές υλικό που είχε διαβάσει.
Ο σκεπτικισμός συνέχισε από αρκετούς. "Και πώς μπορεί ένα μηχάνημα που προβλέπει λέξεις να σκέφτεται;" Και όμως, το ένα τεστ μετά το άλλο, αποδείκνυε εκπληκτικές δυνατότητες στα περισσότερα είδη νοητικής εργασίας.
Η πρόοδος που ακολούθησε αφορούσε κυρίως μείωση κόστους και βελτίωση σε ορισμένα σημεία των μοντέλων, χωρίς όμως την ίδια ραγδαία βελτίωση ευφυΐας που είχε παρατηρηθεί προηγουμένως. Το να μεγαλώνει κανείς όλο και περισσότερο τον "εγκέφαλο των μοντέλων" προσέφερε λιγότερο, καθώς ήδη τα προηγούμενα μοντέλα είχαν μπορέσει να μελετήσουν σχεδόν το σύνολο της υπάρχουσας ανθρώπινης πληροφορίας.
Σύντομα όμως προέκυψε η επόμενη καινοτομία, στην εξής λογική: όσο έξυπνος και αν είναι κάποιος, μην περιμένεις να σου λύσει τα δυσκολότερα προβλήματα αν δε καθίσει κάτω να σκεφτεί αναλυτικά, και να δοκιμάσει διαφορετικές προσεγγίσεις προτού φτάσει σε συμπέρασμα.
Έτσι γεννήθηκε η σειρά o1 των GPT μοντέλων, συστήματα που σκέφτονται ελεύθερα επί ώρα προτού απαντήσουν. Στην πρώτη εικόνα κάτω μπορείτε να δείτε ενδεικτικά ένα πρόσφατο αποτέλεσμα αυτής της προσέγγισης, που σόκαρε τον γιατρό του Χάρβαντ που έτρεχε σχετική έρευνα.
Ήδη το GPT-4 φαινόταν ελαφρώς καλύτερο του μέσου γιατρού στην κριτική αξιολόγηση δύσκολων ιατρικών περιστατικών. Αλλά η προκαταρκτική έκδοση του o1 υπερέβη προσδοκίες: από το σκορ ~35% των γιατρών, εκτινάχθηκε στο ~85%. Και μάλιστα, η ικανότητά του δε μειωνόταν όταν εξεταζόταν σε υλικό που είχε δημοσιευτεί μόνο μετά τη βασική του εκπαίδευση.
Πριν λίγο λοιπόν, παρουσιάστηκαν οι πρώτες επιδόσεις της επόμενης γενιάς των "σκεπτόμενων μοντέλων", με την ονομασία o3 (το όνομα 2 προσπεράστηκε λόγω κωλυμάτων copyright).
Καταρχάς, απέναντι στις περισσότερες εκτιμήσεις, το o3 μπόρεσε τελικά να αγγίξει σκορ 88% στο ARC, το πλέον απαιτητικό τεστ ευέλικτης λογικής για τα ΑΙ. Τέτοιου επιπέδου σκορ θεωρείται ένα απαιτούμενο χαρακτηριστικό μιας Γενικής Τεχνητής Νοημοσύνης (AGI), το θεωρητικό σύστημα που θα μπορούσε να σκέφτεται όσο ευέλικτα και ένας άνθρωπος. Πέρσι, το GPT-4 έφτανε μόνο το 7%.
Πριν λίγους μήνες, κορυφαίοι μαθηματικοί διεθνώς δημοσίευσαν μια σειρά από τεστ, που θεωρούσαν απλησίαστα για τα ΑΙ (σκορ των καλύτερων ΑΙ στο 0% με 2%). Ειδικοί μαθηματικοί χρειάζονταν από ώρες, σε μέρες, έως αδυνατούσαν να λύσουν τα περισσότερα προβλήματα. Όταν όμως το o3 σκέφτεται για ώρες, λύνει μέχρι και το 25% των προβλημάτων.
Ένα άλλο κορυφαίο τεστ, αυτή τη φορά στις θετικές επιστήμες, ονομάζεται GPQA Diamond, και περιέχει προβλήματα που απαιτούν βαθιά επιστημονική κατάρτιση, και δε μπορούν να λυθούν με απλές αναζητήσεις τύπου Google. Ο μέσος ειδικός σκόραρε περίπου 70% στο πεδίο του, αλλά το o3, στο μέγιστο χρόνο σκέψης, άγγιζε το 88%.
Θυμηθείτε, αυτά τα άλματα έγιναν με αστραπιαία ταχύτητα μέσα σε μόλις 2 χρόνια.
Πολλές προβλέψεις για το μέλλον της τεχνολογίας έχουν πέσει έξω, υποτιμώντας το πόσο δύσκολα είναι κάποια προβλήματα, ακόμη και για τα πιο λαμπρά μυαλά. Αλλά όχι αυτή τη φορά. Οι περισσότεροι...
www.facebook.com