Dactyl: Το πρώτο ρομπότ που λύνει τον Κύβο του Ρούμπικ με ένα χέρι ο,τι κι αν γίνει!

Τα τελευταία χρόνια, τα συστήματα Τεχνητής Νοημοσύνης (ΤΝ) έχουν βελτιωθεί απίστευτα σχεδόν σε όλους τους τομείς, από τα παιχνίδια στρατηγικής μέχρι τη συγγραφή ειδήσεων και τη δημιουργία ρεαλιστικών εικόνων. Αυτό οφείλεται στην πρόοδο που έχουν σημειώσει οι αλγόριθμοι Machine Learning που επιτρέπουν στα συστήματα αυτά να συσσωρεύουν δεκαετίες, ή ακόμα και αιώνες, εμπειρίας επιλύοντας ένα πρόβλημα σε περιβάλλον λογισμικού σε λίγες ώρες ή μέρες.

Αλλά οι τεχνικές αυτές δεν λειτουργούν εξίσου καλά στα ρομπότ. Σε αντίθεση με ένα λογισμικό ΤΝ, το οποίο μπορεί να τρέξει πολύ γρήγορα και σε πολλούς υπολογιστές ταυτόχρονα, τα ρομπότ λειτουργούν στον υλικό κόσμο όπως εμείς. Οπότε, για να εκπαιδευτεί ένα ρομπότ π.χ. με ένα εκατομμύριο χρόνια εμπειρίας, χρειάζεται απλά... ένα εκατομμύριο χρόνια. Θα μπορούσε ίσως ένα σύστημα ΤΝ να εκπαιδευτεί σε περιβάλλον προσομοίωσης να χειρίζεται ένα ρομπότ, και στη συνέχεια να «εφαρμόσει» την εμπειρία του σε ένα πραγματικό ρομπότ, αλλά το αποτέλεσμα στον πραγματικό κόσμο με ένα πραγματικό ρομπότ δεν θα είναι το ίδιο με την προσομοίωση γιατί υπάρχουν χιλιάδες πράγματα που μπορεί να πάνε στραβά: μια άρθρωση ίσως έχει κάποιο πρόβλημα, ένα αισθητήρας μπορεί να μην λειτουργεί σωστά κοκ.

Όμως το ερευνητικό εργαστήριο OpenAI από το Σαν Φρανσίσκο ανακοίνωσε αυτή τη βδομάδα ότι βρήκε έναν τρόπο να ξεπεράσει αυτό το πρόβλημα. Οι ερευνητές παρουσίασαν ένα ρομποτικό χέρι, με το μάλλον ελληνικό όνομα Dactyl, το οποίο έμαθε να λύνει τον κύβο του Rubik, ανεξάρτητα των όποιων αναπάντεχων δυσκολιών εμφανιστούν. Δηλαδή, ένα ρομποτικό χέρι λύνει τον Κύβο ακόμα κι αν το ενοχλείς!

Και πως το κατάφεραν αυτό; Αντί να εκπαιδεύσουν απλώς την ΤΝ πως να λύνει το πρόβλημα σε ένα «ιδανικό» περιβάλλον προσομοίωσης, οι ερευνητές του OpenAI αποφάσισαν να προσθέσουν στην προσομοίωση χιλιάδες παραμέτρους και συνθήκες όπου... κάτι πάει στραβά. Μετά, με τεχνικές machine learning εκπαίδευσαν το λογισμικό τεχνητής νοημοσύνης να λύνει τον Κύβο, ανεξάρτητα από τις όποιες συνθήκες. Με άλλα λόγια, αντί να εκπαιδεύσουν το ρομπότ μόνο «πως» να λύνει το ίδιο το πρόβλημα, οι ερευνητές του OpenAI το έβαλαν να μάθει πως να ξεπερνά και τις διάφορες δυσκολίες από φυσικούς παράγοντες ώστε να λύνει τον κύβο ανεξαρτήτως συνθηκών!

Για παράδειγμα, σε κάποιες προσομοιώσεις έβαλαν την βαρύτητα να είναι πολύ πιο μικρή ή πολύ πιο ισχυρή ή σε εντελώς διαφορετική κατεύθυνση από ότι στην πραγματικότητα. Σε άλλες προσομοιώσεις, έβαλαν τα δάχτυλα του ρομπότ να κινούνται πιο αργά ή πολύ πιο γρήγορα ή και καθόλου, ενώ έφτασαν να προσομοιώνουν και το ενδεχόμενο βλάβης των αισθητήρων ή την παρενόχληση από εξωτερικές δυνάμεις. Σε όλες τις περιπτώσεις, το ρομποτικό χέρι (στην προσομοίωση) προσαρμοζόταν και τα κατάφερνε.

Όπως εξήγησε ο Peter Welinder, ερευνητής του OpenAI: "Ο μόνος τρόπος για να μπορέσει πραγματικά να μάθει να λύνει ένα πρόβλημα σε όλα αυτά τα περιβάλλοντα είναι να μάθει να προσαρμόζεται πραγματικά γρήγορα".

Κάπως έτσι, μετά από χιλιάδες «χρόνια» εξάσκησης σε αυτό το προσομοιωμένο περιβάλλον με τις εκατοντάδες δυσκολίες, το πρόγραμμα ΤΝ που χειρίζεται το ρομποτικό χέρι «έμαθε» πώς να αλληλεπιδρά με τον πραγματικό κόσμο. Μπορούσε να αντιμετωπίζει μικρές παραλλαγές στο περιβάλλον του ακριβώς επειδή είχε εκπαιδευτεί σε σημαντικά πιο δύσκολες περιπτώσεις. Μάλιστα, οι ερευνητές δοκίμασαν ακόμα περισσότερο τις δυνατότητες του «ενοχλώντας» το καθώς λύνει τον Κύβο: του έδεναν τα δάχτυλα, του έβαζαν ένα γάντι από καουτσούκ, ή το χτυπούσαν. Φυσικά, σε πολύ ακραίες περιπτώσεις, το ρομπότ δεν μπορούσε να ανταπεξέλθει, όπως πχ όταν κάλυπταν όλους τους αισθητήρες του. Αλλά πάλι, ποιος άνθρωπος θα μπορούσε να λύσει το πρόβλημα αν δεν έβλεπε, δεν άκουγε και δεν αισθανόταν αυτό που αγγίζει;

Πως λειτουργεί το Dactyl

Το πρώτο πράγμα που κάνει το Dactyl, όταν ξεκινά να λύσει τον Κύβο του Ρούμπικ, είναι να «γνωρίσει» το περιβάλλον στο οποίο λειτουργεί: ποια είναι η βαρύτητα και η κατεύθυνση, πώς λειτουργούν τα δάχτυλά του εκείνη τη στιγμή, καθώς και ποιες πηγές αντίστασης ή απόσπασης της προσοχής υπάρχουν στο περιβάλλον του. Οι περισσότεροι αλγόριθμοι machine learning δεν μαθαίνουν τίποτα κατά τη διάρκεια των πραγματικών δοκιμών, γιατί η εκπαίδευση και οι δοκιμές γίνονται σε ξεχωριστές περιόδους οπότε δεν μπορούν να μάθουν τίποτα την ώρα μιας δοκιμής. Αυτή είναι η μεγάλη διαφορά του Dactyl, που ουσιαστικά είναι ένα ρομπότ που συνέχεια «μαθαίνει» για το περιβάλλον του και προσαρμόζεται. Δηλαδή, "υπολογίζει" φυσικές παραμέτρους όπως η βαρύτητα, πως δουλεύουν τα άκρα του και ποια από αυτά έχουν πρόβλημα και αντίστοιχα προσαρμόζει τη στρατηγική του με βάση τη νέα αντίληψη που έχει για τον πραγματικό κόσμο...

Το τελικό αποτέλεσμα, όπως μπορείτε να δείτε στα παρακάτω βίντεο, είναι τόσο καλό που οι ερευνητές είχαν δυσκολία να καταλάβουν αν πράγματι έχει χαλάσει κάτι στο ρομπότ όπως σχεδίαζαν. Συνήθως, όταν χαλάει κάποιο υποσύστημα το καταλαβαίνεις, αφού το ρομπότ σταματά να λειτουργεί. Το Dactyl όμως, μετά από εκπαίδευση, τα κατάφερνε τόσο καλά με σπασμένους αισθητήρες και συνδέσμους που οι ερευνητές απορούσαν αν όντως έχουν χαλάσει αυτά τα πράγματα όπως σχεδίαζαν...

Το μέλλον και οι ανησυχίες

Οι τεχνικές που χρησιμοποίησε η ομάδα του OpenAI είναι πάρα πολύ γενικές, οπότε ο ίδιος αλγόριθμος ΤΝ μπορεί να χρησιμοποιηθεί να λύνει άλλα προβλήματα αντιμετωπίζοντας τις όποιες εξωτερικές συνθήκες και δυσκολίες υπάρχουν. Αυτό το γεγονός είναι που απασχολεί -και ερευνητικά αλλά ηθικά- τους ερευνητές που ασχολούνται με την γενική Τεχνητή Νοημοσύνη. Μπορεί σήμερα τα συστήματα ΤΝ να περιορίζονται στην εκπαίδευση πολύ συγκεκριμένων και προβλημάτων με ξεκάθαρες παραμέτρους (όπως ο Κύβος του Ρούμπικ ή η ανίχνευση καρκινικών όγκων) αλλά οι περισσότεροι ερευνητές συμφωνούν ότι στο μέλλον η εξέλιξη αυτών των ΤΝ θα τους δώσει τη δυνατότητα γενικής επίλυσης προβλημάτων ώστε να μπορούν να μαθαίνουν να λύνουν προβλήματα που απαιτούν πολλά και διαφορετικά επιστημονικά πεδία ταυτόχρονα.

Αυτός είναι ο απώτερος στόχος του OpenAI, και το ερώτημα είναι αν μπορεί να επιτευχθεί με ασφάλεια και υπευθυνότητα για την ανθρωπότητα, κάτι με το οποίο δεν συμφωνούν όλοι... Αυτές τις ανησυχίες δεν φαίνεται να τις συμμερίζεται η γνωστή αμερικάνικη εταιρεία Microsoft που έχει επενδύσει ήδη πάνω από 1 δισεκατομμύριο δολάρια για να βοηθήσει την ομάδα του OpenAI να φτάσει σε αυτό το σημείο. Το μόνο βέβαιο είναι ότι καθώς η Τεχνητή Νοημοσύνη βελτιώνεται και οι ερευνητές επινοούν όλο και καλύτερους αλγόριθμους και τεχνικές για να λύνει προβλήματα που τώρα θεωρούμε «αδύνατα» για μια ΤΝ, τα πράγματα που ο άνθρωπος θα μπορεί να κάνει καλύτερα από μια ΤΝ θα γίνονται όλο και λιγότερα...

Δείτε στο παρακάτω βίντεο την ΤΝ του Dactyl να λύνει τον κύβο του Rubik με ένα χέρι σε 6,82 δευτερόλεπτα.

Και στο παρακάτω βίντεο, οι ερευνητές του βάζουν διάφορες δυσκολίες (δεμένα δάχτυλα, γάντι, ακόμα και ενόχληση με ένα στυλό ή μια κούκλα), αλλά το Dactyl τα καταφέρνει πάλι μια χαρά: