Φτιάχνουμε μηχανές που μαθαίνουν
Πώς θα λειτουργεί η ελληνική τεχνολογία για υπολογιστές που θα συλλέγουν δεδομένα απαντώντας σε σύνθετες ερωτήσεις
ΤΑΣΟΥΛΑΣ ΚΑΡΑΪΣΚΑΚΗ
Βρισκόμαστε με τον Βασίλη Κατσούρο, διευθυντή του Ινστιτούτου Επεξεργασίας Λόγου του Ερευνητικού Κέντρου «Αθηνά», στην οδό Φραγκοκκλησιάς, σε μια απόμερη γωνιά ενός wine bar, λίγα βήματα από το Ινστιτούτο. Γύρω μας, παρέες από τα γειτονικά γραφεία γευματίζουν ή πίνουν τον καφέ τους. Οι περισσότεροι απασχολούνται με το κινητό τους. Μιλάμε για τις ραγδαίες αλλαγές που έφερε η τεχνολογία στην καθημερινότητα, σε συντομότατο χρόνο. «Προσωπικά είδα να γεννιέται το Διαδίκτυο· μέσω των Windows άνοιξε ένα παράθυρο στον κόσμο. Εζησα το πρώτο browser, την εμφάνιση του ηλεκτρονικού ταχυδρομείου, της Wikipedia –ποιος έχει εγκυκλοπαίδεια σήμερα στο σπίτι;–, την έκρηξη των έξυπνων κινητών, τη μεταφορά των υπολογιστών από το γραφείο στην τσέπη μας, την εξάπλωση των κοινωνικών δικτύων, την εικονική πραγματικότητα… Οι εφαρμογές, από τον υπολογιστή γραφείου ήρθαν στο χέρι μας· με μια κίνηση του δείκτη όλα γίνονται εύκολα από άτομα οποιασδήποτε ηλικίας. Οι επαφές είναι διαισθητικές, δεν υπάρχουν πια εγχειρίδια χρήσης, όλοι γνωρίζουν πώς να χρησιμοποιήσουν μια εφαρμογή» λέει ο κ. Κατσούρος. «Οι κόρες μου, στη β΄ γυμνασίου και β΄ λυκείου, παιδιά της αφής, θεωρούν το Διαδίκτυο κάτι δεδομένο, όπως το ηλεκτρικό ρεύμα. Φανταστείτε τι θα συμβεί, αν μετά την ενεργειακή κρίση ζήσουμε μια κρίση δεδομένων! Είναι εντυπωσιακό πόσο διασυνδεδεμένοι είμαστε».
Ο κ. Κατσούρος ηγείται ενός ινστιτούτου το οποίο μετράει από πολύ νωρίς, πριν από τεχνολογικούς κολοσσούς, όπως η Google και η Apple, αναρίθμητες εφαρμογές που βασίζονται στην επεξεργασία του λόγου. Και όμως, ακόμη «κάθε καινούργια τεχνολογία με εκπλήσσει. Ολα με εκπλήσσουν, από τότε που μαθητής λυκείου απέκτησα το πρώτο μου κομπιούτερ και έφτιαξα τα πρώτα προγράμματα. Με εκπλήσσουν οι αισθητήρες που “διαβάζουν” τα χέρια μου και μου επιτρέπουν να παίξω εικονικά ένα μουσικό όργανο, η φωνή στο κινητό που μου λέει ότι θα φθάσω στη δουλειά σε 12 λεπτά, ή ότι σήμερα θα επισκεφθώ έναν Γεννήθηκε στην Αθήνα. φίλο και χρειάζομαι τόσο χρόνο».
Κι ας ο ίδιος, μαζί με τους ερευνητές του ΙΕΛ, παράγει ή εξελίσσει τεχνολογικές επινοήσεις, πολλές από τις οποίες χρησιμοποιούμε καθημερινά. Αυτόματη ορθογραφική και γραμματική διόρθωση κειμένου, μηχανική μετάφραση, αυτόματη διερμηνεία, αυτόματη μετάφραση της νοηματικής γλώσσας, φωνητικοί βοηθοί, όπως στο σύστημα πλοήγησης του αυτοκινήτου, ακρόαση άρθρου με τη φωνή του συγγραφέα, αυτόματη συγγραφή e-mails… Αλλά και «εξόρυξη απόψεων» και μισαλλόδοξου λόγου από τα κοινωνικά δίκτυα, αναγνώριση συναισθημάτων από τη χροιά της φωνής, εκτίμηση του βαθμού δυσλεξίας ή αφασικού λόγου (για την εφαρμογή από τον λογοθεραπευτή του κατάλληλου θεραπευτικού πρωτοκόλλου), ανίχνευση ρινικών αλλεργιών και μόλυνσης από τον κορωνοϊό.
«Αυτή τη στιγμή δουλεύουμε πάνω σε μια τεχνολογία επεξεργασίας του λόγου, που εστιάζει στην εξαγωγή πληροφορίας από βάσεις δεδομένων για τη δημιουργία ενός συστήματος ερωταποκρίσεων. Ο χρήστης θα θέτει ένα ερώτημα γραπτά ή προφορικά και η μηχανή, ο υπολογιστής, θα απαντάει σε αυτό γραπτά ή προφορικά. Θα λειτουργεί
Αποφοίτησε από τη Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Η/Υ του ΕΜΠ. Ελαβε μάστερ με διάκριση στις Επικοινωνίες και την Επεξεργασία Σήματος από το Imperial College.
Ολοκλήρωσε το διδακτορικό του στη Μαθηματική Μοντελοποίηση και στον Στοχαστικό Ελεγχο στο Imperial College.
όπως ο φωνητικός βοηθός Siri της Apple, αλλά για πολύ πιο σύνθετα ερωτήματα. Αναλύονται όλα τα δεδομένα της Wikipedia και χτίζεται μια βάση γνώσης, εν προκειμένω στα ελληνικά, ώστε να δίνονται απαντήσεις σε όποια ερωτήματα τίθενται. Ολο αυτό θα υποστηρίζεται από εξελιγμένες τεχνολογίες αναγνώρισης και σύνθεσης φωνής. Θα είναι μια εφαρμογή που ενδεχομένως θα δούμε σε λίγο καιρό στα κινητά μας», μας πληροφορεί ο κ. Κατσούρος.
Ενα πρώτο πεδίο εφαρμογής αφορά την εκπαίδευση. Η αρχή γίνεται «με τα μαθήματα της Βιολογίας και της Ιστορίας. Ο μαθητής θα μπορεί να κάνει ερωτήσεις –π.χ. για τη δομή του κυττάρου ή ένα ιστορικό γεγονός– και να λαμβάνει τις απαντήσεις και αντίστροφα η μηχανή θα τον εκπαιδεύει, υποβάλλοντας ερωτήσεις και αξιολογώντας τις απαντήσεις του. Το αλγοριθμικό μέρος της μηχανής που μαθαίνει από τα δεδομένα σταδιακά βελτιώνεται, συμβάλλοντας στον εμπλουτισμό των εμπειριών μας, στην εξέλιξη και γενίκευση των τεχνολογιών και σε άλλα πεδία εφαρμογής».
Τα εύρωστα προηγμένα συστήματα αναγνώρισης και σύνθεσης φωνής, μετάφρασης, επεξεργασίας Εξελέγη εντεταλμένος ερευνητής στο ΙΕΛ. Το 2008 εξελέγη κύριος ερευνητής και το 2015 διευθυντής Ερευνών. Γεννήθηκε η κόρη του Ελλη. Ακολούθησε το 2009 η Στέφη.
εικόνας «υποστηρίζουν και ένα άλλο ερευνητικό έργο μας στις παραστατικές τέχνες», αναφέρει ο κ. Κατσούρος. «Εχουμε ήδη δημιουργήσει μια τεχνολογία που μετατρέπει τον θεατρικό λόγο σε κείμενο και συγχρονίζει τους υπέρτιτλους με τον λόγο των ηθοποιών. Με βάση αυτόν τον μετρονόμο θα συγχρονίσουμε και άλλες ροές πληροφορίας, όπως μετάφραση των υπέρτιτλων, ακουστική περιγραφή και βίντεο νοηματικής στις παραστάσεις. Διότι στο θέατρο συχνά συμβαίνει να μεσολαβεί ένα χειροκρότημα των θεατών, ο ηθοποιός να αλλάζει ή να παραλείπει κάτι. Είναι σημαντική η στοίχιση υπέρτιτλων ή νοηματικής με τη δράση. Τώρα επεκτείνουμε αυτή την τεχνολογία και στον χορό. Η μηχανή κατανοεί από τη μουσική το ακριβές σημείο εξέλιξης της χορογραφίας και μπορεί να δώσει σε πραγματικό χρόνο πληροφορίες στον χρήστη για το έργο, τους χαρακτήρες, τους χορευτές, την εποχή, τα σκηνικά – και μάλιστα μέσα σε εικονικά περιβάλλοντα επαυξημένης πραγματικότητας. Ο θεατής θα μπορεί να σταματήσει τη ροή και να εξετάσει ένα συγκεκριμένο σημείο, να πάρει λεπτομερείς πληροφορίες σε τρισδιάστατο εικονικό περιβάλλον».
Βρεθήκαμε στο wine bar «Bottega» στο Μαρούσι, ένα ζεστό συννεφιασμένο απόγευμα. Καθίσαμε έξω και πήραμε, εκείνος ριζότο καπνιστού σολομού κι εγώ σπαγκέτι Νάπολι, που συνοδεύσαμε με ένα ποτήρι λευκό κρασί. Μιλήσαμε για τα επιτεύγματα του ΙΕΛ που άφησαν εποχή. Τη Λογομάθεια, το πρώτο σύστημα εκμάθησης της ελληνικής με πολυμέσα. Τη Φιλογλωσσία για την εκμάθηση της ελληνικής από ξένους, που τώρα εμπλουτίζεται με τεχνολογία εικονικής πραγματικότητας για ζωντανούς διαλόγους με εικονικούς χαρακτήρες. Τον Εθνικό Θησαυρό Ελληνικής Γλώσσας, το μεγαλύτερο αποθετήριο ελληνικών σωμάτων κειμένων, όπου αποτυπώνεται η εξέλιξη της γλώσσας. Αλλά και για τα άλματα που κάνει σήμερα το ΙΕΛ στην εικονική και επαυξημένη πραγματικότητα.
Εχουμε ήδη δημιουργήσει τεχνολογία που μετατρέπει τον θεατρικό λόγο σε κείμενο και συγχρονίζει τους υπέρτιτλους με τον λόγο των ηθοποιών.