Παρακαλώ χρησιμοποιήστε αυτό το αναγνωριστικό για να παραπέμψετε ή να δημιουργήσετε σύνδεσμο προς αυτό το τεκμήριο:
https://hdl.handle.net/123456789/1515
Τύπος: | Πρακτικά συνεδρίου |
Τίτλος: | Lip reading modeling with temporal convolutional networks for medical support applications |
Συγγραφέας: | [EL] Καστανιώτης, Δημήτριος[EN] Kastaniotis, Dimitris [EL] Τσουρούνης, Δημήτριος[EN] Tsourounis, Dimitrios [EL] Φωτοπουλος, Σπύρος[EN] Fotopoulos, Spiros |
Ημερομηνία: | 25/11/2020 |
Περίληψη: | Automated Lip Reading (LR) task is the process of predicting a spoken word using only visual information of a sequence of frames. This sequence modeling task has been approached with Convolutional Neural Networks (CNNs) combined with Long Short-Term Memory networks (LSTM). In this work, a novel scheme for modeling LR sequences with a combination of Temporal Convolutional Networks (TCN) driven by the feature vectors produced by CNN is presented. More specifically, the contribution of this work is two-fold. Firstly, a novel approach that utilize the TCN topology as an alternative way to deal with the sequential data of the LR task is presented. Secondly, this approach is evaluated on a new real-world challenging dataset particularly designed for the problem of LR in Greek words related to biomedical and clinical conditions. More specifically, the Greek words of the dataset are selected to be words that a patient would like to communicate when receiving medical treatment using the frontal camera of a mobile phone. Experimental results indicate that the proposed CNN-TCN architecture can surpass recurrent oriented approaches based on CNN-LSTM while also providing major benefits for deployment in model hardware architectures and more stability during training. |
Γλώσσα: | Αγγλικά |
Τόπος δημοσίευσης: | Chengdu, China |
Σελίδες: | 6 |
DOI: | 10.1109/CISP-BMEI51763.2020.9263634 |
ISBN: | 9781665422994 |
Θεματική κατηγορία: | [EL] Μηχανική και συστήματα επικοινωνιών, Τηλεπικοινωνίες[EN] Communication engineering and systems, Telecommunications [EL] Επιστήμη ηλεκτρονικών υπολογιστών[EN] Computer Science |
Λέξεις-κλειδιά: | lip reading; Temporal Convolutional Networks; spatiotemporal-convolutions; Recurrent Neural Networks; biomedical Greek words |
Κάτοχος πνευματικών δικαιωμάτων: | Copyright © 2020, IEEE |
Ηλεκτρονική διεύθυνση του τεκμηρίου στον εκδότη: | https://ieeexplore.ieee.org/document/9263634 |
Ηλεκτρονική διεύθυνση περιοδικού: | https://ieeexplore.ieee.org/xpl/conhome/9263486/proceeding |
Τίτλος πηγής δημοσίευσης: | Proceedings of the 2020 13th International Congress on Image and Signal Processing, BioMedical Engineering and Informatics (CISP-BMEI) |
Σελίδες τεκμηρίου (στην πηγή): | 366-371 |
Όνομα εκδήλωσης: | 13th International Congress on Image and Signal Processing, BioMedical Engineering and Informatics (CISP-BMEI) 2020 |
Τοποθεσία εκδήλωσης: | Chengdu, China |
Ημ/νία έναρξης εκδήλωσης: | 17/10/2020 |
Ημ/νία λήξης εκδήλωσης: | 19/10/2020 |
Σημειώσεις: | This research is co-financed by Greece and the European Union (European Social Fund-ESF) through the Operational Programme «Human Resources Development, Education and Lifelong Learning 2014-2020» in the context of the project "Lip Reading Greek words with Deep Learning" (MIS 5047182)." |
Εμφανίζεται στις συλλογές: | Ερευνητικές ομάδες |
Αρχεία σε αυτό το τεκμήριο:
Το πλήρες κείμενο αυτού του τεκμηρίου δεν διατίθεται προς το παρόν από το αποθετήριο