Παρακαλώ χρησιμοποιήστε αυτό το αναγνωριστικό για να παραπέμψετε ή να δημιουργήσετε σύνδεσμο προς αυτό το τεκμήριο: https://hdl.handle.net/123456789/1515
Τύπος: Πρακτικά συνεδρίου
Τίτλος: Lip reading modeling with temporal convolutional networks for medical support applications
Συγγραφέας: [EL] Καστανιώτης, Δημήτριος[EN] Kastaniotis, Dimitrissemantics logo
[EL] Τσουρούνης, Δημήτριος[EN] Tsourounis, Dimitriossemantics logo
[EL] Φωτοπουλος, Σπύρος[EN] Fotopoulos, Spirossemantics logo
Ημερομηνία: 25/11/2020
Περίληψη: Automated Lip Reading (LR) task is the process of predicting a spoken word using only visual information of a sequence of frames. This sequence modeling task has been approached with Convolutional Neural Networks (CNNs) combined with Long Short-Term Memory networks (LSTM). In this work, a novel scheme for modeling LR sequences with a combination of Temporal Convolutional Networks (TCN) driven by the feature vectors produced by CNN is presented. More specifically, the contribution of this work is two-fold. Firstly, a novel approach that utilize the TCN topology as an alternative way to deal with the sequential data of the LR task is presented. Secondly, this approach is evaluated on a new real-world challenging dataset particularly designed for the problem of LR in Greek words related to biomedical and clinical conditions. More specifically, the Greek words of the dataset are selected to be words that a patient would like to communicate when receiving medical treatment using the frontal camera of a mobile phone. Experimental results indicate that the proposed CNN-TCN architecture can surpass recurrent oriented approaches based on CNN-LSTM while also providing major benefits for deployment in model hardware architectures and more stability during training.
Γλώσσα: Αγγλικά
Τόπος δημοσίευσης: Chengdu, China
Σελίδες: 6
DOI: 10.1109/CISP-BMEI51763.2020.9263634
ISBN: 9781665422994
Θεματική κατηγορία: [EL] Μηχανική και συστήματα επικοινωνιών, Τηλεπικοινωνίες[EN] Communication engineering and systems, Telecommunicationssemantics logo
[EL] Επιστήμη ηλεκτρονικών υπολογιστών[EN] Computer Sciencesemantics logo
Λέξεις-κλειδιά: lip readingTemporal Convolutional Networksspatiotemporal-convolutionsRecurrent Neural Networksbiomedical Greek words
Κάτοχος πνευματικών δικαιωμάτων: Copyright © 2020, IEEE
Ηλεκτρονική διεύθυνση του τεκμηρίου στον εκδότη: https://ieeexplore.ieee.org/document/9263634
Ηλεκτρονική διεύθυνση περιοδικού: https://ieeexplore.ieee.org/xpl/conhome/9263486/proceeding
Τίτλος πηγής δημοσίευσης: Proceedings of the 2020 13th International Congress on Image and Signal Processing, BioMedical Engineering and Informatics (CISP-BMEI)
Σελίδες τεκμηρίου (στην πηγή): 366-371
Όνομα εκδήλωσης: 13th International Congress on Image and Signal Processing, BioMedical Engineering and Informatics (CISP-BMEI) 2020
Τοποθεσία εκδήλωσης: Chengdu, China
Ημ/νία έναρξης εκδήλωσης: 17/10/2020
Ημ/νία λήξης εκδήλωσης: 19/10/2020
Σημειώσεις: This research is co-financed by Greece and the European Union (European Social Fund-ESF) through the Operational Programme «Human Resources Development, Education and Lifelong Learning 2014-2020» in the context of the project "Lip Reading Greek words with Deep Learning" (MIS 5047182)."
Εμφανίζεται στις συλλογές:Ερευνητικές ομάδες

Αρχεία σε αυτό το τεκμήριο:
Το πλήρες κείμενο αυτού του τεκμηρίου δεν διατίθεται προς το παρόν από το αποθετήριο