Klasifikácia zvukov prostredia s využitím metód strojového učenia
Autor práce: Ing. Miroslav ChochulŠkoliteľ: doc. Ing. Peter Ševčík, PhD.
Dátum obhajoby: 23.8.2022
Študijný program: aplikovaná informatika
Oponent 1: prof. Ing. Aleš Janota, PhD. EurIng.
Oponent 2: Ing. Róbert Žalman, PhD.
Slovenský abstrakt:
CHOCHUL, Miroslav: Klasifikácia zvukov prostredia s využitím metód strojového
učenia. [Dizertačná práca]. – Žilinská univerzita v Žiline. Fakulta riadenia a informatiky.
Katedra technickej kybernetiky. - Vedúci: doc. Ing. Peter Ševčík, PhD. - Stupeň odbornej
kvalifikácie: Doktor filozofie v študijnom odbore informatika. – Žilina: FRI UNIZA, 2022.
Počet strán 100.
Kľúčové slová: klasifikácia environmentálnych zvukov, strojové učenie, konvolučná
neurónová sieť, nízko-parametrická architektúra.
Dizertačná práca sa zaoberá klasifikáciou environmentálnych zvukov, teda zvukov
prostredia za pomoci metód strojového učenia. Klasifikačný model teda na základe
akustického signálu predikuje druh zvuku. Teoretická časť prace je venovaná rozboru
environmentálnych zvukov, ich pôvodu a spôsobu klasifikácie. Taktiež popisuje metódy
strojového učenia, ich rozdelenie a využitie pre klasifikačné problémy. Ďalej sú tu popísané
metódy extrakcie príznakov a druhy transformácie akustického signálu. Experimentálna
časť práce je venovaná výberu a vývoju vhodnej architektúry klasifikačného modelu.
Popisuje použité metódy predspracovania dát, ich augmentáciu a následnú extrakciu
príznakov. Taktiež sa venuje popisu vývoju stratégie trénovania a vyhodnocovania
klasifikačného modelu. Hlavným cieľom tejto práce bol návrh architektúry klasifikačného
modelu, ktorý by mal nízku veľkosť, z čoho vyplýva nízky počet parametrov, aby bolo
možné takýto model implementovať na zariadenia s obmedzenou výpočtovou silou. Pre
porovnanie bol zvolený referenčný model, ktorým bol nami navrhnutý klasifikačný model
porovnávaný. Z tohto porovnania vyplýva, že s využitím 0.65% veľkosti referenčného
modelu, je možné dosiahnuť takmer rovnakú presnosť klasifikácie.
Anglický abstrakt:
CHOCHUL, Miroslav: Environmental sounds classification using machine-learning
methods. [Dissertation thesis]. – University of Žilina. Faculty of Management Science and
Informatics; Department of Technical Cybernetics. – Supervisor: doc. Ing. Peter Ševčík,
PhD. - Qualification level: Philosophiae doctor in the study field informatics. Žilina, 2022.
Page count 100.
Key words: environmental sound classification, machine learning, convolution neural
network, low-parametric architecture.
The topic of this thesis is a classification of environmental sounds, i.e. non-human
sounds, using machine-learning methods. The classification model, based on an acoustic
signal, predicts a source of a sound. The theoretical part of the thesis is dedicated to the
analysis of environmental sounds, their origin, and classification approaches. In addition,
machine-learning methods, their taxonomy and their usage in classification tasks are
described in this part as well. Next described are the feature extraction methods and types of
acoustic signal transformations. The experimental part of the thesis is dedicated to the choice
and development of the suitable architecture of the classification model. Next, are the
description of data pre-processing methods, data augmentation and feature extraction.
Furthermore, the development of training and evaluation strategies of the classification
model are detailed. The main goal of this thesis was the development of a classification
model architecture with a small size, which means low parameter count, to make it possible
to implement this kind of model on devices with limited computational power. For
evaluation, a reference model was chosen, against which our classification model was
compared. From this comparison results that by using a 0.65% size of the reference model
it is possible to achieve nearly similar classification accuracy.
Autoreferát dizertačnej práce
Text práce