Hearing Aid Research Data Set for Acoustic Environment Recognition (HEAR-DS)
HEAR-DS stellt binaurales Audiomaterial bereit, das in akustischen Umgebungen aufgenommen wurde, die für Hörgeräteträger typisch sind. Sein Ziel ist es, Forscher dabei zu unterstützen, Algorithmen in für Hörgeräte relevanten Umgebungen zu trainieren und zu testen. Ein Besonderer Fokus liegt dabei auf Machine Learning Ansätzen wie DNN
Bitte zitieren Sie diese Arbeit mit DOI
10.1109/ICASSP40776.2020.9053611:
Hearing Aid Research Data Set for Acoustic Environment Recognition https://ieeexplore.ieee.org/document/9053611
(Andreas Hüwel, Dr. Kamil Adiloğlu and Dr. Jörg-Hendrik Bach), published at ICASSP2020
Download
HEAR-DS download link
Parts of HEAR-DS
HEAR-DS consists of this parts, for each its licensing see LICENSE.txt in subfolders:
- HEAR-DS/RawAudioCuts
- HEAR-DS/AudioSnippets
- HEAR-DS/Code
Further details see
HEAR-DS README.txt
"Ihr Browser hat möglicherweise Probleme mit der korrekten Darstellung der in der Datei readme.txt verwendeten Baumstruktur. Laden Sie deshalb bitte die readme.txt herunter und öffnen Sie sie in einem geeigneten Editor."
Überblick Akustischer Umgebungen
Cocktail party | |
Interfering speakers | |
In traffic | Speech in traffic |
In vehicle | Speech in vehicle |
Music | Speech in music |
Quiet indoors | Speech in quiet indoors |
Reverberant environment | Speech in reverberant environment |
Wind turbulence | Speech in wind turbulence |
Beispiel für Sprache bei SNR-Variationen im Hintergrund
Acoustic Environment | |||||
Speech in vehicle | SNR -10 | SNR -5 | SNR 0 | SNR 5 | SNR 10 |
Wie in der Arbeit beschrieben, wurde einiges Audiomaterial von Dritten verwendet und kann daher hier nicht zur Verfügung gestellt werden. Aber alle benötigten Daten sind online zugänglich. Mit den von uns bereitgestellten Skripten kann jeder den gesamten Datensatz selbst nachgenerieren.
Das Audiomaterial für die Störgeräusche stammt aus CHiME5 und das Material für die Sprachmischung für die Sprache in Hintergrundumgebungen stammt aus CHiME2. Für CHiME2 (2013) und CHiME5 (2018) kontaktieren Sie bitte die Organisatoren, um Zugang zu den Datensätzen zu erhalten. Audio für Musik stammt von GTZan.
Eine akustische Umgebung enthält Audio aus verschiedenen Aufnahmesituationen. Jede Aufnahmesituation hat eine eindeutige ID (rec_id), die eine oder mehrere Aufnahmesitzungen enthält. Aus dem Rohaudio jeder Aufnahmesitzung schneiden wir manuell geeignete Audiostücke (die Schnitte), um die jeweilige Aufnahmesituation mit Audiomaterial zu füllen, wobei jeder Schnitt eine lokale eindeutige cut_id hat. Um den eigentlichen Datensatz zum Trainieren von maschinellen Lernsystemen zu generieren, haben wir einen weiteren Verarbeitungsschritt durchgeführt, der für jede akustische Umgebung alle 10er-Audio-Samples erzeugt, wie im Unterabschnitt Audio-Samples weiter beschrieben.
HEAR-DS Raw Audio Cuts
Für jede Aufnahmesituation enthält ein Ordner alle geschnittenen wav-Dateien.
Ordnerstruktur der HEAR-DS:
Details siehe
HEAR-DS README.txt
Aufgrund des manuellen Prozesses des Audioschnitts variiert die Länge der Schnitte. Das Benennungsschema ist:
rec_id__cut____.wav
With being a 3 digit number and a 2 digit number. The could e.g. be "startengine_driveoff" for InVehicle or "bell" in ReverberantEnvironment. stands for one of the used hearing aid microphones [Mic_BTE_L_front, Mic_BTE_L_rear, Mic_BTE_R_front, Mic_BTE_R_rear, Mic_ITC_L, Mic_ITC_R]. is the name of the used audio-exporter, currently "raw_48kHz32bit".
In diesem Verarbeitungsschritt wurden die rohen Audioausschnitte weiter in 10s-Snippets zerlegt. Diese 10s-Snippets werden entweder direkt als Hintergrundsample verwendet oder mit zufälliger Sprache bei verschiedenen SNRs weiter gemischt, um Audio-Samples für die Sprache in Hintergrundumgebungen zu erstellen. Das binaurale Sprachquellenmaterial kommt aus fünf verschiedenen Richtungen, die wir zufällig auswählen, die Start- und Endzeit dieser Quellsprache und die Startzeit des Hintergrund-Snippets sind ebenfalls zufällig gewählt. Diese 10er-Samples bilden schließlich das HEAR-DS-Audiomaterial für das Training von maschinellen Lernsystemen, z.B. als Input für den Feature-Extraktionsschritt von tiefen neuronalen Netzen.
Audio-Sample-Snippet-Dateiformat
TDas Benennungsschema für Snippets ist:
<ENV_ID>_<REC_ID>_<CUT_ID>_<SNIP_ID>_<TRACKNAME>_<SAMPLERATE>.wav
- <ENV_ID>: 2 digit id of acoustical environment, where each speech in background environment has its own id, separated from the pure background environment.
- <REC_ID>: 3 digit id of record situation.
- <CUT_ID>: 2 digit id of cut of the record situation (unique for all sessions of that situation)
- <SNIP_ID>: 3 digit id of the snippet of this cut.
- <TRACKNAME>: as described above.
- <SAMPLERATE>: in [48kHz, 16kHz]
Für z.B. Reverberant Environment, Aufnahmesituation "Oldenburger Kirche", erster Schnitt, erstes Snippet die 16kHz Version der Snippet-Dateiname ist 06_005_00_000_BTE_L_front_16kHz.wav
Details siehe
HEAR-DS.README.txt
Diese Arbeit wurde vom Bundesministerium für Bildung und Wissenschaft (BMBF), FZK 02K16C202 AUDIO-PSS unterstützt.
Die Autoren danken Marei Typlt und den Partnern im AUDIO-PSS-Projekt für die Unterstützung bei der Gestaltung der akustischen Umgebungen und der Audifon GmbH für die Bereitstellung der Hörgeräte-Dummies.