Hearing Aid Research Data Set for Acoustic Environment Recognition (HEAR-DS)

HEAR-DS stellt binaurales Audiomaterial bereit, das in akustischen Umgebungen aufgenommen wurde, die für Hörgeräteträger typisch sind. Sein Ziel ist es, Forscher dabei zu unterstützen, Algorithmen in für Hörgeräte relevanten Umgebungen zu trainieren und zu testen. Ein Besonderer Fokus liegt dabei auf Machine Learning Ansätzen wie DNN

Bitte zitieren Sie diese Arbeit mit DOI
10.1109/ICASSP40776.2020.9053611:
Hearing Aid Research Data Set for Acoustic Environment Recognition https://ieeexplore.ieee.org/document/9053611
(Andreas Hüwel, Dr. Kamil Adiloğlu and Dr. Jörg-Hendrik Bach), published at ICASSP2020

Download
HEAR-DS download link

Parts of HEAR-DS
HEAR-DS consists of this parts, for each its licensing see LICENSE.txt in subfolders:

HEAR-DS/RawAudioCuts
HEAR-DS/AudioSnippets
HEAR-DS/Code

Further details see
HEAR-DS README.txt

"Ihr Browser hat möglicherweise Probleme mit der korrekten Darstellung der in der Datei readme.txt verwendeten Baumstruktur. Laden Sie deshalb bitte die readme.txt herunter und öffnen Sie sie in einem geeigneten Editor."

Überblick Akustischer Umgebungen

Cocktail party
Interfering speakers
In traffic	Speech in traffic
In vehicle	Speech in vehicle
Music	Speech in music
Quiet indoors	Speech in quiet indoors
Reverberant environment	Speech in reverberant environment
Wind turbulence	Speech in wind turbulence

Beispiel für Sprache bei SNR-Variationen im Hintergrund

Acoustic Environment
Speech in vehicle	SNR -10	SNR -5	SNR 0	SNR 5	SNR 10

Wie in der Arbeit beschrieben, wurde einiges Audiomaterial von Dritten verwendet und kann daher hier nicht zur Verfügung gestellt werden. Aber alle benötigten Daten sind online zugänglich. Mit den von uns bereitgestellten Skripten kann jeder den gesamten Datensatz selbst nachgenerieren.

Das Audiomaterial für die Störgeräusche stammt aus CHiME5 und das Material für die Sprachmischung für die Sprache in Hintergrundumgebungen stammt aus CHiME2. Für CHiME2 (2013) und CHiME5 (2018) kontaktieren Sie bitte die Organisatoren, um Zugang zu den Datensätzen zu erhalten. Audio für Musik stammt von GTZan.

Daten und Format

Eine akustische Umgebung enthält Audio aus verschiedenen Aufnahmesituationen. Jede Aufnahmesituation hat eine eindeutige ID (rec_id), die eine oder mehrere Aufnahmesitzungen enthält. Aus dem Rohaudio jeder Aufnahmesitzung schneiden wir manuell geeignete Audiostücke (die Schnitte), um die jeweilige Aufnahmesituation mit Audiomaterial zu füllen, wobei jeder Schnitt eine lokale eindeutige cut_id hat. Um den eigentlichen Datensatz zum Trainieren von maschinellen Lernsystemen zu generieren, haben wir einen weiteren Verarbeitungsschritt durchgeführt, der für jede akustische Umgebung alle 10er-Audio-Samples erzeugt, wie im Unterabschnitt Audio-Samples weiter beschrieben.

HEAR-DS Raw Audio Cuts
Für jede Aufnahmesituation enthält ein Ordner alle geschnittenen wav-Dateien.

Ordnerstruktur der HEAR-DS:
Details siehe
HEAR-DS README.txt

Aufgrund des manuellen Prozesses des Audioschnitts variiert die Länge der Schnitte. Das Benennungsschema ist:
rec_id__cut____.wav

With being a 3 digit number and a 2 digit number. The could e.g. be "startengine_driveoff" for InVehicle or "bell" in ReverberantEnvironment. stands for one of the used hearing aid microphones [Mic_BTE_L_front, Mic_BTE_L_rear, Mic_BTE_R_front, Mic_BTE_R_rear, Mic_ITC_L, Mic_ITC_R]. is the name of the used audio-exporter, currently "raw_48kHz32bit".

Hear-DS Audio Samples

In diesem Verarbeitungsschritt wurden die rohen Audioausschnitte weiter in 10s-Snippets zerlegt. Diese 10s-Snippets werden entweder direkt als Hintergrundsample verwendet oder mit zufälliger Sprache bei verschiedenen SNRs weiter gemischt, um Audio-Samples für die Sprache in Hintergrundumgebungen zu erstellen. Das binaurale Sprachquellenmaterial kommt aus fünf verschiedenen Richtungen, die wir zufällig auswählen, die Start- und Endzeit dieser Quellsprache und die Startzeit des Hintergrund-Snippets sind ebenfalls zufällig gewählt. Diese 10er-Samples bilden schließlich das HEAR-DS-Audiomaterial für das Training von maschinellen Lernsystemen, z.B. als Input für den Feature-Extraktionsschritt von tiefen neuronalen Netzen.

Audio-Sample-Snippet-Dateiformat
TDas Benennungsschema für Snippets ist:
<ENV_ID>_<REC_ID>_<CUT_ID>_<SNIP_ID>_<TRACKNAME>_<SAMPLERATE>.wav

<ENV_ID>: 2 digit id of acoustical environment, where each speech in background environment has its own id, separated from the pure background environment.
<REC_ID>: 3 digit id of record situation.
<CUT_ID>: 2 digit id of cut of the record situation (unique for all sessions of that situation)
<SNIP_ID>: 3 digit id of the snippet of this cut.
<TRACKNAME>: as described above.
<SAMPLERATE>: in [48kHz, 16kHz]

Für z.B. Reverberant Environment, Aufnahmesituation "Oldenburger Kirche", erster Schnitt, erstes Snippet die 16kHz Version der Snippet-Dateiname ist 06_005_00_000_BTE_L_front_16kHz.wav

Details siehe
HEAR-DS.README.txt

Aknowledgements

Diese Arbeit wurde vom Bundesministerium für Bildung und Wissenschaft (BMBF), FZK 02K16C202 AUDIO-PSS unterstützt.

Die Autoren danken Marei Typlt und den Partnern im AUDIO-PSS-Projekt für die Unterstützung bei der Gestaltung der akustischen Umgebungen und der Audifon GmbH für die Bereitstellung der Hörgeräte-Dummies.

Nicht das Richtige gefunden?

Unser komplettes Angebot

Gerne helfen wir auch persönlich!

Schreiben Sie uns

Datenschutzeinstellungen

Wir (Hörzentrum Oldenburg gGmbH) und unsere Partner nutzen Cookies, um unsere Webseite für Sie optimal zu gestalten und fortlaufend zu verbessern. Bitte willigen Sie in die Verwendung von Cookies ein, wie in unserem Cookie Hinweis beschrieben, indem Sie auf „Alle akzeptieren“ klicken, um die bestmögliche Nutzererfahrung auf unseren Webseiten zu haben.

LOGIN

Hearing Aid Research Data Set for Acoustic Environment Recognition (HEAR-DS)

Überblick Akustischer Umgebungen

Beispiel für Sprache bei SNR-Variationen im Hintergrund

Datenschutzeinstellungen