Humboldt-Universität zu Berlin - Institut für Bibliotheks- und Informations­wissen­schaft

Humboldt-Universität zu Berlin | Institut für Bibliotheks- und Informations­wissen­schaft | Von Uns | BBK | Abstracts | SS25 | BBK: Die Extraktion von Musik-Entitäten mit LLMs: Kontext oder Erinnerung?

BBK: Die Extraktion von Musik-Entitäten mit LLMs: Kontext oder Erinnerung?

Berliner Bibliothekswissenschaftliches Kolloquium

17.06.2025 | 18 Uhr | ZOOM | IBI

Die Extraktion von Musik-Entitäten mit LLMs: Kontext oder Erinnerung?

Simon Hachmeier

IBI | HU Berlin

 

Das automatische Erkennen von Musik-Entitäten in Texten wie bspw. von Songtiteln oder Künstlernamen ist besonders schwer, da diese durch ihren freien kreativen Charakter oft mit Ambiguitäten verbunden sind. Besonders in nutzergenerierten Texten (bspw. Forenposts) ist dieser Anwendungsfall jedoch durchaus von Interesse aber durch die höhere Wahrscheinlichkeit von Rechtsschreibfehlern und Abkürzungen noch schwieriger. In diesem Vortrag erzählen wir von der Erstellung des Datensatzes Music-UGC-NER der für Benchmarks ebendieser Probleme geeignet ist. Zudem präsentieren wir die entsprechenden Erbnisse welche kleinere Sprachmodelle (bspw. BERT) und größere Sprachmodelle (bspw. Llama-3) auf unserem Datensatz erzielen und welcher Einfluss die vorherige Sichtung von Entitäten durch die Modelle hat.

 

Der Vortrag wird in folgendem Zoomraum stattfinden, eine separate Anmeldung ist nicht notwendig: Zoomraum

 

Zum Gesamtprogramm