BBK: Die Extraktion von Musik-Entitäten mit LLMs: Kontext oder Erinnerung?
Berliner Bibliothekswissenschaftliches Kolloquium |
17.06.2025 | 18 Uhr | ZOOM | IBI
Die Extraktion von Musik-Entitäten mit LLMs: Kontext oder Erinnerung?
Simon Hachmeier
IBI | HU Berlin
Das automatische Erkennen von Musik-Entitäten in Texten wie bspw. von Songtiteln oder Künstlernamen ist besonders schwer, da diese durch ihren freien kreativen Charakter oft mit Ambiguitäten verbunden sind. Besonders in nutzergenerierten Texten (bspw. Forenposts) ist dieser Anwendungsfall jedoch durchaus von Interesse aber durch die höhere Wahrscheinlichkeit von Rechtsschreibfehlern und Abkürzungen noch schwieriger. In diesem Vortrag erzählen wir von der Erstellung des Datensatzes Music-UGC-NER der für Benchmarks ebendieser Probleme geeignet ist. Zudem präsentieren wir die entsprechenden Erbnisse welche kleinere Sprachmodelle (bspw. BERT) und größere Sprachmodelle (bspw. Llama-3) auf unserem Datensatz erzielen und welcher Einfluss die vorherige Sichtung von Entitäten durch die Modelle hat.
Der Vortrag wird in folgendem Zoomraum stattfinden, eine separate Anmeldung ist nicht notwendig: Zoomraum
Zum Gesamtprogramm |