Conference PaperPDF Available

Digitale Erschließung einer Sammlung von Volksliedern aus dem deutschsprachigen Raum

Authors:

Abstract and Figures

Dieser Beitrag beschreibt ein laufendes Projekt zur digitalen Erschließung einer großen Sammlung von Volksliedern aus dem deutschsprachigen Raum, mit dem Ziel diese später über ein öffentliches Informationssystem verfügbar zu machen.
Content may be subject to copyright.
Publiziert im Abstractband der 4. Jahrestagung der DHd 2017, Bern.
Online verfügbar unter http://www.dhd2017.ch/wp-content/uploads/2017/02/Abstractband_ergaenzt.pdf
!
!"#"$%&'()*+,-&"'./0#('"0'*(1%22&/0#(340(
54&6+&"'7'*0(%/+(7'2(7'/$+,-+8*%,-"#'0(9%/2(
Manuel'Burghardt'(manuel.burghardt@ur.de)''
Sebastian'Spanner'(sebastian.spanner@stud.uni8regensburg.de)''
Thomas'Schmidt'(thomas.schmidt@stud.uni8regensburg.de)''
Florian'Fuchs'(florian.fuchs@stud.uni8regensburg.de'
Katia'Buchhop'(katia.buchhop@stud.uni8regensburg.de)'
Miriam'Nickl'(miriam.nickl@stud.uni8regensburg.de)'
Christian'Wolff'(christian.wolff@ur.de)'
'
Lehrstuhl'Medieninformatik,'Universität'Regensburg,''
!
:;(<*4='6$640$'>$((
Dieser!Beitrag!beschreibt!ein!laufendes!Projekt1!zur!digitalen!Erschließung!einer!großen!
Sammlung!von!Volksliedern!aus!dem!deutschsprachigen!Raum,!mit!dem!Ziel!diese!später!
über!ein!öffentliches!Informationssystem!verfügbar!zu!machen.!Mithilfe!dieses!
Informationssystems!soll!neben!der!üblichen!Exploration!gescannter!Faksimiles!der!
Originalliedblätter!zusätzlich!ein!quantitativer!Zugang!zu!den!Daten!ermöglicht!werden,!der!
diese!anhand!unterschiedlicher!Parameter!durchsuchbar!und!analysierbar!macht.!Ziel!des!
Projekts!ist!also!nicht!nur,!einen!in!dieser!Form!einzigartigen!Bestand!an!Liedblättern!
nachhaltig!digital!zu!erschließen!und!zugänglich!zu!machen,!sondern!darüber!hinaus!
computergestützt!nach!Auffälligkeiten!in!Form!wiederkehrender!Phrasen!und!Themen!oder!
melodischen!Universalien!zu!suchen,!die!für!verschiedene!Regionen!oder!Zeitabschnitte!
charakteristisch!sind.!!
?;(!%$'0@%+"+((
Die!Datengrundlage!des!Projekts!stellen!umfangreichen!Quellen!zur!Volksmusikforschung!
dar,!die!seit!einigen!Jahren!von!der!Universitätsbibliothek!Regensburg!verwaltet!werden.!Die!
Regensburger!Liedblattsammlung!umfasst!etwa!140.000!Blätter!mündlich!oder!
handschriftlich!tradierter!Volkslieder!aus!dem!gesamten!deutschsprachigen!Raum,!und!ist,!
was!Abdeckung!und!Umfang!angeht,!in!dieser!Form!einzigartig!(Krüger,!2013).!Die!losen!
!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
1!Anmerkung:!Erste!Vorarbeiten!zu!den!hier!beschriebenen!Vorhaben!erfolgten!im!Rahmen!des!DFG^Projekts!
„Erschließung!von!Quellen!der!Volksmusikforschung,!Zugänglichmachung!durch!Digitalisierung!sowie!virtuelle!
Wiederherstellung!zerstreuter!Bestände“,!vgl.!http://rvp.ur.de.!
Publiziert im Abstractband der 4. Jahrestagung der DHd 2017, Bern.
Online verfügbar unter http://www.dhd2017.ch/wp-content/uploads/2017/02/Abstractband_ergaenzt.pdf
!
Einzelblätter!enthalten!einerseits!handschriftliche,!monophone!Melodien!und!andererseits!
Liedtexte,!welche!zumeist!mit!Schreibmaschine!verfasst!wurden!(vgl.!Abb.!1).!
'
Abbildung'1:'Ausschnitt'aus'dem'Liedblatt'Nr.'A23:'„Klana'Mann'wollt’'e'grouß'Fraa'hou“.'
Zu!den!Liedblättern!existieren!darüber!hinaus!Metadaten!wie!Titel,!Text8Incipit,!Sangesort'
und!Jahr,!die!ursprünglich!in!einem!umfangreichen!Zettelkastensystem!vorlagen,!
mittlerweile!jedoch!in!eine!Datenbank!(Augias)!übertragen!wurden.!In!Zusammenarbeit!mit!
der!Universitätsbibliothek!Regensburg!werden!zunächst!Scans!der!Liedblätter!erstellt!und!
mit!den!bereits!vorhandenen!digitalen!Metadaten!verknüpft.!Daraufhin!werden!die!Scans!
inhaltlich!erfasst!und!in!ein!maschinenlesbares!Format!gebracht,!das!erlaubt,!die!Daten!
computergestützt!zu!durchsuchen!und!zu!analysieren.!Dieser!Beitrag!beschreibt!
Herausforderungen!und!Lösungsansätze!bei!der!digitalen!Erschließung!der!Liedblätter!
hinsichtlich!ihrer!Texte!und!Melodien.!!
Publiziert im Abstractband der 4. Jahrestagung der DHd 2017, Bern.
Online verfügbar unter http://www.dhd2017.ch/wp-content/uploads/2017/02/Abstractband_ergaenzt.pdf
!
A;(!"#"$%&'()*+,-&"'./0#(7'*(B"'7@&C$$'*((
Für!die!Transkription!der!Texte!und!Melodien!wurden!Tools!für!die!automatische!Erfassung!
evaluiert.!Neben!automatischer!Texterkennung!(OCR,!Optical'Character'Recognition),!wurde!
auch!die!automatische!Notenerkennung!(OMR,!Optical'Music'Recognition)!untersucht!(vgl.!
Bainbridge!&!Bell,!2001;!2006;!Raphael!&!Wang,!2011;!Rebelo,!Capela,!&!Cardoso,!2010).!!
A;:;()*+,-&"'./0#(7'*(B"'7$'>$'(D@'*(EF9(2"$(2%0/'&&'*(G%,-64**'6$/*((
Die!Evaluation!der!Eignung!bestehender!OCR^Tools!für!den!Kontext!der!Regensburger!
Liedblattsammlung!lehnt!sich!an!Kanungo,!Marton!und!Bulbul!(1999)!an.!Das!Testkorpus!
umfasst!102!Liedblätter,!die!möglichst!viele!unterschiedliche!typographische!und!
orthographische!Phänomene!abdecken,!etwa!Druckschrift!(mit!unterschiedlich!starkem!
Kontrast),!Frakturschrift,!aufgeklebte!Korrekturen,!Sonderzeichen,!etc.!Für!die!Evaluation!
wurde!die!Textzone!unterhalb!der!Notenzeilen!ausgewählt,!da!die!Noten!als!unbekannte!
Sonderzeichen!das!Texterkennungsergebnis!negativ!verfälschen!würden.!Für!jene!Textzonen!
wurde!eine!manuelle!Transkription!erstellt,!die!in!der!weiteren!Evaluation!als!ground'truth!
dient.!Evaluiert!wurden!die!folgenden!drei!OCR^Tools:!!
!Abbyy'Fine'Reader!(http://www.abbyy.de/)!!
!Omnipage'Professional'(http://www.nuance.de/for^individuals/by^
product/omnipage/index.htm)!!
!Adobe'Acrobat'X'Pro'(https://helpx.adobe.com/de/acrobat/kb/acrobat^downloads.html)!!
Mithilfe!des!OCR^Evaluationstools!ocrevalUAtion!(Carassco,!2014)!wurde!jeweils!der!Output!
der!drei!getesteten!OCR^Tools!mit!den!ground'truth^Daten!verglichen.!Abb.!2!zeigt!für!jedes!
OCR^Tool!die!Anzahl!korrekt!erkannter!Zeichen!(correct),!die!Anzahl!falsch!erkannte!Zeichen!
(confused),!die!Anzahl!nicht!erkannte!Zeichen!(lost)!sowie!die!Anzahl!überflüssiger!Zeichen!
(spurious)!als!gestapeltes!Balkendiagramm.!!
Publiziert im Abstractband der 4. Jahrestagung der DHd 2017, Bern.
Online verfügbar unter http://www.dhd2017.ch/wp-content/uploads/2017/02/Abstractband_ergaenzt.pdf
!
!
Abbildung'2:'OCR8Evaluationsergebnisse'für'die'getesteten'Tools'hinsichtlich'der'korrekt'erkannten,'
der'falsch'erkannten,'der'gar'nicht'erkannten'sowie'der'überflüssigerweise'erkannten'Zeichen.'
Anhand!dieser!Parameter!lassen!sich!Kennzahlen!für!die!Tools!berechnen,!etwa!die!precision!
oder!auch!die!global!error'rate.!Bezüglich!der!korrekten!Erkennung!in!Prozent!wird!deutlich,!
dass!Abbyy!mit!einer!Erkennungsrate!von!80%!(Omnipage:!56%,!Adobe:!26%)!und!einer!
vergleichsweise!geringen!Streuung!am!besten!in!der!Evaluation!abschneidet!(vgl.!Abb.!3).!!
Publiziert im Abstractband der 4. Jahrestagung der DHd 2017, Bern.
Online verfügbar unter http://www.dhd2017.ch/wp-content/uploads/2017/02/Abstractband_ergaenzt.pdf
!
'
Abbildung'3:'Boxplot'zur'Erkennungsgenauigkeit'der'einzelnen'OCR8Tools.'
Dass!Abbyy^Tool!liefert!die!besten!Evaluationsergebnisse!und!wurde!somit!als!OCR^Tool!für!
die!Liedblattsammlung!ausgewählt.!Die!80%^Erkennungsrate!erlaubt!erste!explorative!
Analysen!der!Liedblätter!anhand!bestimmter!Schlüsselwörter.!Für!die!sukzessive!Korrektur!
der!Texte!wurde!ein!Tool!entwickelt,!das!die!manuelle!Korrektur!des!OCR^Outputs!für!jedes!
Liedblatt!erlaubt.!Um!die!Texte!der!insgesamt!140.000!Liedblätter!möglichst!effizient!zu!
transkribieren,!sind!zudem!weitere!Evaluationsexperimente!mit!anderen!OCR^Tools!geplant.!
Zudem!soll!versucht!werden,!das!Abbyy^Tool!anhand!der!Liedblätter!zu!trainieren,!um!so!die!
Erkennungsrate!weiter!zu!verbessern.!!
A;?;()*+,-&"'./0#(7'*(H'&47"'0(D@'*('"0(F*4I7+4/*,"0#JK'@$44&((
In!Anlehnung!an!eine!OMR^Evaluationsstudie!(Bellini,!Bruno!&!Nesi,!2007)!wurden!drei!der!
am!weitesten!verbreiteten!OMR^Tools!hinsichtlich!ihrer!Eignung!für!die!Liedblattsammlung!
evaluiert:!
!Photoscore!(http://www.sibelius.com/products/photoscore/ultimate.html)!!
!SharpEye!(https://www.columbussoft.de/SharpEye.php)!!
!CapellaScan!(http://www.capella.de/de/index.cfm/produkte/capella^scan/info^capella^
scan/)!!
Anders!als!bei!der!OCR^Evaluation!ist!die!Erstellung!eines!automatisch!abgleichbaren!ground'
truth^Datensatzes!nicht!ohne!weiteres!möglich,!da!die!Erfassung!musikalischer!Notation!
Publiziert im Abstractband der 4. Jahrestagung der DHd 2017, Bern.
Online verfügbar unter http://www.dhd2017.ch/wp-content/uploads/2017/02/Abstractband_ergaenzt.pdf
!
wesentlich!komplexer!ist!als!reine!Textzeichenerkennung.!Der!Abgleich!des!jeweiligen!OMR^
Outputs!mit!dem!entsprechenden!Originalliedblatt!erfolgte!deshalb!manuell.!Insgesamt!
wurden!auf!diese!Weise!20!Liedblätter!ausgewählt,!welche!eine!möglichst!hohe!Bandbreite!
unterschiedlicher!Merkmalsausprägungen!abdecken.!Zu!den!Merkmalen!zählen!
Zeichenabstand,!Einheitlichkeit!der!Zeichen,!allgemeiner!Kontrast,!Kontrast!der!Notenlinien,!
Größe!der!Notenköpfe,!Länge!der!Notenhälse!und!das!Vorkommen!von!Fremdzeichen.!!
Bei!der!Berechnung!der!Erkennungsgenauigkeit!wurden!dieselben!Parameter!verwendet!wie!
schon!bei!der!OCR^Evaluation!(vgl.!Abb.!2).!Die!Ergebnisse!der!OMR^Evaluation!zeigen,!
dass!hinsichtlich!der!durchschnittlichen!Erkennungsgenauigkeit!mit!36%!bei!Photoscore,!8%!
bei!CapellaScan!und!4%!SharpEye!keines!der!Tools!auch!nur!ansatzweise!für!den!produktiven!
Einsatz!in!Frage!kommt!(vgl.!Abb.!4).!Dabei!ist!selbst!beim!am!besten!evaluierten!Tool!
Photoscore!eine!enorme!Streuung!zu!beobachten,!die!bei!5!von!20!Blättern!auf!0%!kommt,!und!
nur!ein!einziges!Mal!als!beste!Erkennungsrate!80%!bei!einem!Liedblatt!erreicht.!!
'
Abbildung'4:'Boxplot'zur'Erkennungsgenauigkeit'der'einzelnen'OMR8Tools.'
Als!alternative!Erschließungsstrategie!wurde!ein!Transkriptionstool!namens!Allegro!
entwickelt,!welches!aufgrund!der!erheblichen!Datenmenge!von!mehreren!tausend!
Liedblättern!auf!einen!Crowdsourcing^Ansatz!(Dunn!&!Hedges,!2013;!Oomen!&!Aroyo,!
2011)!zurückgreifen!soll.!Erfolgreiche!Beispiele!für!solche!Ansätze!im!Bereich!der!Digital!
Humanities!finden!sich!etwa!beim!Sammeln!und!Dokumentieren!von!urbaner!Kunst!
(Burghardt,!Schneider,!Bogatzki,!&!Wolff,!2015),!bei!der!Transkription!von!Manuskripten!
Publiziert im Abstractband der 4. Jahrestagung der DHd 2017, Bern.
Online verfügbar unter http://www.dhd2017.ch/wp-content/uploads/2017/02/Abstractband_ergaenzt.pdf
!
(Causer!&!Wallace,!2012),!bei!der!Verschlagwortung!von!Kunstwerken!(Commare,!2011)!und!
auch!im!Bereich!der!Transkription!von!Musikstücken,!wie!beim!Projekt!„What’s!the!Score?“2.!!
Bei!der!Umsetzung!des!Tools!für!die!Transkription!der!Regensburger!Liedblätter!wurde!
besonderes!Augenmerk!auf!die!einfache!Bedienbarkeit!durch!iteratives!usability'testing!
hrend!des!Entwicklungsprozesses!gelegt!(vgl.!ISO!13407:1999).!Die!Benutzeroberfläche!
wurde!dabei!so!konzipiert,!dass!auch!Personen,!die!keine!Noten!lesen!können,!in!der!Lage!
sind,!die!Noten!zu!transkribieren,!indem!sie!diese!auf!ein!virtuelles!Notenblatt!übertragen!
und!das!Original!im!Wesentlichen!nachbauen!(vgl.!Meier!et!al.,!2015).!Die!zusätzliche!
Möglichkeit!der!Transkription!über!ein!Midi^Instrument!soll!später!über!einen!speziell!
anzuwählenden!Expertenmodus!optional!verfügbar!gemacht!werden.!!
Als!erster!Schritt!wird!in!Allegro!zunächst!das!Notenblatt!manuell!in!einzelne!Takte!
segmentiert!(Abb.!5):!!
'
Abbildung'5:'Taktweise'Segmentierung'der'Liedblätter'mit'dem'Allegro.'
Nach!Angabe!der!Liedblattnummer!sowie!der!Auswahl!von!Taktart!und!Tonart!gelangt!man!
in!den!eigentlichen!Transkriptionsmodus,!bei!dem!Takt!für!Takt!auf!einer!interaktiven!
Notenzeile!mit!Maus!und!Tastatur!(Shortcuts)!transkribiert!wird!(vgl.!Abb.!6).!Jeder!einzelne!
Takt!kann!im!Browser!abgespielt!werden,!um!so!ggf.!auf!auditiver!Ebene!schnell!
Transkriptionsfehler!zu!erkennen.!
!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
2!Projekt!„What’s!the!Score?“!online:!https://www.bodleian.ox.ac.uk/weston/our^work/projects/whats^the^score!
!
Publiziert im Abstractband der 4. Jahrestagung der DHd 2017, Bern.
Online verfügbar unter http://www.dhd2017.ch/wp-content/uploads/2017/02/Abstractband_ergaenzt.pdf
!
'
Abbildung'6:'Taktweise'Transkription'der'Liedblätter'mit'dem'Allegro8Tool.'
Im!Hintergrund!werden!die!Eingaben!auf!das!virtuelle!Notenblatt!schließlich!in!ein!
maschinenlesbares!Format!(!JSON)!übersetzt,!das!mithilfe!einer!Converter^Toolbox!in!
beliebige!andere!Formate!wie!etwa!MusicXML!transformiert!werden!kann.!Da!die!
Transkription!durch!Laien!eine!erhöhte!Gefahr!für!Transkriptionsfehler!mit!sich!bringt,!wird!
jedes!Liedblatt!doppelt!übersetzt!(vgl.!das!double'keying^Konzept!bei!Texttranskriptionen).!
Liedblätter,!bei!denen!die!Transkriptionen!nicht!übereinstimmen,!werden!auf!redaktioneller!
Ebene!final!geprüft.!Um!den!Anreiz!zur!Beteiligung!an!der!Transkription!zu!erhöhen,!ist!es!
den!Teilnehmern!möglich!die!selbst!transkribierten!Texte!und!Melodien!in!einer!privaten!
Sammlung!zu!speichern!und!bei!Bedarf!als!PDF!bzw.!als!MP3!herunterzuladen.!!
Das!Transkriptionstool!befindet!sich!aktuell!in!der!offenen!Beta^Testphase!und!findet!guten!
Zuspruch!bei!den!Anwendern:!
!Allegro:!http://138.68.106.29/!
L;(M/+%22'0N%++/0#((
Dieser!Beitrag!gibt!einen!Einblick!in!ein!laufendes!Projekt!zur!digitalen!Erschließung!einer!
großen!Sammlung!von!Liedblättern.!Während!OCR^Tools!für!die!automatische!Erfassung!
der!Liedtexte!annehmbare!Ergebnisse!mit!einer!Erkennungsrate!von!bis!zu!80%!liefern,!so!
liegt!die!Erkennungsgenauigkeit!bestehender!OMR^Tools!für!die!handschriftlichen!
Notensätze!bei!lediglich!maximal!36%.!Im!Falle!der!Notenerkennung!wurde!von!Grund!auf!
Publiziert im Abstractband der 4. Jahrestagung der DHd 2017, Bern.
Online verfügbar unter http://www.dhd2017.ch/wp-content/uploads/2017/02/Abstractband_ergaenzt.pdf
!
ein!neues,!intuitiv!bedienbares!Transkriptionstool!entwickelt,!welches!über!einen!
Crowdsourcing^Ansatz!die!sukzessive!Erschließung!der!Notensätze!sicherstellen!soll.!
O;(P/+@&",6((
Aktuell!liegt!der!Projektfokus!auf!der!Erschließung!der!Liedblätter.!Parallel!entstehen!zudem!
erste!Prototypen!(vgl.!Burghardt!et!al.,!2016)!für!das!angedachte!Informationssystem,!das!die!
Analyse!der!Liedblätter!anhand!der!verfügbaren!Metadaten,!der!Liedtexte!sowie!anhand!
verschiedener!melodischer!Parameter!(vgl.!Mongeau!&!Sankoff,!1990;!Orio!&!Rodá,!2009;!
Typke,!2007)!erlaubt.!Im!Rahmen!des!weiteren!Projektverlaufs!sollen!anhand!der!digital!
erschlossenen!Liedblätter!u.a.!die!folgenden!Fragestellungen!untersucht!werden:!
!Welche!sind!die!häufigsten!Wörter!in!den!Texten!deutscher!Volkslieder,!und!welche!
Wörter!treten!besonders!häufig!zusammen!auf!(Kollokationen)?!Lassen!sich!daraus!
Rückschlüsse!auf!wiederkehrende!Themen!ziehen,!einerseits!für!das!gesamte!
Liedblattkorpus,!andererseits!aus!einer!regionalen!und!diachronen!Perspektive?!
!Gibt!es!melodische!Universalien,!die!typisch!für!deutsche!Volkslieder!sind,!einerseits!
für!das!gesamte!Liedblattkorpus,!andererseits!aus!einer!regionalen!und!diachronen!
Perspektive?!
!Lassen!sich!musikalisch^linguistische!Kollokationen!identifizieren,!kommen!also!
bestimmte!Melodien!oder!einzelne!Rhythmen!oder!Intervalle!besonders!häufig!in!
Texten!mit!auffälligen!Schlüsselwörtern!vor?!
Q"@&"4#*%8-"'!
1.!Q%"0@*"7#'R(!;(S(Q'&&R(T;!(2001).!The!challenge!of!optical!music!recognition.!Computers'and'the'
Humanities,!35,!95121.!!
2.!Q'&&"0"R(<;(S(Q*/04R(U(S(G'+"R(<;((2007).!Assessing!Optical!Music!Recognition!Tools.!Computer'
Music'Journal,!31(1),!68^93.!!
3.!Q/*#-%*7$R(H;(S(B%22R(B;(S(B',-&'*R(!;(S(1,-0'"7'*R(H;(S(1'22'&2%00R(T;!(2016).!Tool^based!
Identification!of!Melodic!Patterns!in!MusicXML!Documents.!In!Digital'Humanities'2016:'
Conference'Abstracts.!Jagiellonian!University!&!Pedagogical!University,!Kraków,!pp.!440^442.!!
4.!Q/*#-%*7$R(H;(S(1,-0'"7'*R(<;(S(Q4#%$V6"R(F;(S(W(K4&NNR(F;!(2015).!StreetartFinder!–!Eine!
Datenbank!zur!Dokumentation!von!Kunst!im!urbanen!Raum.!In!Book'of'Abstracts,'DHd'2015.!!
5.!F%**%+,4R(9;(F;!(2014).!An!open^source!OCR!evaluation!tool.!In:!DATeCH'2014.!New!York:!
ACM!Press.!!
6.!F%/+'*R(T;R(S(K%&&%,'R(5;!(2012).!Building!A!Volunteer!Community:!Results!and!Findings!from!
Transcribe!Bentham.!DHQ202f:'Digital'Humanities'Quarterly,!6(2).!!
7.!F422%*'R(B;!(2011).!Social!Tagging!als!Methode!zur!Optimierung!Kunsthistorischer!
Bilddatenbanken!–!Eine!empirische!Analyse!des!Artigo^Projekts.!In:!Kunstgeschichte.'Open'Peer'
Reviewed'Journal,!2011!(urn:nbn:de:bvb:355^kuge^160^9)!!
8.!!/00R(1;R(S(X'7#'+R(H;!(2013).!Crowd8sourcing'as'a'Component'of'Humanities'Research'
Infrastructures.!In!International!Journal!of!Humanities!and!Arts!Computing,!7(1^2),!147^169.!!
Publiziert im Abstractband der 4. Jahrestagung der DHd 2017, Bern.
Online verfügbar unter http://www.dhd2017.ch/wp-content/uploads/2017/02/Abstractband_ergaenzt.pdf
!
9.!Y%0/0#4R(T;(S(H%*$40R(Z;(P;(S(Q/&@/&R(E;!(1999,!January).!Performance!evaluation!of!two!
Arabic!OCR!products.!In!The'27th'AIPR'workshop:'Advances'in'computer8assisted'recognition!(pp.!
76^83).!International!Society!for!Optics!and!Photonics.!!
10.!Y*D#'*R(Z;!(2013).!Das!„Regensburger!Volksmusik^Portal“!der!Universitätsbibliothek!
Regensburg.!Bestände!–!Problematiken!–!Perspektiven.!Zwischenbericht!aus!einem!
Erschließungsprojekt.!In!E.!R.!Mohrmann!(Ed.),!Audioarchive'–'Tondokumente'digitalisieren,'
erschließen'und'auswerten!(S.!119131).!Münster!et!al.:!Waxmann!Verlag.!!
11.!H'"'*R([;(S(Q%V4R(P;(S(Q/*#-%*7$R(H;(S(K4&NNR(F;!(2015).!A!Crowdsourced!Encoding!Approach!
for!Handwritten!Sheet!Music.!In!J.!Roland,!Perry;!Kepper!(Ed.),!Music!Encoding!Conference!
Proceedings!2013!and!2014!(pp.!127130).!!
12.!H40#'%/R(H;(S(1%064NNR(!;((1990).!Comparison!of!Musical!Sequences.!Computers'and'the'
Humanities,!24,!161175.!!
13.!E42'0R(\;(S(P*4]4R(B;!(2011).!Crowdsourcing!in!the!Cultural!Heritage!Domain:!Opportunities!
and!Challenges.!C&T'’11'Proceedings'of'the'5th'International'Conference'on'Communities'and'
Technologies!(S.!138149).!!
14.!E*"4R(G;(S(947^R(P;!(2009).!A!Measure!of!Melodic!Similarity!Based!on!a!Graph!Representation!
of!the!Music!Structure.!In!Proceedings'of'the'10th'International'Society'for'Music'Information'
Retrieval'Conference'(ISMIR'2009)!(S.!543548).!!
15.!9%8-%'&R(F;(S(K%0#R(\;!(2011).!New!Approaches!to!Optical!Music!Recognition.!In!12th'
International'Society'for'Music'Information'Retrieval'Conference'(ISMIR)!(S.!305310).!!
16.!9'@'&4R(P;(S(F%8'&%R(Z;(S(F%*74+4R(\;(1;!(2010).!Optical!recognition!of!music!symbols.!
International'Journal'on'Document'Analysis'and'Recognition,!13,!1931.!!
17.!T]86'R(9;!(2007).!Music!Retrieval!based!on!Melodic!Similarity.!Ph.D'Thesis,'Utrecht'University.!!
... In einem zweiten Schritt werden dann die Scans inhaltlich erfasst und in ein maschinenlesbares Format gebracht. Aufgrund der großen Anzahl von Liedblättern, wurden hier anfangs Möglichkeiten der automatischen Erfassung systematisch evaluiert [Bu17]. Im Falle der Liedtexte kommt man dabei mit Standard-OCR Tools (optical character recognition) auf durchschnittlich 80 % Erkennungsgenauigkeit, allerdings mit einer sehr hohen Streuung. ...
... Für die automatische Erfassung der handschriftlichen Melodien ist die Erkennungsgenauigkeit von OMR-Tools (optical music recognition), mit durchschnittlich 36 % Erkennungsgenauigkeit beim am besten evaluierten Tool, deutlich schlechter [Bu17]. Aus diesem Grund wurde als alternative Erschließungsstrategie ein manueller Transkriptionsansatz umgesetzt, welcher aufgrund der erheblichen Datenmenge von mehreren tausend Liedblättern auf Crowdsourcing zurückgreift [BS17]. ...
Conference Paper
Full-text available
Wir präsentieren einen Beitrag zum Einsatz computergestützter Methoden für die quantitative Untersuchung einer großen Sammlung symbolisch repräsentierter Melodien deutschsprachiger Volkslieder. Im Zuge dessen wurde ein Music Information Retrieval-Tool (MIR) konzipiert, mit dem gezielt nach Liedblättern anhand bestimmter Metainformationen (z.B. Jahr, Sangesort, etc.), bestimmter Wörter in den Liedtexten oder bestimmter Sequenzen innerhalb der monophonen Melodien gesucht werden kann. Darüber hinaus kann mit dem MIR-Tool untersucht werden, ob es bspw. wiederkehrende Muster oder melodische Universalien in deutschsprachigen Volksliedern gibt. Insgesamt stehen drei Repräsentationsebenen für Suchanfragen zur Verfügung: Die Suche nach konkreten Melodiefragmenten (Tonhöhe / Tondauer), die Suche nach Intervallfolgen und die Suche nach abstrakten Melodiekonturen im Parsons-Code. Eine zentrale Herausforderung für die Umsetzung eines solchen MIR-Tools mit mehreren Repräsentationsebenen ist die Wahl einer geeigneten melodic similarity-Komponente. Wir beschreiben die Implementierung verschiedener edit distance-basierter Ansätze und präsentieren die Ergebnisse einer Evaluationsstudie für die unterschiedlichen Implementierungen. Alle Algorithmen und Converter wurden als generische Toolbox umgesetzt und stehen unter der MIT open source-Lizenz für die Nachnutzung zur freien Verfügung.
Conference Paper
In this paper, we describe the challenge of transcribing a large corpus of handwritten music scores. We conducted an evaluation study of three existing optical music recognition (OMR) tools. The evaluation results indicate that OMR approaches do not work well for our corpus of highly heterogeneous, handwritten music scores. For this reason, we designed Allegro, a web-based crowdsourcing tool that can be used to transcribe scores. We relied on a user-centered design process throughout the development cycle of the application, to ensure a high level of usability. The interface was designed in a way it can be used intuitively, even by novices of musical notation. We describe the core features of Allegro and the basic transcription workflow. A first public beta test with 18 users shows that a crowdsourced transcription approach via the Allegro tool is a viable option for the encoding of our corpus of folk songs.
Conference Paper
Full-text available
Streetart ist ein Sammelbegriff für unterschiedliche Kunstformen im urbanen Raum, zu denen u.a. Graffitis, Poster, und Installationen zählen. Eine Vielzahl bestehender Publikationen zeigt, dass Streetart auch als wissenschaftliches Forschungsobjekt zunehmend an Relevanz gewinnt. Mit dem StreetartFinder (www.streetartfinder.de) wurde ein Web-Tool geschaffen, welches erlaubt Kunst im urbanen Raum in digitaler Form zu dokumentieren, und so eine Datenbank für weitere Forschung in diesem Feld zur Verfügung zu stellen. Die StreetartFinder-Datenbank erlaubt die Beantwortung verschiedener soziologischer, kultur- und medienwissenschaftlicher Fragestellungen, z.B.: - Welche Streetart-Kategorie kommt am häufigsten vor? - Gibt es im Laufe der Zeit Trends für bestimmte Streetart-Kategorien bzw. gibt es Ballungsgebiete in denen vor allem eine bestimmte Streetart-Kategorie vorherrscht? - Wie lange ist die durchschnittliche Lebensdauer von Streetart, und gibt es einen Zusammenhang mit dem Ort oder der Kategorie? - Was sind die Hauptfunktionen von Streetart? StreetartFinder: www.streetartfinder.de
Conference Paper
Full-text available
We present an approach that uses human computation and crowdsourcing principles for encoding large amounts of monophonic, handwritten sheet music. http://nbn-resolving.de/urn:nbn:de:bvb:12-babs2-0000007812
Conference Paper
Full-text available
Galleries, Libraries, Archives and Museums (short: GLAMs) around the globe are beginning to explore the potential of crowdsourcing, i. e. outsourcing specific activities to a community though an open call. In this paper, we propose a typology of these activities, based on an empirical study of a substantial amount of projects initiated by relevant cultural heritage institutions. We use the Digital Content Life Cycle model to study the relation between the different types of crowdsourcing and the core activities of heritage organizations. Finally, we focus on two critical challenges that will define the success of these collaborations between amateurs and professionals: (1) finding sufficient knowledgeable, and loyal users; (2) maintaining a reasonable level of quality. We thus show the path towards a more open, connected and smart cultural heritage: open (the data is open, shared and accessible), connected (the use of linked data allows for interoperable infrastructures, with users and providers getting more and more connected), and smart (the use of knowledge and web technologies allows us to provide interesting data to the right users, in the right context, anytime, anywhere -- both with involved users/consumers and providers). It leads to a future cultural heritage that is open, has intelligent infrastructures and has involved users, consumers and providers.
Conference Paper
Full-text available
Content-based music retrieval requires to define a similar- ity measure between music documents. In this paper, we propose a novel similarity measure between melodic con- tent, as represented in symbolic notation, that takes into account musicological aspects on the structural function of the melodic elements. The approach is based on the rep- resentation of a collection of music scores with a graph structure, where terminal nodes directly describe the mu- sic content, internal nodes represent its incremental gen- eralization, and arcs denote the relationships among them. The similarity between two melodies can be computed by analyzing the graph structure and finding the shortest path between the corresponding nodes inside the graph. Pre- liminary results in terms of music similarity are presented using a small test collection.
Article
Crowd-sourcing, the process of leveraging public participation in or contribution to a project or activity, is relatively new to academic research, but is becoming increasingly important as the Web transforms collaboration and communication and blurs the boundaries between the academic and non-academic worlds. At the same time, digital research methods are entering the mainstream of humanities research, and there are a number of initiatives addressing the conceptualisation and construction of research infrastructures for the humanities. This paper examines the place of crowd-sourcing activities within such initiatives, presenting a framework for describing and analysing academic humanities crowd-sourcing, and using this framework of ‘primitives’ as a basis for exploring potential relationships between crowd-sourcing and humanities research infrastructures.
Article
This paper describes an open-source tool which computes statistics of the differences between a reference text an the output of an OCR engine. It also facilitates the spotting of mismatches by generating an aligned bitext where the differences are highlighted and cross linked. The tool accepts a variety of input formats (both for the reference and the OCR) and can also be also used to compare the output of two different OCR engines. Some considerations on the criteria to compare the textual content of two files, at character and word level, are also discussed here.
Article
This paper contributes to the literature examining the burgeoning field of academic crowdsourcing, by analysing the results of the crowdsourced manuscript transcription project, Transcribe Bentham. First, it describes how the project team sought to recruit volunteer transcribers to take part, and discusses which strategies were successes (and which were not). We then examine Transcribe Bentham's results during its six-month testing period (8 September 2010 to 8 March 2011), which include a detailed quantitative and qualitative analysis of website statistics, work completed by the amateur transcribers, as well as the demographics of the volunteer base and their motivations for taking part. The paper concludes by discussing the success of our community building with reference to this analysis. We find that Transcribe Bentham's volunteer transcribers have produced a remarkable amount of work – and continue to do so, carrying out the equivalent labour of a full-time transcriber – despite the nature and complexity of the task at hand. http://www.digitalhumanities.org/dhq/vol/6/2/000125/000125.html
Conference Paper
We present the beginnings of a new system for optical music recognition (OMR), aimed toward the score images of the InternationalMusic Score Library Project (IMSLP). Our system focuses on measures as the basic unit of recognition. We identify candidate composite symbols (chords and beamed groups) using grammatically-formulated top-down model-based methods, while employing template matching to find isolated rigid symbols. We reconcile these overlapping symbols by seeking non-overlapping variants of the composite symbols that best account for the pixel data. We present results on a representative score from the IMSLP.