Trend und Herausforderung: Text and Data Mining

Text and Data Mining.

Ich nehme die Reihe von Trends und Herausforderungen in loser Folge auf. Aus aktuellem Anlass – das Symposium des Schweizer Hochschulkonsortiums am 9.6. war diesem Thema gewidmet – gehe ich auf die Thematik Text und Data Mining ein. Es gab Vorträge von Wissenschaftlern, Verlagsvetreterinnen und -vertretern und von Bibliotheksvertreterinnen. Ich durfte zum Schluss die Podiumsdiskussion leiten und möchte meine Schlussfolgerungen hier im Blog teilen.

Text and Data Mining.
Text and Data Mining.

Text and Data Mining. Quelle (cc-by): http://copyrightuser.org/topics/text-and-data-mining/

Forschende wollen Zugang zu Volltexten, Metadaten und Daten

Die Forschenden fordern Zugang zu Volltexten, Daten und Metadaten und sie wollen diese Daten nutzen, analysieren und die Ergebnisse frei publizieren können. Die Hague Declaration deckt diese Forderungen gut ab, wobei dies während des Symposiums nicht im Detail diskutiert wurde. Diese Erklärung gilt aber nicht nur für Verlagsprodukte, sondern auch für Forschungsdaten und Inhalte von Repositorien und Digitalisierungsplattformen. Diese sind gerade für die Digital Humanities besonders wichtig. Also haben auch Bibliotheken und Hochschulen noch Hausaufgaben, nicht nur die Verlage.

Klare Rechtslage ist Voraussetzung

Ein Grundproblem im Kontext von Open Data: Es ist oft unklar, wie die rechtliche Lage ist, ob die Daten genutzt, neu genutzt und publiziert werden dürfen. Hier gibt es für alle Beteiligten zu viele Unsicherheiten. Die Diskussion am Symposium zeigte, dass die Rechtslage geklärt werden muss. Ich habe hier im Blog eine Open Data Policy gefordert. Das würde einen Teil abdecken. Die unterschiedlichen Vertragsklauseln, mit denen sich Bibliotheken und das Konsortium herumschlagen müssen, zeigen, dass noch viel zu tun ist. Ob der Weg über ein nationales Gesetz führt oder über eine europäische Lösung, blieb ungewiss. Auf jeden Fall besteht der Bedarf nach Beratung und Fachkompetenz in diesem Bereich – vergleichbar mit der Situation beim Open Access. Eventuell muss diese Aufgabe (Clearingstelle für Rechtsfragen) mit den bestehenden oder entstehenden Open Access-Stellen kombiniert werden. Ein nationales Konsortium wäre dafür geradezu prädestiniert – aber die Unsicherheiten bestehen eben auch da, wie Pascalia Boutsiouci ausführte.

Kommerzielle TDM-Lösungen

Ein vielversprechender Ansatz scheint die CrossRef Text and Data Mining Initiative. Der Vorteil gegenüber Einzelllösungen ist hier der Einbezug mehrerer Plattformen. Inhaltlich blieben Unsicherheiten, wie diese kommerziellen Lösungen genau aussehen und zu welchen Bedingungen welche Daten zugänglich gemacht werden. Laut Aussage der Vertreterin von Elsevier und gemäss Elseviers Text and Data Mining Policy bietet der Verlag einen Zugang via API für die nichtkommerzielle wissenschaftliche Nutzung durch Lizenznehmer (also nur für Hochschulen mit entsprechender Subskription). Die entsprechende Klausel soll in den Standardverträgen enthalten und ohne Kostenfolgen sein. Zudem gibt es noch eine OA-Variante. Das war für viele der Anwesenden BibliotheksvertreterInnen eine Überraschung und widersprach den bisher gemachten Erfahrungen. Die Aussagen klangen fast zu schön um wahr zu sein. Einschränkungen bestehen zum Beispiel bei der Verwendung von Text (es sind nur „Snippets“ von max. 200 Buchstaben erlaubt). Leider wurde es verpasst, Elsevier auf den offenen Brief von LIBER anzusprechen, in dem Elsevier im Namen der Forschung aufgefordert wurde, die Policy von Anfang 2014 zu ändern. In diesem Brief wurde u.a. die Beschränkung auf Textmaterial und der Ausschluss von Bildern sowie der Ausschluss von Crawling kritisiert, wobei dies in der aktuellen Policy nicht mehr der Fall zu sein scheint. Falls das schon jemand geprüft hat, wäre ich dankbar für einen Hinweis. Auf dem Symposium fischten wir diesbezüglich etwas im Trüben…

So oder so bleibt das Problem, dass auf dem Weg kommerzieller Einzellösungen und Policies nur einzelne Datenbestände genutzt werden können. Eine allgemein gültige Regelung, wie sie die Hague Declaration vorschlägt, würde das Problem generell lösen.

Rolle der Bibliotheken

Bibliotheken spielen für die Forschenden die Rolle des Vermittlers von Datenquellen. Die Forschenden erwarten, dass die rechtlichen Fragen geklärt worden sind und dass die vermittelten Daten genutzt und weiterverwendet (reuse) verwendet werden können. Es ist also Aufgabe der Bibliothek, diese Daten bereitzustellen, die Rechtslage zu klären und die Forschenden bei der Nutzung zu unterstützen (ausser das Problem wäre global gelöst…). Das Symposium hat auch gezeigt, dass Forschende noch kaum wissen, über welche Datenbestände die Bibliotheken verfügen. Und die Bibliotheken wissen noch zu wenig, wie sie TDM zur Verbesserung ihrer Dienstleistungen einsetzen können. Hier besteht also noch durchaus Gesprächsbedarf. Und entsprechend wurde die Gelegenheit für den Austausch auf dem Symposium fleissig genutzt.

Das Thema wurde zwar nicht explizit diskutiert, aber es ist klar, dass Bibliotheken und die Mitarbeitenden in Bibliotheken noch einiges tun müssen, um diese Rolle spielen zu können. Ich verweise zurück auf den Beitrag zu neuen Aufgaben und Rollen von Bibliothekarinnen und Bibliothekaren

Text und Data Mining für Bibliotheken

In der Diskussion dominierte etwas der Aspekt der Verlagsprodukte und Vertragsklauseln. Es wurde aber auch über den potentiellen Nutzen von TDM für Bibliotheken gesprochen. Genannt wurden zwei Hauptanwendungsgebiete: die Verbesserung der Suche sowie die Unterstützung bei der Beschlagwortung. Wobei bei letzterem auch die Möglichkeit besteht, dass die herkömmlichen Verfahren komplett durch technische Lösungen ersetzt werden. Untersuchungen an der ZHAW von Hans Friedrich Witschel haben gezeigt, dass sich (ungeübte) Anwender leichter mit automatisch generierten Schlagwortbaum zurecht finden als mit intellektuell geschaffenen Hierarchien. Bibliotheken bevorzugen eindeutig die Variante mit der Unterstützung beim Katalogisieren gegenüber dem Ersatz durch automatische Verfahren. Aus dem Publikum kam hier der Zwischenruf, dass die Bibliotheken zuerst grundsätzlich umdenken und vom alten OPAC-Konzept Abschied nehmen müssen. Dies bezog sich auch auf die Frage nach der Verbesserung der Suche mit Hilfe von TDM. Hier können zusätzliche Ontologien und Linked Open Data Bestände die Trefferqualität verbessern. Albert Weichselbraun, mein Kollege von der HTW Chur, verwies auf das im Rahmen des SUK P-2 Programm geförderte Projekt SYMPHONY, in dem das Publikationsverhalten mit Hilfe von TDM untersucht werden soll.

Fazit

Die Veranstaltung des Konsortiums kam zu einem guten Zeitpunkt, nur einen Monat nach Veröffentlichung der Hague Declaration. Es gibt noch viele Fragen zu klären und mögliche Kooperationen zwischen Bibliotheken und Forschung zu besprechen. Die kommerziellen Anbieter haben mittlerweile eigene Lösungen entwickelt, doch scheinen sie noch zu viele Einschränkungen aufzuweisen. Eine Klärung der rechtlichen Situation scheint höchste Priorität zu haben. Mit der Hague Declaration haben sich die in der LIBER organisierten europäischen Wissenschaftlichen Bibliotheken klar positioniert. Nun sind Politik und Verlage gefordert, diese Forderungen aufzunehmen.

Autor: mrudolf

Professor for Library Science at HTW Chur (university of applied sciences), co-editor of Informationspraxis, co-principal investigator of the Horizon Report Library Edition, blogging on library topics - and also on mindful living (in German as Männerherz)

4 Kommentare zu „Trend und Herausforderung: Text and Data Mining“

Schreibe einen Kommentar

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden / Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden / Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden / Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden / Ändern )

Verbinde mit %s