Metadatenstruktur für Daten in Baden-Württemberg

Offene Daten sind schneller und besser für die Anwendungsentwicklung, Datenjournalismus und Zivilgesellschaft erschließbar, wenn diese in zentralen Portalen auffindbar sind. Da eine zentrale Datenhaltung über Verwaltungs- und Domänengrenzen hinweg aus verschiedenen Gründen kaum umsetzbar, aber auch wenig sinnvoll ist, wird in der Regel eine dezentrale Datenhaltung mit einem zentralen Metadatenportal genutzt.

An zentraler Stelle – wie etwa auf daten.bw – werden Informationen zu und Verweise auf die Daten der Datenbereitsteller in Baden-Württemberg gesammelt und präsentiert.

Was aber wird neben Name, Beschreibung und Autorin oder Autor in den Metadaten offener Datensätze festgehalten? Diese Frage stellt sich sowohl beim Erfassen der Metadaten als auch beim automatischen Austausch von Metadatensätzen, dem sogenannten Harvesting.  Je strukturierter die Informationen vorliegen, umso einfacher sind sie auffindbar, lesbar und verarbeitbar. Metadaten, auch als Metainformationen bezeichnet, dienen zur einheitlichen Beschreibung von Daten und sorgen dafür, dass diesen Beschreibungen eine einheitliche Struktur zugrunde liegt und erleichtern sowohl Suchen, Finden als auch Selektieren relevanter Ressourcen aus einer Vielzahl möglicher Ressourcen.

So werden einheitliche Metadaten in vielen Domänen bereits mit unterschiedlichen Ansätzen und Prioritäten vorgehalten, beispielsweise für Umweltdaten oder bibliographische Daten.

Das Metadatenmodell

Für Open Data in Deutschland gilt der Metadatenstandard DCAT-AP („Data Catalogue Application Profile“).de.

Mit dieser Spezifikation wird festgelegt, wie offene Datensätze beschrieben werden müssen und ist auch für Open Data in Baden-Württemberg verbindlich.  Durch die Einhaltung des dort festgelegten Datenschemas kann sichergestellt werden, dass Metadaten institutionsübergreifend auffindbar, leicht analysiert und zwischen Portalen und Anwendungen ausgetauscht werden können. Der Standard legt sowohl die notwendigen Inhalte der Metadaten fest (z.B. Angabe der Lizenz, Angabe des Veröffentlichungsdatums), als auch ein kontrolliertes Datenkatalog-Vokabular, das verwendet werden soll, um diese Angaben zu tätigen.