MPA :: Aktuelle Forschung :: September 2007

Die öffentliche Bereitstellung großer und komplexer Datenmengen wie die der Millennium-Simulation bringt neue Herausforderungen mit sich, die über jene hinausgehen, welche beim Erstellen öffentlicher Archive von Beobachtungsdaten auftreten. Viele dieser Herausforderungen ergeben sich aus der großen Vielfalt der Beziehungen zwischen verschiedenen Objekten in der Simulationsdatenbank, und auch aus der Tatsache, dass einzelnen Objekten zahlreiche verschiedene Eigenschaften zugeordnet werden können. Die meisten Nutzer der Daten interessieren sich für die Eigenschaften von Halos aus Dunkler Materie und von Galaxien, welche die primären Objekten in der Datenbank darstellen. Die Galaxien wurden dabei durch Nachbearbeiten der Simulationsdaten erzeugt. Halos aus Dunkler Materie sind die grundlegenden nichtlinearen Strukturen des simulierten Universums. Sie besitzen Eigenschaften wie Masse, Größe und Position, und zusätzlich interne Substruktur (sogenannte Subhalos). Letztere sind die Überbleibsel derjenigen Objekte, die während des Halo-Wachstums in diese gefallen sind und zu ihrem Wachstum beitrugen. Das Millennium-Archiv enthält Informationen für ungefähr 750 Millionen Halos und Subhalos. Diese sind alle in einer verketteten Baumstruktur verbunden, die genau angibt, wie sich jedes Objekt aus anderen zur direkt davor liegenden Zeit gebildet hat. Dies ist eine wichtige Information, die insbesondere von Algorithmen zur Berechnung der Galaxienentstehung benötigt wird.

Die Galaxienentstehung ist ein komplizierter und noch recht unklarer Prozess, so dass viele verschiedene physikalische Modelle getestet werden müssen, um ein Modell zu finden, welches die Beobachtungsdaten am besten wiedergibt. Ein Hauptanliegen der Millennium-Simulation ist es, einen Rahmen für den Vergleich verschiedener Modelle der Galaxienenstehung mit Beobachtungsdaten bereitzustellen. Darum ist es wichtig, simulierte Galaxienkataloge mit verschiedenen physikalischen Annahmen für die Entstehung der Galaxien zugänglich zu machen. Dadurch können Forscher ein Gefühl für die Unsicherheiten der jeweiligen Modelle entwickeln. Ein Galaxienkatalog für die vollständige Millennium-Simulation hat circa eine Milliarde Einträge. Für jede dieser Galaxien können zahlreiche Eigenschaften basierend auf dem zugrunde liegenden Entstehungsmodell berechnet werden, die in der Datenbank abgelegt werden müssen.

Zusätzlich werden Zeiger benötigt, die die Galaxien zu verschiedenen Zeiten miteinander verbinden, wodurch eine Baumstruktur entsteht, die die Entstehungsgeschichte (Merger History) einer jeden einzelnen Galaxie darstellt. Genau wie die Haloentstehung kann damit die Galaxienentstehung detailliert verfolgt werden.

Ein wichtiger Gesichtspunkt, der bei der Bereitstellung der Daten berücksichtigt werden muss, ist der Wunsch der Benutzer, die Millennium-Daten für eine Vielzahl sehr verschiedener Projekte und Fragestellungen verwenden zu können. Die optimale Art der Bereitstellung der Daten hängt stark von dem entsprechenden Projekt ab. Das Verwenden "flacher Dateien" ist hierfür nicht flexibel genug. Darum entschied sich die MPA/MPE/GAVO-Gruppe für eine relationale Datenbank zum Abspeichern der bearbeiteten Daten der Millennium-Simulation. Der Hauptvorteil dieses Vorgehens besteht darin, dass solche relationalen Datenbanken eine flexible und intuitive Abfragesprache (SQL) anbieten, die es einem Benutzer erlaubt, Daten gezielt nach seinen Bedürfnissen zu selektieren, ohne dass er das zugrunde liegende Rohdatenformat kennen muss. Die Datenbank implementiert diese Sprache mit Hilfe effizienter Abfragealgorithmen, die komplexe Benutzeranfragen interpretieren und mit höchster Effizienz ausführen.

Der Onlinezugang zur Millennium-Datenbank ist über ein

web-basiertes Abfrageinterface (siehe Abb. 1) möglich. Neben Dokumentation und Beispielanfragen für die Datenbank kann der Benutzer dort auch seine eigenen SQL-Anfragen eingeben und ausführen. Die Ergebnisse können direkt zurückgegeben, online dargestellt (siehe Abb. 2) oder für zukünftige Analysen in einer privaten Datenbank, die jedem registrierten Benutzer zur Verfügung steht, abgelegt werden. Dieser Ansatz ähnelt dem sehr erfolgreichen Konzept des SDSS-SkyServer (

http://cas.sdss.org/dr6/en/).

Momentan hat das Millennium-Archiv mehr als 160 registrierte Benutzer, denen lokaler Plattenplatz für Aufbewahrung und Manipulation ihrer Abfrageergebnisse zur Verfügung steht. Ungefähr 80% der Benutzer haben erfolgreich Abfragen an die Hauptdatenbank gerichtet. Die Hälfte scheint schon Forschung mit der Datenbank zu betreiben (mehr als 50 erfolgreiche Abfragen), während 20% als anspruchsvolle Benutzer eingestuft werden können (mehr als 1000 erfolgreiche Abfragen). Im Schnitt werden pro Woche über 500 Millionen Datenzeilen von der Seite heruntergeladen, und die Benutzergemeinde des Archivs wächst weiter sehr schnell. Allerdings wird es wahrscheinlich noch einige Jahre dauern, bis der Erfolg der Datenbank in Bezug auf neue wissenschaftliche Erkenntnisse vernünftig bewertet werden kann.

Simulationsdaten für alle!