Die Bioinformatik-ein modernes Kuriositätenkabinett Understand article

Der Umgang mit großen Datenmengen verändert die Arbeit von Wissenschaftlerinnen und Wissenschaftlern.

Im 16. Jahrhundert war es üblich, Kuriositätenkabinette (oder Wunderkammern) einzurichten, um private Sammlungen außergewöhnlicher Objekte zur Schau zu stellen. Tierexemplare, Skelette, Mineralien, unübliche Handwerksprodukte und faszinierende Antiquitäten aus der Neuen Welt konnten bestaunt werden. Dadurch ist bei den Besucher/innen ein intensives Gefühl von Neugier auf moderne Wunderdinge entstanden.

Mit der Zeit wurden die Kuriositätenkabinette durch moderne Museen ersetzt. Wie in den Kabinetten zielten auch Museen auf zwei grundlegende Wünsche des Menschen ab: die Neugier, und der Wunsch, Wissenswertes zu sammeln und zu erhalten.

Aus dem gleichen Grund und  durch Kombination mit neuen Technologien und einer wahren Lawine genetischer Daten – wurden die Naturwissenschaften grundlegend verändert, hin zur Demokratisierung des Zugangs. Genauso wie die Katalogisierung der sichtbaren Lebensformen kann die Wissenschaft jetzt die DNA von Millionen Arten sequenzieren und die Daten, gemeinsam mit anderen molekularbiologischen Daten, in Datenbanken einspeisen. Das Ergebnis ist eine neue Form der Ausstellung: ein kontinuierlich wachsender Katalog biologischer Informationen, der den Wissenschaftler/innen weltweit hilft, das Leben zu verstehen.

Da all diese Daten gepflegt werden müssen, wurde die Disziplin der Bioinformatik, bei der die Biologie mit den Computerwissenschaften kombiniert wird, geschaffen.

Das traditionelle Kuriositätenkabinett wurde in den Lebenswissenschaften durch Pentabytes molekularer Daten ersetzt.
Spencer Phillips/EMBL-EBI

Öffnung des Kabinetts

Forschungslaboratorien auf der ganzen Welt erzeugen gewaltige Datenmengen, die in spezialisierten Datenbanken gespeichert werden – wie jener des Europäischen Bioinformatik-Instituts ((EMBL-EBI), in der Nähe von Cambridge, Großbritannien w1. Um die Zugänglichkeit der Datenbanken für die Wissenschaftler/innen auf der ganzen Welt zu ermöglichen, hat das EMBL-EBI die zentrale Aufgabe übernommen, die hier verwalteten Daten öffentlich nutzbar zu machen. “Obwohl diese Form der öffentlichen Nutzung erst seit einigen Jahre möglich ist, weil die Kommunikationswege verbessert worden sind, wird sie jetzt ganz einfach von den Nutzer/innen erwartet”, erklärt Andy Yates, ein Teamleader des EMBL-EBI. Die Zugänglichkeit der Daten ist entscheidend für alle Personen, die sich mit Wissenschaft beschäftigen. Bei einem traditionellen Kuriositätenkabinett, könnte der Sammler bzw. die Sammlerin über die Zugänglichkeit entscheiden. Wir ermöglichen es allen, die gespeicherten Inhalte und unsere Arbeit erneut zu untersuchen und zu überprüfen. Wenn wir erreichen wollen, dass unsere Ressourcen wirklich nützlich sind, ist das eine notwendige Veränderung“, meint er.

Organisation der Daten

Datenspeicherung am EMBL-
EBI: das Datenzentrum
speichert auf hunderten
Servern abgelegte enorme
Mengen digitaler Daten.

EMBL-EBI

In traditonellen Kuriositätenkabinetten werden die Ausstellungsstücke nach ihrer Art gruppiert. In modernen Datenbanken werden die biologischen Daten in einer ähnlichen Art und Weise kategorisiert. Die Daten in der Datenbank sind mit Kategorien verlinkt, sodass die Datenbank wie eine intelligentes bzw. multidimensionales Kuriositätenkabinett funktioniert.

Um einzelne Datensätze leicht aus den Pentabyte großen Datenmengen heraussuchen zu können, ist es heutzutage für öffentliche Datensammlungen genauso wichtig wie bei früheren Sammlungen, die Ressourcen zu indizieren. Ohne Indizierung ist es unmöglich zu wissen, was in der Datenbank zu finden ist und wie man dazu kommt. Außerdem werden Beschreibungen der Datensätze, Metadaten genannt, benötigt: „Ohne Metadaten wäre das Durchsuchen einer Datenbank wie blind durch das Untergeschoss des Louvre zu gehen, in der Hoffnung, die Mona Lisa zu finden“, sagt Yates.

Damit die hart erarbeiteten Datensätze von andere Wissenschaftler/innen verwendet werden können, überprüfen Datenverantwortliche, ob die eingereichten Datensätze den notwendigen Anforderungen entsprechen.  Diese Anforderungen werden als breit akzeptierte Richtlinien veröffentlicht, sie sind unter der Abkürzung FAIR bekannt: findable (auffindbar), accessible (zugänglich), interoperable (interoperabel) und re-usable (wiederverwendbar). Die Forschungsdaten müssen auch in einen Zusammenhang gesetzt werden und mit wissenschaftlicher Literatur verlinkt werden, in der ihre Bedeutung erklärt wird.

Visualisierung der Daten

Neben der Organisation der Daten ist es auch wichtig, sie zu visualisieren: Wenn Verbindungen zwischen den Daten erkennbar sind, werden die Leute angeregt, weiter zu forschen. „Der erste offensichtliche Unterschied zwischen einem Kuriositätenkabinett und einer Datenbank ist ihr Inhalt“, erklärt Jee-Hyub Kim, ein früherer Datenanalyst am EMBL-EBI. “Auf der einen Seite liefert eine Sammlung realer Objekte ein Gefühl der Unmittelbarkeit. Stell dir einmal vor, wie es sich für jemanden, der/die niemals das Meer gesehen hat, anfühlen muss, einen Seestern oder eine Koralle zu betrachten und anzugreifen. Es ist schwierig, ein derartiges Gefühl mit etwas Immateriellen wie Daten auszulösen. Um den Nutzern die Untersuchung und Interaktion mit den Datensätzen oder digitalen Objekten zu ermöglichen, werden daher gute Benutzeroberflächen und Visualisierungstools benötigt.”

Ein Beispiel für ein Visualisierungstool ist die Protein Data Bank in Europa , (PDBe)w2, eine Ressource zur Sammlung, Organisation und Verbreitung von Daten von makromolekularen Strukturen wie z.B. Proteine.  Neben ihrer Rolle als zentraler Ablageort für die Wissenschaft, die sich mit Proteinen beschäftigt, ermöglicht es die PDBe den Nutzern auch, dreidimensionale Proteinmodelle anzusehen und mit ihnen zu interagieren. Diese Visualisierungen können mit jedem Gerät mit Internetzugang auf der ganzen Welt betrachtet werden, auch von Smartphones und Tablets.

Die Protein Data Bank in Europa (PDBe) verwaltet tausende digitale Proteinmodelle, darunter diese Abbildung des menschlichen Hämoglobinmoleküls, bei dem die vier Untereinheiten erkennbar sind.
PDBe

Neue Methoden, neue Erkenntnisse

Ansicht des im Plankton
vorkommenden Histioneis
elongate,
gefunden vom
Tara-Team im
südpazifischen Ozean.

tintinnidguy/Flickr.com
 

Wie kann unsere wissenschaftliche Arbeitsweise eigentlich durch die Verfügbarkeit so vieler Daten beeinflusst werden? Laut Chuck Cook, dem wissenschaftlichen Servicemanager am EMBL-EBI, ist die Wissenschaft immer stärker von großen Datensammlungen abhängig, und all jene, die auf deren Nutzung verzichten, werden wissenschaftlich ins Hintertreffen geraten. Je mehr wir uns spezialisieren, desto schwieriger wird es, isolierte Einzelexperimente durchzuführen. Für tiefer gehende Forschungsarbeiten wird es unabdingbar sein, dass Forscher/innen mit unterschiedlichem wissenschaftlichen Background zusammenarbeiten.

„Biologen und Biologinnen müssen bis zu einem gewissen Ausmaß zu Programmierer/innen mutieren“, stimmt Yates zu. Die Forscher/innen liefern Hypothesen, die sie durch die Auswertung großer Datenmengen belegen oder widerlegen können. Das erfordert ein gewisses Ausmaß an Programmierkenntnissen.“

Durch die großflächige Analyse der Daten konnten grundlegende neue Erkenntnisse gewonnen werden. So ermöglichten die Daten der Tara-Ozean-Expeditionen, in deren Rahmen ein Forschungsschiff seit 2004 mehr als 300 00 km um die Welt gesegelt ist, die Entdeckung von mehr als 40 Millionen neuen Genen. Dadurch wurde die Wissenschaft unterstützt, unsichtbare Ökosysteme, die Teil der globalen Nahrungskette sind, zu verstehen.

Die Forscher/innen sammelten auf ihrer Fahrt systematisch Planktonproben aus allen Ozeanen dieser Welt, brachten sie zurück an Land, um sie dort zu sequenzieren und zu analysieren. Die Sequenzierung der Proben von Tara ermöglicht es, die Diversität von Meereslebewesen zu festzustellen“, so Rob Finn, ein Teamleader im Bereich der Metagenomressource am EMBL-EBI. “Die erste Tranche der 40 Millionen Gene aus den Tara-Meeresproben stammen vor allem aus Prokaryonten – Bakterien, die wir nie zuvor gesehen haben. In der zweiten Datentranche konnten wir bisher über 117 Millionen Eukaryontengene identifizieren, und wir sind noch lange nicht fertig”, erklärt er.

Relevante Details

Welche großen Herausforderungen werden in den kommenden Jahren durch diese immer größere werdende Sammlung von Daten auf die Biologie zukommen? Bevor öffentlich zugängliche Daten existierten, haben sich Wissenschaftler/innen mit einem Protein, einem Gen oder einem experimentellen System beschäftigt, möglicherweise während ihrer ganzen beruflichen Karriere“, so Janet Thornton, die frühere Direktorin des EMBL-EBI. “Einen größeren Zusammenhang zu sehen war praktisch unmöglich.” Heutzutage können Aussagen zu einem vollständigen Genom oder zu einer ganzen Art getroffen werden”, meint sie. Aber Thornton meint auch, dass diese Veränderung auch die größte Herausforderung darstellt: wirklich großen Entdeckungen in der Biologie hängen noch immer an relevanten Details.

„Um so fundamentale Fragen wie z.B. die Frage warum wir eigentlich altern, verstehen zu können, müssen nach wie vor kleinste Details untersucht werden“, erklärt sie. Initiativen wie der Human Cell Atlas (Menschlicher Zellatlas) w3 sind sehr gute Beispiele für das Fehlen von Details, die für das Verständnis der Mechanismen unbedingt erforderlich sind. Als nächster Schritt können diese Erkenntnisse auf Bereiche des Alltags übertragen werden, z.B. auf die Medizin, die Landwirtschaft und die Biodiversität.”

Genauso wie die Sammler, die die Kuriositätenkabinette betrieben haben, sind die Wissenschaftler/innen noch immer damit beschäftigt, akribisch alles, was sie über die Art und die Funktion des Lebens lernen, zu katalogisieren, und so zu verbinden, dass leichter neue Erkenntnisse gewonnen werden können.

Danksagung

Dieser Artikel wurde mit Genehmigung überarbeitet und beruht auf einer Originalpublikation in EMBL etc.


Web References

  • w1 – EMBL-EBI ist die Adresse für die großen Datensammlungen der Biologie. Das Institut wartet und verbreitet Daten naturwissenschaftlicher Experimente aus aller Welt, und die Wissenschaftler/innen beschäftigen sich mit Grundlagenforschung im Bereich der Computerwissenschaften. Das EMBL-EBI ist eines der sechs Standorte des European Molecular Biology Laboratory und liegt knapp außerhalb von Cambridge, Großbritannien.
  • w2 – PDBe ist eine Datenbank für dreidimensionale Strukturdaten verschiedener großer Makromoleküle, wie Proteine und Nukleinsäuren. Die Modelle werden der Wissenschaft und Studierenden auf der ganzen Welt gratis zur Verfügung gestellt.
  • w3 ­– Human Cell Atlas versucht jede einzelne Zelle des menschlichen Körpers durch Technologien zur Sequenzierung einzelner Zellen zu erfassen. Diese Kooperation zwischen internationalen wissenschaftlichen Gruppen umfasst Biologen/innen, Kliniker/innen, Genetiker/innen, Softwareingenieure/innen und viele andere.

Resources

  • Nähere Informationen über die Tara-Expeditionen und ökologische Forschungsarbeiten finden sich auf der Tara Website.
  • Science in School Artikel zur Tara Expedition:

Institutions

Author(s)

Oana Stroe ist Kommunikationsmanagerin am European Bioinformatics Institute (EMBL-EBI). Nach Abschluss ihres Masterstudiums in Kommunikation, Kultur und Medien arbeitete Oana viele Jahre in der Öffentlichkeitsarbeit für Kultur und Technologien, bevor sie ihren Dienst am EMBL-EBI antrat.

Review

Der Artikel illustriert eine für viele Disziplinen fundamentales Konzept, von den Naturwissenschaften bis zur Wirtschaftswissenschaft, nämlich, große Datenmengen professionell zu organisieren, um für die Wissenschaftler/innen auf der ganzen Welt zugänglich zu sein.

Der Artikel kann im Biologieunterricht eingesetzt werden, um die Bedeutung großer Datenmengen aufzuzeigen und zu illustrieren. Er eignet sich auch, um aufzuzeigen, wie die Bioinformatik für die Molekularbiologie und neue Computertechnologie die Wissenschaftler/innen unterstützen kann, DNA- und Proteinsequenzen zu vergleichen und zu visualisieren. Das könnte die Schüler/innen motivieren, die vielen Möglichkeiten der Kommunikationstechnologien für den Bereich der Forschung selbstständig zu erkunden.

Der Artikel eignet sich auch um auf die faszinierende, bisher unbekannte Biodiversität in den Ozeanen und anderen unerforschten Lebensräumen aufmerksam zu machen.

Jesús López Alonso, Biologielehrer, IES La Gándara High School, Spanien

License

CC-BY

Download

Download this article as a PDF