Βιοπληροφορική: η νέα «αίθουσα θαυμάτων» Understand article
Ο χειρισμός και η μελέτη «μεγάλων δεδομένων» στη μοριακή βιολογία αλλάζει τον τρόπο εργασίας των επιστημόνων.
Τον 16ο αιώνα, μια αίθουσα θαυμάτων (ή Wunderkammer) ήταν ένας δημοφιλής τρόπος επίδειξης μιας ιδιωτικής συλλογής αξιοπερίεργων αντικείμενων. Εκεί παρουσιάζονταν σε αφθονία δείγματα ζώων, σκελετοί, ορυκτά, ασυνήθιστα χειροποίητα αντικείμενα καθώς και ενδιαφέρουσες αρχαιότητες από τον Νέο Κόσμο, εξάπτοντας έτσι την περιέργεια των επισκεπτών για τα θαύματα της νέας εποχής.
Με τον καιρό, οι συλλογές αυτές αντικαταστάθηκαν από πιο μοντέρνα μουσεία. Σαν τις αίθουσες θαυμάτων όμως, τα μουσεία εξυπηρετούσαν δύο χαρακτηριστικές ανθρώπινες τάσεις: την περιέργεια και την επιθυμία για τη συλλογή και τη διατήρηση της γνώσης.
Σήμερα, οι ίδιες τάσεις, μαζί με τη νέα τεχνολογία και την τεράστια συσσώρευση γενετικών δεδομένων, οδηγούν σε μια μεγάλη αλλαγή στις επιστήμες υγείας: στον εκδημοκρατισμό της πρόσβασης. Εκτός από την κατηγοριοποίηση των βιολογικών δειγμάτων του ορατού κόσμου, οι επιστήμονες μπορούν σήμερα να αλληλουχίσουν DNA από εκατομμύρια είδη και να καταχωρήσουν τις πληροφορίες σε βάσεις δεδομένων μαζί με άλλα μοριακά βιολογικά δεδομένα. Το αποτέλεσμα είναι ένα νέο είδος εκθέματος: ένας διαρκώς αυξανόμενος κατάλογος βιολογικών πληροφοριών οι οποίες μπορούν να βοηθήσουν τους επιστήμονες από παντού, να κατανοήσουν τον κόσμο των ζωντανών οργανισμών.
Τα δεδομένα αυτά όμως χρειάζονται συλλογή και επεξεργασία. Για το σκοπό αυτό αναπτύχθηκε η επιστήμη της βιοπληροφορικής, η οποία συνδυάζει τη βιολογία και την επιστήμη των υπολογιστών.
Ανοίγοντας την αίθουσα
Τα ερευνητικά εργαστήρια όλου του κόσμου παράγουν έναν μεγάλο όγκο δεδομένων, τα οποία αποθηκεύονται σε εξειδικευμένες βάσεις δεδομένων – όπως αυτές του Ευρωπαϊκού Ινστιτούτου Βιοπληροφορικής (EMBL-EBI), κοντά στο Κέιμπριτζ, HBw1. Μια βασική ευθύνη του EMBL-EBI είναι να εξασφαλίζει ότι τα δεδομένα είναι δημόσια προσβάσιμα και οι «συλλογές» να είναι διαθέσιμες στους επιστήμονες όλου του κόσμου. «Μόλις τα λίγα τελευταία χρόνια, οι βελτιωμένοι δίαυλοι επικοινωνίας έκαναν εφικτή αυτού του είδους την ελεύθερη διάθεση η οποία πλέον θεωρείται δεδομένη από τους χρήστες» λέει ο Andy Yates, αρχηγός ομάδας στο EMBL-EBI. Συμπληρώνει «Η ελεύθερη πρόσβαση δεδομένων είναι ζωτικής σημασίας για όποιον ασχολείται με την επιστήμη. Σε μια παραδοσιακή αίθουσα θαυμάτων, ο συλλέκτης ήταν η απόλυτη εξουσία. Σήμερα καθιστούμε τα περιεχόμενα – και τους εαυτούς μας- ανοικτούς σε εκ νέου ανάλυση και ανασκόπηση. Είναι μια απαραίτητη κίνηση εάν θέλουμε τα δεδομένα μας να είναι πραγματικά χρήσιμα».
Οργανώνοντας τα δεδομένα
Οι παραδοσιακές αίθουσες θαυμάτων οργάνωναν τα αντικείμενα κατά τύπο. Οι σύγχρονες βάσεις δεδομένων οργανώνουν τις πηγές βιολογικών δεδομένων με παρόμοιο τρόπο – σε κατηγορίες. Στη βάση δεδομένων, πληροφορίες και κατηγορίες διαπλέκονται και έτσι η βάση μοιάζει με μια «έξυπνη» ή πολυδιάστατη αίθουσα θαυμάτων.
Στις σημερινές πηγές δημόσιων δεδομένων, η δημιουργία ευρετηρίων είναι εξίσου καίρια με τις παλαιότερες συλλογές, κάνοντας εύκολη την αναζήτηση πληροφοριών μεταξύ των petabytes δεδομένων. Χωρίς την καταχώρηση σε ευρετήρια, δεν υπάρχει τρόπος να ξέρουμε τί υπάρχει σε μια βάση δεδομένων ή πώς βρέθηκε εκεί. Οι περιγραφές των κατηγοριών δεδομένων – τα λεγόμενα μεταδεδομένα – απαιτούνται επίσης: «Χωρίς μεταδεδομένα, η εξερεύνηση μιας βάσης δεδομένων μοιάζει με το να περιηγείσαι με δεμένα μάτια στο υπόγειο του Λούβρου, ελπίζοντας να βρεις τη Μόνα Λίζα» λέει ο Yates.
Οι υπεύθυνοι καταχώρησης ελέγχουν προσεκτικά εάν οι υποβολές νέων –και αποκτημένων με κόπο – δεδομένων πληρούν τις απαραίτητες απαιτήσεις, έτσι ώστε να τα καταστήσουν επαναχρησιμοποιήσιμα από άλλους επιστήμονες. Οι απαιτήσεις αυτές ορίζονται από ευρέως αποδεκτές κατευθυντήριες γραμμές, γνωστές με τη συντομογραφία FAIR: ευρέσιμα (findable), προσβάσιμα (accessible), διαλειτουργικά (interoperable) και επαναχρησιμοποιήσιμα (re-usable). Τα ερευνητικά πακέτα δεδομένων πρέπει επίσης να βρίσκονται εντός πλαισίου και να συνδέονται με την επιστημονική δημοσίευση που τα περιγράφει.
Οπτικοποιώντας τα δεδομένα
Εκτός από την οργάνωση, οι τρόποι οπτικοποίησης των δεδομένων είναι επίσης σημαντικοί: η ικανότητα να «βλέπουμε» σχέσεις μεταξύ των δεδομένων εμπνέει τους επιστήμονες να συνεχίσουν να εξερευνούν. «Η πρώτη εμφανής διαφορά μεταξύ μιας αίθουσας θαυμάτων και μιας βάσης δεδομένων είναι το περιεχόμενο» εξηγεί ο Jee-Hyub Kim, πρώην ανιχνευτής δεδομένων στο EMBL-EBI. «Βέβαια, μια συλλογή φυσικών αντικειμένων, σε κάνει να νιώθεις αμέσως κάτι. Απλά φανταστείτε πώς θα ένιωθε κάποιος που δεν είχε δει ποτέ τον ωκεανό, όταν έβλεπε και ακουμπούσε έναν αστερία ή ένα κοράλλι. Είναι δύσκολο να προκαλέσεις τέτοιου είδους έκπληξη με άυλα δεδομένα. Για αυτό χρειάζεσαι μια καλή διεπαφή και εργαλεία οπτικοποίησης – για να μπορέσει ο χρήστης να εξερευνήσει και να αλληλεπιδράσει με το πακέτο δεδομένων ή ένα ψηφιακό αντικείμενο.
Χαρακτηριστικό παράδειγμα ενός τέτοιου εργαλείου οπτικοποίησης είναι η Τράπεζα Δεδομένων Πρωτεϊνών στην Ευρώπη (PDBe)w2, μια πηγή για τη συλλογή, οργάνωση και διάδοση δεδομένων μακρομοριακών δομών, όπως οι πρωτεΐνες. Η PDBe δεν αποτελεί μόνο ένα κεντρικό αποθετήριο για τους επιστήμονες που μελετούν πρωτεΐνες, αλλά επιτρέπει επίσης στους χρήστες να βλέπουν και να αλληλεπιδρούν με ψηφιακά, τρισδιάστατα μοντέλα πρωτεϊνών. Αυτές οι οπτικοποιήσεις είναι προσβάσιμες από οποιαδήποτε συσκευή με σύνδεση στο διαδίκτυο –ακόμα και τηλέφωνα και τάμπλετ σε όλο τον κόσμο.
Νέες μέθοδοι, νέες προκλήσεις
Πώς αλλάζει λοιπόν αυτή η διαθεσιμότητα τόσων πολλών δεδομένων, τον τρόπο που κάνουμε επιστήμη; Σύμφωνα με τον Chuck Cook, διευθυντή επιστημονικών υπηρεσιών στο EMBL-EBI, οι επιστήμονες θα εξαρτώνται όλο και περισσότερο από τα μεγάλα δεδομένα – και όσοι δεν τα χρησιμοποιούν θα υπολείπονται επαγγελματικά. «Καθώς γινόμαστε πιο εξειδικευμένοι, το να πραγματοποιούμε απομονωμένα πειράματα γίνεται όλο και πιο δύσκολο. Για να εμβαθύνουμε στην έρευνα, θα χρειαστεί να συνεργαστούμε με άτομα από πολλούς διαφορετικούς τομείς».
«Οι βιολόγοι πρέπει να στραφούν στους προγραμματιστές, μέχρι ενός σημείου» συμφωνεί ο Yates. «Έτσι αλλάζουν οι επιστημονικές ερωτήσεις. Ο ερευνητής θα διατυπώσει μια υπόθεση και μετά θα την επιβεβαιώσει ή θα την απορρίψει μέσω της αλίευσης μεγάλων δεδομένων από ειδικές πηγές. Αυτό απαιτεί τις κατάλληλες γνώσεις προγραμματισμού».
Καθώς οι επιστήμονες ξεκινούν να αναλύουν τέτοια πακέτα δεδομένων σε μεγάλη κλίμακα, ανακαλύπτουν νέες προκλήσεις. Για παράδειγμα, τα δεδομένα από τις αποστολές Ωκεανοί Tara – στις οποίες ένα ερευνητικό πλοίο έχει πλεύσει διεθνώς πάνω από 300.000 χλμ από το 2004 – έχει οδηγήσει στην ανακάλυψη πάνω από 40 εκατομμυρίων νέων γονιδίων και βοηθά τους επιστήμονες να καταλάβουν τα αθέατα οικοσυστήματα που υποστηρίζουν την παγκόσμια τροφική αλυσίδα.
Οι επιστήμονες στο ταξίδι συνέλλεξαν συστηματικά, δείγματα πλαγκτού από όλους τους ωκεανούς του κόσμου και μετά τα έστειλαν πίσω στη στεριά για αλληλούχιση και ανάλυση DNA. «Αλληλουχώντας τα δείγματα από την Tara καταφέρνουμε να «δούμε» ένα μέρος από τη ποικιλότητα της ζωής στους ωκεανούς» λέει ο Rob Finn, αρχηγός ομάδας στο κέντρο μεταγενωμικής του EMBL-EBI. Προσθέτει ότι «Το πρώτο σετ 40 εκατομμυρίων γονιδίων που αναγνωρίστηκε από τα δείγματα της Ωκεανοί Tara, είναι κυρίως προκαρυώτες – βακτηριακά είδη τα οποία δεν είχαμε ξαναδεί. Στο δεύτερο σετ όμως δεδομένων, έχουμε αναγνωρίσει μέχρι τώρα 117 εκατομμύρια ευκαρυωτικών γονιδίων και έχουμε ακόμη δρόμο».
Οι σημαντικές λεπτομέρειες
Ποιες είναι οι μεγάλες προκλήσεις που αντιμετωπίζει τα επόμενα χρόνια η Βιολογία, στο πλαίσιο της διαρκώς αυξανόμενης εισροής δεδομένων; «Πριν από τα ανοικτά δεδομένα, ένας επιστήμονας δούλευε πάνω σε μια πρωτεΐνη, γονίδιο ή πειραματικό σύστημα, πιθανά για όλη την καριέρα του», λέει η επικεφαλής επιστήμονας Janet Thornton, Ομότιμη Διευθύντρια του EMBL-EBI. «Το να δει τη μεγαλύτερη εικόνα ήταν πρακτικά αδύνατο. Σήμερα μπορούμε να κάνουμε παρατηρήσεις σε επίπεδο γονιδιωμάτων και ειδών». Η Thornton θεωρεί επίσης ότι η αλλαγή αυτή θέτει τη μεγαλύτερη πρόκληση: πραγματικά σημαντικές ανακαλύψεις στη βιολογία βρίσκονται ακόμα στις σημαντικές λεπτομέρειες.
«Πρέπει να προσέξουμε αυτές τις λεπτομέρειες για να καταλάβουμε πολλά θεμελιώδη ερωτήματα, όπως για παράδειγμα γιατί γηράσκουν οι οργανισμοί» λέει. «Πρωτοβουλίες όπως ο Κυτταρικός Ανθρώπινος Άτλας w3 είναι πολύ καλά παραδείγματα εκείνων των λεπτομερειών που έχουμε ακόμη να καταλάβουμε πριν ξεκινήσουμε να εξηγούμε τη λειτουργία των πραγμάτων. Το επόμενο βήμα θα είναι η μετάφραση της γνώσης αυτής σε καθημερινές εφαρμογές όπως η ιατρική, η γεωργία και η βιοποικιλότητα».
Οι επιστήμονες, σαν τους συλλέκτες που έστησαν τις πρώτες αίθουσες θαυμάτων, κατηγοριοποιούν σχολαστικά καθετί που μαθαίνουν σχετικά με τη μορφή και τη λειτουργία της ζωής. Κατόπιν συσχετίζουν τις πληροφορίες αυτές έτσι ώστε να καταφέρουν να κάνουν νέες ανακαλύψεις.
Ευχαριστίες
Το άρθρο αυτό βασίζεται σε άρθρο που πρωτοδημοσιεύτηκε στο EMBL-EBI News, αφού έλαβε ευγενική άδεια αναπαραγωγής.
Web References
- w1 – EMBL-EBI είναι το σπίτι των μεγάλων δεδομένων στη βιολογία. Το ινστιτούτο φιλοξενεί και διαμοιράζει δεδομένα πειραμάτων επιστημών ζωής από όλο τον κόσμο. Οι επιστήμονες του κάνουν βασική έρευνα στην υπολογιστική βιολογία. Το EMBL-EBI είναι ένα από τα έξι μέρη του Ευρωπαϊκού Μοριακού Εργαστηρίου Βιολογίας και εδράζεται λίγο έξω από το Κέιμπριτζ, ΗΒ.
- w2 – PDBe είναι η βάση δεδομένων τρισδιάστατων δομών σχετικά με μεγάλα βιολογικά μόρια, όπως οι πρωτεΐνες και τα νουκλεϊκά οξέα. Τα μοντέλα παρέχονται δωρεάν στους επιστήμονες και τους φοιτητές σε όλο τον κόσμο.
- w3 – O Άτλας Ανθρωπίνων Κυττάρων Human Cell Atlas στοχεύει στη χαρτογράφηση κάθε μοναδικού κυττάρου στο ανθρώπινο σώμα, με τη χρήση τεχνολογιών αλληλούχισης ενός κυττάρου. Αυτή η συνεργασία της παγκόσμιας επιστημονικής κοινότητας φέρνει κοντά βιολόγους, κλινικούς επιστήμονες, γενετιστές, μηχανικούς λογισμικού και άλλους.
Resources
- Μάθετε περισσότερα για τις αποστολές Tara και την οικολογική έρευνά τους στον ιστότοπο της Tara.
- Διαβάστε παρακάτω το άρθρο του Science in School για τις αποστολές Tara:
- Peyrot R (2015) Tara: an ocean odyssey. Science in School 33: 6-11.
Institutions
Review
Το άρθρο αυτό παρουσιάζει μια ιδέα που είναι θεμελιώδης για πολλούς κλάδους, από τις φυσικές επιστήμες έως τα οικονομικά: ο τεράστιος όγκος δεδομένων και γνώσεων που διαθέτουμε στις μέρες μας, πρέπει να οργανωθεί επαγγελματικά, ώστε να είναι τα δεδομένα προσβάσιμα από ερευνητές σε όλο τον κόσμο.
Το άρθρο θα μπορούσε να χρησιμοποιηθεί στη διδασκαλία της βιολογίας, για να εισαγάγει τον ρόλο των μεγάλων δεδομένων και της βιοπληροφορικής στη μοριακή βιολογία και να τονίσει πώς οι νέες τεχνολογίες υπολογιστών μπορούν να βοηθήσουν τους επιστήμονες να συγκρίνουν και να απεικονίσουν αλληλουχίες DNA και πρωτεϊνών. Έτσι οι μαθητές ενθαρρύνονται να διερευνήσουν οι ίδιοι τις πολλαπλές δυνατότητες που δημιουργούνται στην επιστήμη από τις τεχνολογίες επικοινωνίας.
Το άρθρο θα μπορούσε επίσης να χρησιμοποιηθεί για να ενθαρρύνει την ευαισθητοποίηση για την εκπληκτική βιοποικιλότητα που δεν έχει ακόμη ανακαλυφθεί στους ωκεανούς και σε άλλα ανεξερεύνητα φυσικά ενδιαιτήματα.s.
Jesús López Alonso, καθηγητής βιολογίας, Σχολείο δευτεροβάθμιας εκπαίδευσης IES La Gándara, Ισπανία