Was ist eigentlich Bioinformatik?

picture:haemoglobinEs gibt Grenzbereiche, in denen sich die Informatik mit einer oder mehrerer weiteren Wissenschaften verbunden, und vielleicht etwas Neues gebildet hat — so wie sich um das Jahr 1960 die Informatik an der Schnittstelle zwischen Mathematik und Elektrotechnik bildete. Anfangs wird dabei Informatik nur als Hilfsmittel und Werkzeug (Datenbanken, Visualisierung) verwendet, um Fragen der anderen Wissensdisziplin effizienter und schneller beantworten zu können. Die Durchdringung der beiden Disziplinen kann weiter fortschreitet und zu neuen Fragestellungen, Techniken und Methoden führen. Beispiele sind die Cheminformatik, Computerlinguistik, Geoinformatik, Medizininformatik und Neuroinformatik, am weitesten fort geschritten ist dieser post-interdisziplinäre Prozess im Bereich der Bioinformatik.

Die Bioinformatik verwendet bekannte und ersinnt neue Techniken der Informatik, der Mathematik und der Statistik, um damit biologische Probleme zu lösen. Der Fokus der wissenschaftlichen Arbeit kann dabei sowohl auf der Erforschung neuer informatischer und mathematischer Verfahren liegen, mit denen biologische Probleme gelöst werden sollen; als auch auf dem Zugewinn an biologischem Wissen, was durch Anwendung solcher Hilfsmittel generiert werden kann.

Als ein Beispiel bioinformatischer Forschung sei die Genomassemblierung genannt: Die Schrotschuss-Sequenzierung (shotgun sequencing) wurde zum ersten Mal im Jahre 1995 bei der Sequenzierung des Bakteriengenoms von Haemophilus influenzaeverwendet. In den Jahren 1998 bis 2001 sequenzierte die Firma Celera damit das menschliche Genom, und heute dominiert diese Technik die Genomsequenzierung. Die Schrotschuss-Sequenzierung erzeugt keine durchlaufende Sequenz des Genoms, sondern es werden die Sequenzen von Millionen von Bruchstücken bestimmt, jedes nur 600-800 Buchstaben (Nukleotide) lang. Diese Bruchstücke überlappen sich teilweise und können zu einem Genom zusammengesetzt werden — mit einer Länge von bis zu 3 Milliarden Buchstaben im Falle des menschlichen Genoms. Dies ist eine unmögliche Aufgabe für einen Menschen und eine äußerst schwere Aufgabe für einen Computer, die neben purer Rechenleistung und informatischen Werkzeugen wie beispielsweise verteiltem Rechnen insbesondere mathematische und stochastische Modelle sowie effiziente, auf das Problem abgestimmte Algorithmen erfordert.

picture:haemoglobin

Ist ein Genom sequenziert, so kennen wir die mehrere Milliarden lange Abfolge der Buchstaben A,C,G,T — aber was bedeutet diese Sequenz? Welche Teile kodieren Proteine und Enzyme, welche Teile regulieren die Erzeugung dieser Proteine, und welche Teile haben keine erkennbare Funktion? Die bioinformatische Disziplin der Genomannotierung beantwortet solche Fragen insbesondere mit stochastischen Methoden und Modellen, und reduziert die Arbeit für Experten der Molekularbiologie auf das Überprüfen und Validieren der Ergebnisse.

Scheinbar geringe Änderungen von Parametern können grundlegende Modifikationen der bioinformatischen Modelle und Algorithmen notwendig machen: Die neue 454-Sequenziertechnik erlaubt es, ein komplettes Bakteriengenom in nur 2 Tagen zu sequenzieren. Allerdings haben die sequenzierten Bruchstücke hier eine Länge von nur 80-100 Nukleotiden, was die statistischen Annahmen existierender Assemblieransätze verletzt und so grundlegend modifizierte oder gänzlich neue Ansätze und Algorithmen erzwingt. Ein Preisgeld von 10 Millionen Dollar winkt, wenn es gelingt, die Genome von 100 Menschen in 10 Tagen zu sequenzieren. Es ist davon auszugehen, dass in einigen Jahren das Genom eines Menschen für wenige tausend Euro sequenziert werden kann, und schließlich Teil seiner elektronischen Krankenakte sein wird. Damit wird nicht nur die Quantität der auswertbaren Daten erhöht, sondern diese Daten werden es uns ermöglichen, qualitativ neue medizinische und biologische Fragen zu beantworten. Dies wird nur möglich sein, wenn zu diesem Zeitpunkt bioinformatische Modelle und Algorithmen existieren, um diese Datenflut nicht nur zu verwalten, sondern die neuartige Struktur der Daten auszunutzen und zu analysieren. Als Beispiel sei die vergleichende Genomik genannt: Viele biologische Fragestellungen (wie die Genomannotierung) werden nicht etwa komplizierter, sondern einfacher, wenn wir uns nicht auf ein Genom beschränken, sondern die Sequenz weiterer Genome mit berücksichtigen.

picture:heatmapDie Bioinformatik ist eine dynamische Wissenschaft, getrieben insbesondere durch die kontinuierlichen Forstschritte in der Biotechnologie, die es erlauben, immer neue Aspekte der biochemischen Prozesse des Lebens zu beobachten und zu quantifizieren. Die Bioinformatik ist andererseits ein Eckpfeiler der Biotechnologie, beispielsweise in der Medikamentenforschung: Die Hälfte aller Medikamenten-Neuzulassungen kommen bereits aus dem Labor von Biotechnologie-Firmen (Der Spiegel vom 11.04.2005, S. 84ff). Als Beispiel sei das Programm BLAST genannt, das es erlaubt, kurze Sequenzschnipsel in einer Genomdatenbank effizient zu suchen, und das schnelle Textsuche mit exakter statistischer Bewertung verbindet: Pro Sekunde werden weltweit Millionen von BLAST-Anfragen gestellt, und der Name des Programms hat Einzug in die Sprache der Lebenswissenschaften (to blast something) gefunden.

Neben Assemblierung, Annotierung und vergleichender Genomik reichen die Arbeitsgebiete der Bioinformatik von der algorithmische Phylogenetik, Biodiversität, Gen- und Protein-Expressionsanalyse und Regulationsanalyse bis zur Systembiologie, die es sich zum Ziel gesetzt hat, die Gesamtheit der Prozesse in einer Zelle (oder einem Teilsystem davon) zu visualisieren, zu analysieren, und sie vorhersagen zu können, um sie schlussendlich zu verstehen. Jede dieser Disziplinen befindet sich kontinuierlich im Wandel, bedingt durch Menge, Art und Qualität der zur Verfügung stehenden Daten (die wiederum Ergebnis einer anderen bioinformatischen Disziplin sein können) sowie durch immer neuen biologischen und medizinischen Fragestellungen, die Forscher mit Hilfe dieser Daten beantworten wollen.

Die Bioinformatik ist mehr als ein bloßes Zusammenspiel von Biologie, Informatik und Statistik. Unbenommen teilt aber die Bioinformatik viele der Ansprüche, die an informatische Systeme gestellt werden: Verifikation ist insbesondere in der klinischen Anwendung unerlässlich, wenn ein Fehler die Gesundheit von Patienten bedrohen kann; Informationssicherheit wird für genomische Daten eines Patienten in Zukunft mindestens so wichtig sein, wie sie es in naher Zukunft für die Krankenakte ist. Schon jetzt müssen bioinformatische Algorithmen effizient sein, aber die Menge und Diversität biologischer Daten wächst schneller als Rechenleistung und Speichermenge von Computern. Maschinelles Lernen und Data Mining sind feste Größen im Kanon bioinformatischer Werkzeuge.

Sebastian Böcker, 25. Juni 2007