Innerhalb der letzten zehn Jahre sind die Kosten für das Auslesen einer DNA, die sogenannte Genom-Sequenzierung, massiv gesunken – von 10 Milliarden Dollar 2008 auf heute etwa 600 Dollar. Parallel stieg Menge der durchgeführten Analysen von einigen wenigen auf heuer 1,5 Millionen. Für Wissenschaftler eröffneten sich so neue Dimensionen der Forschung. Leider aber sind die Daten etwas unhandlich.
Ein einzelnes menschliches Genom belegt nämlich zwischen 30 und 100 GB. Grossangelegte Forschungsprojekte mit tausenden Teilnehmern erreichen deshalb leicht Grössenordnungen im Tera- bis Petabyte-Bereich – das sprichwörtliche Big Data. Dies ist auf zwei Ebenen relevant: Kosten und Datenmanagement. «Kostentechnisch geht es für die Forschung heute vor allem um Aufbewahrungskosten, denn die Sequenzierung wird immer günstiger – 100 Dollar sind realistisch», meint Genomsys-CTO und -Mitgründer Claudio Alberti. Auf Ebene des Datenmanagements geht es vor allem um die Bereitstellung der richtigen Daten. Denn je nach Untersuchung sind nur Teile der DNA relevant.
Ein neues Format als Schlüssel
Eine Lösung bietet das EPFL-Spin-off Genomsys. Das Unternehmen bietet Forschern, Krankenhäusern, Laboren und anderen die Möglichkeit, Daten effizient zu speichern, zu verwalten, zu teilen und vieles mehr. Der Clou dabei ist die Konvertierung in den neuen Kompressionsstandard MPEG-G.
Wer dabei an Musik oder Video denkt, ist auf der richtigen Spur. Durch die Kompression werden die Genom-Daten nicht nur handlicher, sondern auch in standardisierte Pakete zerlegt. Diese wiederum können gezielt für Untersuchungen bereitgestellt werden. «Je nach Forschungsziel sind nur bestimmte Regionen der DNA interessant. Mit MPEG-G ist es leicht, nur die jeweils relevanten Daten zu verwenden – zum Beispiel für die Krebsforschung», erklärt Claudio Alberti. Da die Daten in der Cloud liegen, heisst Bereitstellung hier effektiv Streaming. Dies erlaubt nicht nur vergleichsweise schnelle Abfragen, sondern auch die Anonymisierung der Daten.
Zum Schutz der Privatsphäre können so die individuell identifizierenden Elemente der DNA zurückbehalten werden, während der Rest der Forschung zur Verfügung steht. Dies ist auch ein Zukunftsthema im Bereich Personalized Medicine: Genomsys entwickelt zurzeit eine App, die es Individuen ermöglicht, genau zu bestimmen, wozu ihre Daten verwendet werden und von wem.
Daten teilen und streamen
Diese Zukunftsmusik hat bereits konkrete Anwendungen – denn das Datenteilen ist für grosse Kunden schon jetzt möglich. «Unsere Kunden können ihre Daten für andere Forschungsprojekte zur Verfügung stellen», sagt Claudio Alberti. Das ist keineswegs Pflicht. Jeder Kunde hat seinen eigenen Daten-Cluster. Doch eröffnet das Teilen der Daten viele Möglichkeiten. «Wer nur in Richtung Krebs forscht, kann ohne Wettbewerbsnachteile die einmal sequenzierten Daten mit anderen Forschungseinrichtungen teilen – gratis oder gegen Gebühr», so Alberti. Genomsys integriert ausserdem die Daten öffentlicher Einrichtungen wie Genbank oder European Nucleotide Archive und macht diese so für seine Kunden zugänglich.
Gegründet wurde das Unternehmen 2016. Zunächst lag der Fokus auf der Entwicklung von MPEG-G. Dabei wurde von Anfang an Wert auf die Schaffung eines offenen Standards gelegt, der mittlerweile auch ISO-zertifiziert ist. «Zuvor gab es keinen ISO-Standard für die Kompression und Verteilung von Genomdaten. Mit MPEG-G haben wir ein Plus für die ganze Branche geschaffen», so Alberti. Für Genomsys war es definitiv der richtige Schritt: Mittlerweile wurde aus Überlegungen zur technischen Machbarkeit ein Unternehmen mit 15 Personen, das auf dem Radar internationaler Investoren aufgetaucht ist. Mitte 2019 konnte das Start-up 9,3 Millionen Franken im Rahmen einer Series A aufnehmen. Anfang 2020 wurden neue Büros auf dem Biopôle-Campus für Life Sciences in Lausanne bezogen. Jetzt gilt es, weitere Kunden zu akquirieren und MPEG-G als Standard international zu verankern.