NGC Forskerservice

I NGC Forskerservice hjælper vi danske forskere med at få adgang til NGC Cloud og læseadgang til data i den nationale genomdatabase.

Forsker du i personlig medicin og udfører videnskabelige undersøgelser af væsentlig samfundsmæssig betydning i samarbejde med en dansk forskningsinstitution? Så har du mulighed for at søge om adgang til en NGC Cloud på den nationale infrastruktur for personlig medicin og om læseadgang til data i den nationale genomdatabase hos NGC Forskerservice.

Hvad tilbyder NGC Forskerservice?

NGC Forskerservice tilbyder forskere en skræddersyet cloud-løsning på den nationale infrastruktur for personlig medicin. Infrastrukturen består blandt andet af et nyt supercomputersystem, som kan lagre, behandle og analysere store mængder af sundhedsdata med den højeste grad af sikkerhed. Forskere kan anvende supercomputerens regnekraft gennem en skræddersyet NGC Cloud service.

En NGC Cloud service kan leveres enten som en NGC-managed Cloud eller en Self-managed Cloud. Du kan læse mere om de forskellige muligheder samt se eksempler nedenfor.

En NGC-managed Cloud er en løsning, hvor NGC hjælper med alt teknisk konfiguration og opsætning. NGC står for sikkerheden og administrerer projektets brugeradgange. Da internettet ikke kan tilgås på en NGC-managed cloud, står NGC for opsætning af miljøet efter forskningsprojektets behov og for den løbende installation og vedligeholdelse af software. Services udbygges løbende, således at de hele tiden matcher de behov, der måtte være i forskningsprojektet. Der kan gives adgang til NGC’s analyseplatform, hvor bl.a. genomdata kan sammenstilles med egne data, forudsat at projektet har indhentet de rette godkendelser.

På en NGC-managed Cloud sættes interaktive jobs i kø på supercomputeren efter behov, og der betales kun for de aktuelle compute timer, som bliver brugt. Du kan derfor nemt skrue op og ned for forbruget afhængigt af dit projekts konkrete behov for analysekapacitet og lagringskapacitet.

 

Eksempel på brug af NGC-managed Cloud

Projektets data består af WGS-data fra 500 individer i 30x dybde. Data gemmes i form af fastq-filer. Fastq fra en individ fylder i gennemsnit 150 GB. Derfor opbevarer projektet i alt 75 TB rå-data. I øjeblikket arbejder projektet kun med data fra 100 individer. Derfor har projektet valgt at opbevare deres data i hhv. storage og archive. 15 TB (100 individer * 150 GB data) af projektets data bliver opbevaret i den aktive storage og analyseres løbende. De resterende 60 TB (400 individer * 150 GB data) er lagt i archive, hvor de i øjeblikket blot opbevares uden at blive behandlet. På denne måde optimerer projektet deres forbrug af midler. Hvis der skulle blive brug for at køre analyser på data opbevaret i archive, kan disse flyttes til storage. Projektet benytter en standard bioinformatisk pipeline til at bearbejde deres data. Det tager ca. 460 CPU-timer at køre én individs data igennem pipelinen. I alt vil projektet bruge 46.000 CPU-timer i perioden (460 individer * 100 CPU-timer). Projektet anvender kun Thin Nodes, da disse er egnet til at køre flere analyser parallelt på serverens mange CPU-kerner.

En Self-managed Cloud er tiltænkt projekter, der har brug for tilpasset beregningskapacitet og lagringsplads. Brugerne får med denne løsning mulighed for selv at sætte et skræddersyet cloud-miljø op. Denne ydelse omfatter i udgangspunktet kun infrastrukturservices. NGC etablerer således en cloud, men leverer ikke hjælp til opsætning og tilpasning af clouden med mindre dette er særskilt aftalt.

Det er dit projekts data manager og IT-afdeling, der styrer jeres Self-managed Cloud. I har derfor selv mulighed for at administrere brugeradgange samt styre installation og vedligeholdelse af software. Med en Self-managed Cloud er det også muligt at tilgå internettet.

 

Eksempel på brug af Self-managed cloud

Projektet arbejder med ”big data” bestående af flere tusinde variabler fra de offentlige registre, patientjournaler og billeddata. Samlet set fylder projektets data 400 TB. Projektet kører regelmæssige tunge beregninger, der kræver parallelisering og store mængder af RAM. Projektet udnytter også GPU'er i forbindelse med machine learning analyser af projektets billeddata. Derfor har projektet valgt en Self-managed Cloud løsning, hvor de har eget dedikeret beregningskapacitet og fuldt råderum over projektets servere. Projektet skal køre i tre år. Det første år har projektet valgt at få tildelt fire dedikerede Thin Nodes, to Fat Nodes og syv GPU nodes. De betaler en fast månedspris, hvor projektet frit kan benytte disse servere efter behov. Når projektet er færdigt med at bearbejde data og skal i gang med at benytte deres modeller, skaleres deres bestilling ned til fire Thin Nodes og én GPU node.

Genetiske data fra omfattende genetiske analyser, der er indsamlet i forbindelse med behandling eller forskning i sundhedsvæsenet efter 1. juli 2019, skal indberettes til Nationalt Genom Center og opbevares i den nationale genomdatabase. Forskere vil kunne søge om læseadgang til oplysningerne i genomdatabasen i forbindelse med videnskabelige undersøgelser inden for personlig medicin. Vi forventer, at læseadgang til data i den nationale genomdatabase bliver tilgængelig primo 2023, hvor vi offentliggør og beskriver processen her på siden.