Verdens smarteste løsning for verdens største datamengder

Verdens smarteste løsning for verdens største datamengder

09.03.2018
Partikkelakseleratoren Large Hadron Collider ved CERN er verdens største og mest komplekse forskningsanlegg, som også genererer verdens største datamengder. Det betyr at anlegget også trenger ekstremt smarte løsninger for håndtering, analysering og lagring av data, og en av de smarteste løsningene er resultatet av et nordisk samarbeid.

Det nyeste tilskuddet til det enorme forskningsanlegget ved Den europeiske organisasjonen for kjernefysisk forskning (CERN, på fransk Conseil Européen pour la Recherche Nucléaire) utenfor Genève i Sveits heter Large Hadron Collider (LHC), og ble tatt i bruk i 2008. Ved LHC kan forskere teste forskjellige teorier om partikkelfysikk, hovedsakelig ved å akselerere stråler av protoner eller blyatomkjerner opp til nesten lysets hastighet. Når protonene eller atomkjernene har nådd topphastigheten og er blitt svært energirike, sørger forskerne for at de kolliderer – og så kartlegger de hvilke nye og merkelige partikler som dannes.

Produserer enorme datamengder

LHC er et ekstremt avansert og komplisert forskningsanlegg, og de sju sensorene og instrumentene som overvåker anlegget produserer enorme mengder data. I dag produserer LHC-anlegget flere hundre petabytes (1015 bytes) per år, og produksjonen forventes å øke ytterligere – med 10 til 100 ganger – i nær fremtid. De enorme datamengdene er årsaken til at CERN og LHC trenger det som kalles Worldwide LHC Computing Grid (WLCG), og som er akkurat det navnet innebærer: Et verdensomspennende samarbeid mellom databehandlingssentre i mange land, som er knyttet sammen gjennom nasjonale og internasjonale nettinfrastrukturer.

– Strukturen med et stort antall distribuerte datasentre ble valgt fordi ingen enkeltstående institusjon ville ha vært i stand til å motta, lagre og behandle den totale produksjonen av data som kommer fra CERN og LHC, forklarer Mattias Wadenstein. Han er High Performance Computing-ekspert i Nordic e-Infrastructure Collaboration (NeIC) og leder for den nordiske delen av WLGC-samarbeidet.

WLGC-nettverket består av fire nivåer eller tiers, som det heter på engelsk, hvorav Tier 0 er CERNs eget datasenter – som er fordelt mellom Sveits og Ungarn. Alle dataene fra LHC må passere gjennom dette sentrale knutepunktet, som likevel leverer mindre enn 20 prosent av WLGC-nettverkets totale databehandlingskapasitet.

En nordisk modell for fremtide

Mattias Wadenstein jobber i WLGCs Tier 1, som består av 13 datasentre i Europa, Nord-Amerika og Øst-Asia. Disse sentrene leverer støttefunksjoner, lagrer rådata, og utfører storskala databehandling samt lagrer resultatdataene. Datasentrene i Tier 1 har også ansvaret for å distribuere data til Tier 2-institusjoner, som typisk er universiteter og andre vitenskapelige institusjoner som lagrer store datamengder til eget bruk og leverer datakraft til forskere som skal utføre spesifikke analyser.

Ett av de 13 Tier 1-sentrene ligger i Norden, og utad fungerer det akkurat som alle de andre sentrene på samme nivå. Men et nærmere ettersyn avslører det vi må kunne kalle meta-distribuering: Det nordiske Tier 1-senteret, som altså er en del av CERNs globale og distribuerte Tier 1-nettverk, er også et distribuert nettverk. Det består nemlig av databehandlings- og lagringsanlegg ved universitetene i både Oslo og Bergen i Norge, Linköping og Umeå i Sverige, Espoo i Finland og København i Danmark.

– Det nordiske anlegget er faktisk blant de mindre Tier 1-anleggene, men det er likevel et enormt foretak. Men det mest interessante ved anlegget vårt er at den distribuerte strukturen har fungert så bra at den nå ses som en modell for fremtiden, forklarer Wadenstein.

Wadenstein støtter seg til en nylig evaluering fra den spanske datainfrastruktureksperten Josep Flix, som har påpekt at den nordiske modellen bygger på unik kompetanse og kan fungere som et forbilde for tilsvarende datasentre rundt om i verden. Ifølge evalueringsrapporten kan det til og med være helt nødvendig å kopiere og videreutvikle den nordiske distribuerte modellen, hvis det verdensomspennende LHC-nettverket skal bli i stand til å håndtere enda større datamengder fra CERN i fremtiden.

Et svar på kommende utfordringer

Et av kravene CERN stiller til sine Tier 1-sentre, er at de skal fremstå som enhetlige sentre. Teamet bak det nordiske senteret la derfor stor vekt på å utvikle en løsning som «gjemmer» den distribuerte oppbygningen mellom fire land på en effektiv måte. Wadenstein forteller at dette var en utfordring, som bare kunne løses ved å rekruttere høykompetente medarbeidere som fikk ressurser til å utvikle og vedlikeholde anlegget.

– En av fordelene med den nordiske strukturen er den nasjonale samfinansieringen, som kompenserer for noen av de ekstra kostnadene som kommer på grunn av den distribuerte strukturen. I tillegg fører strukturen til at mange mennesker med høy kompetanse får tettere tilknytning til flere universiteter enn det som ellers ville vært tilfelle, forklarer han.

– Etter min mening er dette et glimrende eksempel på et nordisk samarbeid, som har gjort det mulig å motta, lagre og behandle store datastrømmer. Nøkkelen til suksessen er en kombinasjon av gode rutiner, en teknisk plattform av høy kvalitet, og en kontinuerlig utvikling av den åpne kildekodeprogramvaren som vi er helt avhengige av, sier Wadenstein.

Leter etter nåla i høystakken

LHC ble satt i drift i september 2008 og oppnådde sin største suksess så langt i 2013 med påvisningen av Higgs-bosonet, som er en av de mest grunnleggende bestanddelene i universet. Oppdagelsen åpnet for helt ny forskning som i fremtiden kan gi ny kunnskap om hvor stabilt universet vårt er, hvorfor universet tilsynelatende inneholder mye mer materie enn antimaterie, hvordan den mørke materien er fordelt og sammensatt, og så videre.

Mattias Wadenstein understreker at forskerne ved CERN og LHC «kaster bort» mer enn 99,9 prosent av dataene fra forsøkene sine, fordi de bare er interessert i å observere kollisjoner og spesielle hendelser mellom partiklene de forsker på. De leter etter «nåla i høystakken», og da har de ikke bruk for informasjon om høyet i stakken – bare om nålene, som gir fra seg informasjon når de kolliderer. Men den gjenværende datamengden som ikke blir kastet, og som altså utgjør mindre enn 0,1 prosent av totalen, er fortsatt enorm.

LHC-maskinen blir av og til tatt ned for oppgradering. Den foreløpig siste oppgraderingen ble gjort i 2015, og den var så vellykket at forsøkene kort tid etter igangkjøringen begynte å generere mer enn dobbelt så store datamengder som Tier 1-anleggene var forberedt på. Dette var selvsagt en utfordring, som det nordiske anlegget løste på strak arm.

En av de store fordelene ved det distribuerte nordiske oppsettet er nemlig, ifølge Wadenstein, at anlegget er meget skalerbart. Han regner derfor med at det nordiske anlegget er godt rustet til å møte kommende utfordringer. CERN planlegger blant annet en LHC-oppgradering i 2022, og den kan føre til at datamengdene som skal distribueres, lagres og behandles kan bli 100 ganger større enn i dag.

– Jeg føler meg trygg på at vi skal klare å møte den utfordringen, sier Wadenstein. 

 

Tekst: Bjarne Røsjø

Foto: Terje Heiestad

Artiklen har tidligere været publiceret i NordForsk Magasin 2017

Åpne utlysninger Subscribe to rss feed of calls for proposals
Vi har for øyeblikket ingen åpne utlysninger
Nyhetsbrev

Hold deg oppdatert på nyheter om våre aktiviteter og utlysninger gjennom vårt nyhetsbrev på e-post.

Abonnér her