The Nordic Language Processing Laboratory (NLPL)

The Nordic Language Processing Laboratory (NLPL)

04.05.2018
På Nordic Language Processing Laboratory (NLPL), et nordisk forskningssamarbejde i regi af Nordic e-Infrastructure Collaboration (NeIC), arbejder man med at uddanne næste generation af forskere, der arbejder med den sprogteknologi, som danner grundlag for blandt andet Google Translate og Apple’s talegenkendelsesprogram, Siri.

The Nordic Language Processing Laboratory (NLPL) er et 3-årigt projekt i regi af Nordic e-Infrastructure Collaboration (NeIC), som arbejder med sprogteknologi, eller ”Natural Language Processing” (NLP).

Sprogteknologi er et tværfelt mellem datalogi, kunstig intelligens og lingvistik, der handler om behandling af naturlige sprog, såsom dansk og engelsk, ved hjælp af computere. Og hos Nordic Language Processing Laboratory (NLPL), arbejder man med den e-infrastruktur, som ligger bag sprogteknologiforskningen.

Visionen er at implementere et virtuelt, nordisk laboratorium for sprogteknologi ved at udvikle innovative metoder til at dele ‘high-performance computing’-dataressourcer på tværs af de nordiske landegrænser. Det skal blandt andet ske ved at samle kompetencerne fra respektive ‘user communities’ og eksperter på området, som skal kunne gennemføre datatunge eksperimenter i en skala, der ellers ikke ville være mulige med almindelige computerressourcer.

Bjørn Lindi NeiC- De, der arbejder med denne infrastruktur, har en teknisk baggrund og er ikke lingvister i traditionel forstand. De er i stedet optagede af at udvikle softwareværktøjer, som benyttes indenfor lingvistik, forklarer Bjørn Lindi, der til daglig er forskningssoftwareingeniør ved sektion for IT-udvikling på NTNU og projektleder for NLPL.

- Sprogteknologi møder vi med eksempelvis Siri og Google Translate. En vigtig komponent i værktøjer som disse er talegenkendelse ved hjælp af signalprocessering, men også at forstå indholdet af, hvad du har sagt. I NLPL arbejder vi med at forbedre infrastrukturen, som benyttes i sprogteknologien, fortsætter han.

Behov for e-infrastruktur indenfor sprogteknologi
Det nordiske NLPL-projekt udspringer fra et behov for at bygge en sammenhængende e-infrastruktur på området, og projektet har til formål at lære forskere i sprogteknologi at benytte bedre værktøjer og blive mere produktive, når de udvikler og bruger software. Da Universitetet i Oslo begyndte at benytte High Performance Computing (HPC), indså man, at en forbedret infrastruktur på området ville føre til mere samarbejde og dermed give endnu bedre sprogteknologiforskning i hele Norden.

- NLPL har en opbygning, der primært er tiltænkt PhD-studenter, førsteamanuenser og professorer. Vores opgave er at sørge for, at de, der arbejder med sprogteknologi, har de nødvendige værktøjer, og at disse værktøjer er let tilgængelige, fortæller Bjørn Lindi og uddyber:

- I vores arbejde med infrastrukturen benytter vi blandt andet noget, som kaldes corpora. Corpora er ordsamlinger med sammenhængende tekster, der blandt andet benyttes til maskinoversættelser og parsing, som betyder sætningsanalyse. Det vil sige, man deler en sætning op i enkeltord for at klassificere et ord eller sammensatte ord. Helt praktisk benyttes dette for eksempel i CRM- og kundehåndteringssystemer, hvor du vil gerne vide, om en kunde er sur eller tilfreds. Målet er altså at udvikle tekniske sprogværktøjer, som kan hjælpe med at forstå, hvad kunden føler, eller om kunden er helt neutral.

Målet er et mere enhedsbaseret miljø
En af målsætningen med projektet er, at Norden skal være internationalt konkurrencedygtige. Store aktører såsom Facebook, Google og Amazon har iværksat initiativer og projekter indenfor dette felt, og de har langt større ressourcer end mange af forskerne har.

- De nordiske lande er relativt godt udstyrede med HPC-ressourcer. Vores opgave er at organisere computerressourcer, software og data, så vi styrker sprogteknologimiljøerne. Dermed vil de, der praktisk arbejder med dette til hverdag, opleve færre friktioner og kan løse de problemstillinger, de stilles overfor, på en endnu bedre måde, siger Bjørn Lindi og fortsætter:

- Målet er desuden at vi får et mere enhedsbaseret miljø, hvor man slipper for at have alt installeret lokalt på en bærbar computer eller en lokal server. Man skal med andre ord kunne arbejde smidigt med sprogteknologi uanset, om man er fysisk lokaliseret i for eksempel Oslo eller Helsinki. Ved at samle og gøre forskningen tilgængelige på ét sted, fremfor at man lægger dem på Dropbox eller sender et link, slutter Bjørn Lindi.

Vinterskolen

I forbindelse med det årlige NeIC "All Hands Meeting" i januar 2018 afholdt Nordic Language Processing Laboratory også en vinterskole, hvor temaet var “E-Infrastructure and Scientific Computing for Nordic Natural Language Processing Research”.

De cirka 25 deltagere kom fra 6 forskellige universiteter og bestod af blandt andet NLPL-teammedlemmer, PhD-studenter og eksterne forskningspartnere – alle med IT- og computervidenskabelig baggrund.

- Vinterskolen bestod i år af forskellige aktiviteter som for eksempel workshops om GPU-programmering med fokus på Taito og Abel og andre videnskabelige programmerings- og HPC-teknikker. Desuden afholdt vi tutorials i dele af NLPL-infrastrukturen som for eksempel oversættelse, parsing, corpora-relaterede temaer og andre ting med relevans for projektet, forklarer Bjørn Lindi.

Vinterskolen fik også besøg af to instruktører fra en stor og populær sommerskole, Lisboa Machine Learning School (LxML), André Martins and Ramon Fernandez Astudillo, som underviste i nye metoder indenfor ”machine learning”; Det vil sige en teknologi, der handler om, hvordan man computere bliver bedre til at lære at processere tekst, som kan benyttes indenfor Natural Language Processing.

FAKTA OM PROJEKTET

  • Projektleder for NLPL: Bjørn Lindi. Tilknyttet NTNU i Trondheim. Har arbejdet med HPC siden 2004
  • Projektperiode: 2017-01-01 — 2019-12-31

Projektpartnere

  • Universitetet i Oslo (UiO)
  • Københavns Universitet
  • Uppsala universitet
  • Helsingfors universitet (UoH)
  • Åbo universitet (UoT)
  • CSC-IT Center for Science Ltd., (CSC)
  • UNINETT Sigma2 AS
  • IT-Universitetet i København
  • Nordic e-Infrastructure Collaboration (NeIC)

Tekst: Jakob Chortsen

Foto av Bjørn Lindi: Terje Heiestad 

Header foto: Pexels.com

Nyhetsbrev

Hold deg oppdatert på nyheter om våre aktiviteter og utlysninger gjennom vårt nyhetsbrev på e-post.

Abonnér her

Facebook