Evaluering av tildelingskriteriene
Hvordan pris, tallfestede forhold og kvalitative forskjeller omsettes til en lovlig og faglig forsvarlig rangering. Kapitlet handler om selve evalueringen, ikke om innsyn, klage eller etterfølgende kontroll.
Snakk om evalueringen
Still spørsmål om pris, kvalitative eller kvantitative kriterier, poengmetoder, normalisering eller prissetting av kvalitet.
Dette kapitlet handler om selve evalueringen: hvordan pris, tallfestede forhold og kvalitative forskjeller omsettes til en lovlig og faglig forsvarlig rangering. Kapitlet er skrevet som en metodebok innenfor de rettslige rammene, ikke som en generell fremstilling av begrunnelse, innsyn eller klagebehandling.
3.1 Evalueringsmodellen som beslutningsmaskin
Problemet i praksis
De fleste oppdragsgivere bruker mye tid på å formulere tildelingskriterier og kravspesifikasjoner, men langt mindre på å forstå maskineriet som oversetter tilbudene til en rangering. Evalueringsmodellen behandles ofte som en teknisk ettermontering – noe som legges til etter at de store valgene er tatt. Det er en farlig undervurdering. Modellen er ikke pynt rundt skjønnet; den er selve mekanismen som bestemmer hvem som vinner. Velger du feil modell, kan du ende opp med feil vinner selv om hvert enkelt skjønn virker rimelig isolert sett.
Poenget kan illustreres med et hverdagslig bilde. Tenk deg at fem kokker lager sin beste rett. Du bedømmer smak, presentasjon og råvarers bærekraft. Hver enkelt bedømmelse er helt forsvarlig. Men om du summerer poengene med en formel som i praksis gjør smak irrelevant – fordi den komprimerer smaksforskjeller til null – har du kåret «vinneren av bærekraft», ikke «den beste retten». Maskinen – formelen, skalaen, vektingen, sammenstillingen – bestemmer utfallet like mye som dommerne.
Denne innsikten er ikke ny, men den glemmes påfallende ofte i praksis. Resultatet er konkurranser som avlyses, tildelinger som omgjøres, og millionbeløp som renner bort i forsinkelser og rettsprosesser – ikke fordi noen var uærlige, men fordi modellen ikke var gjennomtenkt.
De fem komponentene i en evalueringsmodell
Mange praktikere bruker «evalueringsmodell» som et samlebegrep uten å skille mellom de ulike delene som inngår. Det gjør det vanskelig å identifisere hvor en feil oppstår og hvordan den kan rettes. En komplett evalueringsmodell består av minst fem distinkte komponenter, og det er avgjørende å forstå hva hver av dem gjør:
1. Tildelingskriterium. Tildelingskriteriet er det overordnede vurderingstemaet som oppdragsgiver har valgt å legge vekt på – for eksempel «pris», «kvalitet på gjennomføringsplan» eller «miljø». Det er kriteriet som forteller leverandøren hva som teller. Kriteriet må ha tilknytning til leveransen, jf. FOA § 18-1 (4) for anskaffelser etter del III og § 8-11 (2) for del II. EU-domstolen har i sak C-19/00 (SIAC Construction) slått fast at kriteriene må være egnet til å identifisere det beste tilbudet. Tildelingskriteriet definerer temaet for bedømmelsen – ikke hvordan bedømmelsen gjennomføres.
2. Dokumentasjonskrav. Dokumentasjonskravet forteller leverandøren hva som skal leveres inn som grunnlag for vurderingen. Det kan være en gjennomføringsplan på maksimalt ti sider, en referanseliste med tre prosjekter, et utfylt prisskjema med enhetspriser per kategori, eller et miljøreduseringsregnskap for CO₂. Dokumentasjonskravet er den fysiske broen mellom tildelingskriteriet og tilbudet – det bestemmer hva oppdragsgiver faktisk får å vurdere.
Dokumentasjonskravets betydning for evalueringsmodellen undervurderes systematisk. I KOFA 2024/0138 konstaterte nemnda brudd på forutberegnelighetskravet fordi prisskjemaet var uklart. Leverandørene visste ikke hva de skulle fylle ut eller hvordan det ville bli brukt. Prisskjemaet er en del av evalueringsmodellen, og er det uklart, er det oppdragsgivers ansvar. Det er ikke nok at du vet hva du mente – det må være klart for en alminnelig aktsom leverandør.
I KOFA 2025/0657 (Hå kommune) illustreres den positive effekten: Under tildelingskriteriet «Miljø» etterspurte dokumentasjonskravet spesifikt CO₂-reduksjon. Selv om ordet «miljø» i seg selv var vagt, ble evalueringsrammen innsnevret til ett bestemt miljøtema fordi det var dette dokumentasjonskravet etterspurte. Leverandørene hadde dermed tilstrekkelig veiledning. Dokumentasjonskravet fungerte som en presiserende mekanisme for hele tildelingskriteriet.
3. Evalueringsmetode. Evalueringsmetoden er fremgangsmåten oppdragsgiver bruker for å bedømme det innleverte materialet. For kvalitative kriterier kan det innebære at et evalueringspanel leser gjennomføringsplaner og vurderer dem mot en skala. For kvantitative kriterier kan det innebære en matematisk beregning, som å summere enhetspriser ganget med estimerte volumer. For pris kan det innebære at oppdragsgiver beregner en evalueringssum basert på oppgitte enhetspriser og estimerte mengder.
Evalueringsmetoden er ofte den delen av modellen som skaper størst problemer, fordi den kan endre hva som faktisk måles. I KOFA 2012/63 (Universitetet i Tromsø) evaluerte oppdragsgiver gjennomsnittspriser på tvers av kategorier uten å vekte etter volum. Nemnda konstaterte at «den eneste prisen UiT evaluerte var gjennomsnittsprisen – verken en pris noen tilbyder hadde tilbudt, eller en pris UiT ville komme til å betale». Evalueringsmetoden – gjennomsnittsprisberegningen – skapte en kunstig størrelse som ikke reflekterte noen reell kostnad. Modellen var ikke egnet til å premiere relevante prisforskjeller.
4. Poengregel (eller uttellingsregel). Poengregelen bestemmer hvordan en bedømmelse omsettes til et tall. For priskriterier kan dette være en lineær formel (laveste pris får 10 poeng, øvrige skaleres forholdsmessig), en absolutt modell med faste prisintervaller (to millioner kroner per poeng, som i KOFA 2024/0963), eller en trappetrinnsmodell. For kvalitetskriterier kan det være en poengskala fra 0 til 10, med eller uten typebeskrivelser som forklarer hva som kjennetegner hvert nivå.
Poengregelen er ikke det samme som evalueringsmetoden. Evalueringsmetoden sier hvordan du bedømmer; poengregelen sier hvordan du konverterer bedømmelsen til et tall. Forskjellen er viktig fordi to oppdragsgivere kan bruke samme evalueringsmetode (for eksempel panelvurdering av gjennomføringsplaner) men ulike poengregler (den ene bruker 1–5 med halvpoeng, den andre 0–10 med typebeskrivelser), og utfallene kan bli markant forskjellige.
I KOFA 2025/0160 beskrev oppdragsgiver at «kvalitet» skulle evalueres, men ikke hvordan. Nemnda var klar: «Vi vurderer kvalitet» er en overskrift, ikke en evalueringsmodell. Leverandøren må forstå hva som skiller 3 poeng fra 7 poeng. Resultatet ble at kvalitetskriteriet var ulovlig og konkurransen avlysningspliktig.
5. Sammenstillingsregel. Sammenstillingsregelen bestemmer hvordan poengene eller verdiene fra de ulike tildelingskriteriene kombineres til en endelig rangering. I en poengmodell vil dette typisk være en vektet sum: totalpoeng = (prispoeng × prisvekt) + (kvalitetspoeng × kvalitetsvekt). I en prissettingsmodell er sammenstillingen annerledes: evaluert pris = tilbudt pris − fiktive prisfradrag for kvalitet. Vinneren er tilbudet med lavest evaluert pris.
Sammenstillingsregelen er den siste – og ofte den mest kritiske – komponenten. Det er her de utilsiktede vektingseffektene oppstår. Når ulike poengregler brukes for pris og kvalitet, kan den reelle vekten avvike fra den formelle. I KOFA 2011/201 brukte oppdragsgiver ulike poengmetoder for pris og kvalitet/miljø. Den matematiske konsekvensen var at priskriteriet ble reelt vektet 63 prosent, selv om oppgitt vekt var 60 prosent. Nemnda konstaterte brudd på forutberegnelighetskravet.
Tilsvarende i KOFA 2023/150: En delpost med lav økonomisk betydning fikk uforholdsmessig innflytelse på totalrangeringen fordi sammenstillingsregelen ikke korrigerte for volum. Modellens aggregeringslogikk endret den faktiske vektingen uten at noen hadde tatt en bevisst beslutning om det.
Tabellen under oppsummerer de fem komponentene:
| Komponent | Spørsmål den besvarer | Eksempel |
|---|---|---|
| Tildelingskriterium | Hva teller? | «Kvalitet på gjennomføringsplan», vektet 40 % |
| Dokumentasjonskrav | Hva skal leverandøren levere? | «Gjennomføringsplan, maks 10 sider, som beskriver…» |
| Evalueringsmetode | Hvordan bedømmes innlevert materiale? | Panel på tre fagpersoner leser og vurderer mot angitte momenter |
| Poengregel | Hvordan omsettes bedømmelsen til tall? | Skala 0–10 med typebeskrivelser per trinn |
| Sammenstillingsregel | Hvordan kombineres tallene til rangering? | Vektet sum: Σ (poeng × vekt) |
Den praktiske verdien av denne oppdelingen er at den hjelper oppdragsgiver med å identifisere hvor en feil oppstår. Når en konkurranse klages inn, er det ofte fordi oppdragsgiver har forvekslet to av komponentene: dokumentasjonskravet var utformet som et minstekrav, men evalueringsmetoden behandlet det som et tildelingskriterium. Eller: poengregelen fungerte annerledes enn det sammenstillingsregelen forutsatte. Å forstå komponentene hver for seg er forutsetningen for å bygge en modell som henger sammen.
Modellen må være valgt og forstått før tilbudene er kjent
Tidspunktet for modellvalget er ikke et formalistisk poeng – det er et rettskrav med direkte konsekvens for hele evalueringens legitimitet.
Det rettslige kravet. EU-domstolen har i sak C-6/15 (Dimarso) avsnitt 31 slått fast at evalueringsmodellen må være fastlagt før tilbudsåpning. Domstolen begrunner kravet med likebehandlingsprinsippet og faren for favorisering av bestemte tilbydere dersom modellen kan fastsettes etter at tilbudene er kjent. KOFA har konsekvent fulgt opp dette. I KOFA 2017/21 (Eksportkreditt Norge) fastsatte oppdragsgiver en ny evalueringsmodell for priskriteriet etter at tilbudene var mottatt. Nemnda fant at modellen «ikke kunne rettes uten å kompromittere prosessens integritet» og konkurransen var avlysningspliktig. I KOFA 2018/80 (Bane NOR) ble den innbyrdes vektingen av tre priselementer først fastsatt etter tilbudsåpning, og nemnda konstaterte brudd.
Kravet har også en positiv side som er like viktig: Når oppdragsgiver tvinges til å velge modell før tilbudene er kjent, reduseres faren for – bevisst eller ubevisst – å tilpasse modellen til et ønsket resultat. Modellen blir en forhåndsbinding som beskytter både leverandørene og oppdragsgiver selv.
Det innkjøpsfaglige kravet. Men det er ikke nok å ha valgt en modell på forhånd – du må også ha forstått den. Mange oppdragsgivere velger en modell fra en mal eller veileder uten å teste hva den gjør med realistiske tilbud. Resultatet er at modellen produserer overraskelser etter tilbudsåpning som ikke kan repareres.
I KOFA 2022/881 (Sporveien AS) hadde oppdragsgiver opplyst evalueringsmodellen for kostnad i konkurransegrunnlaget. Etter første tilbudsrunde innså man at modellen fungerte dårlig, og endret den. KOFA avviste dette: Terskelen for å sette en forhåndsmeddelt evalueringsmodell til side er «meget høy». At modellen viser seg uegnet, gir ikke adgang til endring – det utløser avlysningsplikt. Poenget er brutalt: Hadde oppdragsgiver testet modellen med realistiske tilbud før publisering, ville problemet vært oppdaget i tide.
DFØs veileder i evaluering av tilbud anbefaler at oppdragsgiver skal ha besluttet sitt valg av evalueringsmodell før åpning av tilbudene, og at oppdragsgiver bør dokumentere hvilken modell som ble valgt og når den ble valgt. Dokumentasjonen er viktig: Dersom det i ettertid oppstår tvil om modellen ble fastsatt før tilbudsåpning, er det oppdragsgiver som bærer risikoen for manglende dokumentasjon.
Det praktiske grepet. For å sikre at modellen ikke bare er valgt, men også forstått, bør evalueringsmodellen gjennomgås med evalueringspanelet før tilbudene åpnes. Paneldeltakerne må forstå:
- Hvilken skala som brukes og hva hvert trinn betyr
- Hvilke momenter de skal vurdere under hvert kriterium
- Hvordan poengene vil bli vektet og sammenstilt
- At de ikke kan endre metode underveis
Hvis evalueringspanelet ikke kan forklare mekanismen tilbake til deg, er den ikke forstått. Og en modell som ikke er forstått av dem som skal bruke den, er i praksis en modell uten kontroll.
Forskjellen mellom rettslig lovlig og faglig god
Evalueringsmodellen befinner seg i skjæringspunktet mellom juss og innkjøpsfag. Det er fullt mulig at en modell er rettslig lovlig – i den forstand at den ikke bryter noen konkret bestemmelse eller prinsipp – men likevel er faglig dårlig, i den forstand at den ikke identifiserer det tilbudet som faktisk gir best verdi for pengene.
Terskelen for rettslig underkjennelse er høy. KOFA har gjentatte ganger uttalt at valg av evalueringsmodell ligger innenfor oppdragsgivers innkjøpsfaglige skjønn, og at dette skjønnet bare i begrenset grad kan overprøves rettslig. I sak 2017/114 uttalte nemnda dette uttrykkelig. DFØs utkast til veileder oppsummerer rettstilstanden slik: «En evalueringsmodell vil etter omstendighetene kunne underkjennes som uegnet, men terskelen for dette er høy, jf. klagenemndas sak 2018/238, premiss 34. Risiko for at den valgte modellen ikke gir oppdragsgiver det økonomisk mest fordelaktige tilbudet, er ikke tilstrekkelig, jf. klagenemndas avgjørelse i sak 2017/103.»
Dette betyr at oppdragsgiver kan velge en modell som sannsynligvis ikke gir det beste resultatet, uten at modellen av den grunn er ulovlig. Det er et betydelig gap mellom «rettslig holdbar» og «faglig god».
Faglig dårlige modeller som har bestått rettslig prøving. Et godt eksempel er gjennomsnittsprismodeller i tilfeller der de ikke har blitt underkjent. I KOFA 2014/95 vurderte nemnda den forholdsmessige prismodellen og fant at den ikke i seg selv var ulovlig, men presiserte at den bare kan brukes i tilfeller der den er egnet til å påvise relevante forskjeller mellom tilbudene. Modellen ble altså akseptert, men med en advarsel. Mange oppdragsgivere har lest aksepten uten å ta inn advarselen.
DFØ har i sin veileder om poengmodeller tatt konsekvensen av dette: «DFØ anbefaler nå primært evalueringsmodellen prissetting av kvalitet, hvor normalisering uansett ikke vil være en aktuell problemstilling.» Anbefalingen er innkjøpsfaglig, ikke rettslig. Det er ingen rettslig plikt til å bruke prissettingsmodell. Men DFØ anbefaler den fordi den gir bedre kontroll over betalingsviljen, unngår normaliseringsproblemer, og gjør det lettere å evaluere kvalitetskriteriene uten å kjenne tilbudsprisen.
Faglig dårlige modeller som har blitt underkjent. Grensen mellom «faglig dårlig» og «rettslig ulovlig» krysses når modellen er så uegnet at den ikke kan identifisere det beste tilbudet overhodet, eller når den endrer vektingen mellom kriteriene. I KOFA 2017/97 (Statens vegvesen) var timepris vektet 55 prosent og oppmøtepris bare 15 prosent på en rammeavtale for landmåling. Leverandøren Terratec utnyttet dette: timepriser ble satt til 0–9 kroner per time, noe som ga 10 av 10 poeng, mens oppmøteprisene ble satt til 10 000–99 999 kroner per dag for å kompensere. Terratec endte med 8,5 poeng totalt, mot nest bestes 3,9. Nemnda fant at modellen ikke var egnet til å identifisere det beste tilbudet.
Saken illustrerer at grensen til ulovlighet krysses når modellen systematisk belønner et tilbudsmønster som ikke reflekterer reell verdi. Det er ikke leverandørens taktikk som er ulovlig – det er modellen som muliggjør den.
Et annet grensetilfelle er KOFA 2009/151, der en gjennomsnittsprismodell ga priskriteriet lavere effektiv vekt enn oppgitt. Modellen var rettslig sett uegnet fordi den endret det leverandørene var forespeilet. At modellen var «vanlig» eller «mye brukt» var irrelevant.
Tre kjennetegn på en modell som er rettslig lovlig, men faglig dårlig:
- Modellen gir riktig rangering i gjennomsnittsfallet, men feil rangering ved realistiske variasjoner. Hvis modellen bare fungerer når tilbudene er nærmest identiske, er den for skjør til å brukes i en reell konkurranse der prisforskjeller, kvalitetsspredning og taktisk tilpasning forekommer.
- Modellen belønner noe annet enn det tildelingskriteriet etterspør. Hvis priskriteriet har 40 prosent vekt, men prismodellen komprimerer alle prisforskjeller til ett poeng, er kvalitet reelt vektet langt høyere enn 60 prosent. Modellen er ikke ulovlig med mindre den faktisk endrer vekten på en konkret anskaffelse, men den er uegnet som generelt verktøy.
- Modellen er sårbar for manipulasjon. En modell som lar leverandøren styre evalueringsresultatet gjennom strategisk prising på enkeltposter, kan være lovlig – KOFA 2016/36 aksepterte at leverandører fritt kan konkurrere på pris – men den er faglig dårlig fordi den premierer prisinformasjon som ikke reflekterer kontraktens reelle kostnad.
Tre ufravikelige rettslige krav til modellen
Uavhengig av hvilken evalueringsmodell oppdragsgiver velger, gjelder tre krav som ikke kan fravikes. De følger av loven, forskriften og rettspraksis, og de gjelder uavhengig av anskaffelsens størrelse, art eller kompleksitet:
1. Beskriv evalueringsmetoden. EU-domstolen har i sak C-6/15 (Dimarso) avsnitt 27–28 uttalt at det ikke er et absolutt krav om å opplyse om evalueringsmodellen i konkurransegrunnlaget. Men domstolen uttalte samtidig at evalueringsmodellen som benyttes, ikke kan føre til en endring av tildelingskriteriene eller vektingen av kriteriene. Og KOFA har gjentatte ganger slått fast at dersom oppdragsgiver velger å opplyse om modellen, er oppdragsgiver forpliktet til å følge den.
I praksis betyr dette at oppdragsgiver har et valg: Enten opplyser du om modellen og binder deg til den, eller du lar være å opplyse og beholder fleksibilitet – men innenfor snevrere rammer fordi modellen uansett ikke kan endre kriteriene eller vektene. DFØs utkast til veileder siterer KOFA sak 2017/102: «Oppdragsgiver er ikke forpliktet til å publisere metodene for hvordan tilbudene gis uttelling i forhold til tildelingskriteriene. Dersom oppdragsgiver gir slik informasjon, må imidlertid leverandørene kunne innrette seg i tillit til at den fremgangsmåten som er beskrevet blir fulgt.»
For de fleste praktiske formål er anbefalingen klar: Beskriv modellen. Åpenhet om modellen gjør evalueringen mer forutberegnelig, lettere å gjennomføre konsistent, og enklere å forsvare i en klagesak. Risikoen ved å beskrive modellen – at du binder deg – er langt lavere enn risikoen ved å la være – at leverandørene ikke forstår hva de konkurrerer om.
2. Følg den modellen du har beskrevet. Dette følger direkte av forutberegnelighetsprinsippet i LOA § 4. I KOFA 2025/0993 (Nord-Troms interkommunale politiske råd) brukte oppdragsgiver en trappetrinnsmodell i stedet for den forholdsmessige formelen som var angitt i konkurransegrunnlaget. Brudd. I KOFA 2022/88 (Sporveien) hadde oppdragsgiver opplyst at medianen «will not be changed during the competition», men endret likevel mediangrunnlaget. Brudd. Nemnda la til grunn at terskelen for å sette en opplyst evalueringsmodell til side er «meget høy».
Regelen gjelder ikke bare de store valgene – lineær versus forholdsmessig, poengmodell versus prissetting – men også detaljene. I en KOFA-sak om poengskalaer hadde oppdragsgiver brukt en skala fra 0–6 i stedet for den kunngjorte skalaen 1–6. Selv denne tilsynelatende ubetydelige endringen ble ansett som brudd på forutberegneligheten. Poengregelen er en del av det du har bundet deg til.
3. Leverandøren må kunne forstå og etterprøve. Kravet til etterprøvbarhet innebærer at en leverandør i etterkant – med rimelig innsats – skal kunne rekonstruere evalueringens hovedtrekk. Kravet til forståelighet innebærer at en rimelig opplyst leverandør skal kunne lese konkurransegrunnlaget og forstå hva som kreves, hvordan tilbudet vil bli vurdert, og i den grad det er mulig, hva som skal til for å vinne.
I KOFA 2025/0160 hadde oppdragsgiver beskrevet at «kvalitet» skulle evalueres, men ikke hvordan. Resultatet var at verken leverandørene eller KOFA kunne forstå hva som skilte 3 poeng fra 7 poeng. Nemnda underkjente kriteriet. Oppdragsgiver bar risikoen for uklarheten.
DFØs utkast til veileder formulerer kravene samlet slik: For å gjennomføre en lovlig evalueringsprosess må oppdragsgiver (i) formulere lovlige tildelingskriterier, (ii) faktisk vektlegge de elementene tildelingskriteriene uttrykker at skal vektlegges, (iii) gi relevante forskjeller i tilbudene relevante utslag, (iv) ikke vektlegge elementer som ikke kan utledes fra tildelingskriteriene, (v) ivareta krav til likebehandling, og (vi) utøve skjønn på en saklig måte.
Konsekvensanalyse før publisering
Konsekvensanalysen er den praktiske testen av om modellen faktisk gjør det oppdragsgiver tror den gjør. Prinsippet er enkelt: Test modellen med fiktive, men realistiske tilbud før konkurransegrunnlaget publiseres. Testen handler ikke om etterfølgende begrunnelse eller klagehåndtering. Den handler om å oppdage modellfeil mens modellen fortsatt kan endres.
En god forhåndstest bør minst gjøre fem ting:
- Lage tre til fem realistiske tilbudsscenarier: lav pris/middels kvalitet, høy pris/høy kvalitet, midtsegmentet og ett taktisk scenario.
- Kjøre hvert scenario gjennom hele modellen: prisskjema, evalueringsmetode, poengregel og sammenstillingsregel.
- Sammenligne formell og reell vekting. Hvis prispoengene varierer fra 3 til 10, mens kvalitetspoengene varierer fra 7 til 9, har prisen større reell betydning enn prosentvekten alene viser.
- Teste ekstremverdier: nullpriser, utliggere, svært små kvalitetsforskjeller og svært store kvalitetssprang.
- Spørre om rangeringen gir faglig mening: vinner den leveransen modellen egentlig skulle premiere?
DFØs vedlegg om evalueringsmetodikk peker på kjernen: Ulike modeller kan gi ulike resultater ved evaluering av de samme tilbudene. Konkurrensverkets rapporter fra 2004 og 2009 og KFSTs danske veiledning viser det samme metodisk: modellvalget er ikke nøytralt. Det avgjør hvordan prisforskjeller, kvalitetsforskjeller og poengspredning omsettes til rangering.
En forhåndstest avdekker særlig:
- Vektforskyvning: poengspredningen gjør at kriteriet får en annen praktisk betydning enn oppgitt.
- Utvanning: mange små underkriterier gjør at ingen enkeltforskjell får reell betydning.
- Taktisk sårbarhet: leverandøren kan flytte pris fra poster med høy evalueringsvirkning til poster med lav evalueringsvirkning.
- Manglende sensitivitet: modellen gir samme eller nesten samme uttelling til tilbud som er vesentlig forskjellige.
- Relativ modellrisiko: nye tilbud påvirker poengene til allerede sammenlignbare tilbud.
Et enkelt pris/kvalitet-eksempel viser poenget. Tre tilbud kan gi én rangering med forholdsmessig prispoeng, men en annen rangering dersom en billig utligger kommer inn og flytter referansepunktet. Dette er en strukturell egenskap ved relative modeller. Lunander beskriver dette i Konkurrensverkets rapport 2009:12 som en «logisk fälla», og Upphandlingsmyndigheten har advart mot relative modeller fordi de kan være uforutsigbare og manipulerbare.
Den praktiske konklusjonen er ikke at én modell alltid er riktig. Konklusjonen er at modellen må testes med tall før den brukes. Hvis testen viser at modellen premierer noe annet enn anskaffelsen faktisk verdsetter, er det modellen som må endres.
Vanlige feil
Basert på gjennomgangen over kan de hyppigste feilene i praksis oppsummeres slik:
1. Modellen velges etter tilbudsåpning. Noen ganger bevisst, oftere fordi oppdragsgiver ikke hadde en komplett modell på forhånd og måtte «improvisere» underveis. I begge tilfeller er konsekvensen den samme: brudd på forutberegneligheten.
2. Modellen beskrives ufullstendig. Oppdragsgiver opplyser om tildelingskriterier og vekter, men utelater poengregelen eller sammenstillingsregelen. Leverandørene vet at kvalitet teller 60 prosent, men ikke om det betyr at kvalitetsforskjeller mellom 7 og 8 poeng er verdt 100 000 kroner eller 500 000 kroner i prisøkning. Uten denne informasjonen kan de ikke foreta rasjonelle avveininger i tilbudsutformingen.
3. Prisskjemaet er uklart. Leverandørene tolker prisskjemaet forskjellig, og tilbudene blir usammenlignbare. Feilen tilskrives alltid oppdragsgiver – ikke leverandøren. KOFA 2024/0138 er tydelig på dette.
4. Poengskalaen mangler typebeskrivelser. For kvalitative kriterier brukes en skala – for eksempel 0–10 – uten at det er definert hva som kjennetegner hvert nivå. Evaluererne tolker skalaen ulikt, og poenggivningen blir inkonsistent. KOFA 2025/0160 er direkte på konsekvensen: Leverandøren må forstå hva som skiller 3 poeng fra 7 poeng. Uten typebeskrivelser er dette umulig.
5. Ingen konsekvensanalyse er gjennomført. Modellen velges fra en mal uten testing. Etter tilbudsåpning viser det seg at modellen gir uventede utslag – men da er det for sent å endre. Terskelen for å sette en opplyst modell til side er meget høy. Oppdragsgiver står overfor valget mellom å gjennomføre evalueringen med en modell man vet fungerer dårlig, eller å avlyse hele konkurransen.
6. Evalueringsmodellen forveksles med tildelingskriteriet. Oppdragsgiver tror at det å oppgi «pris 40 % og kvalitet 60 %» er en komplett evalueringsmodell. Det er det ikke. Det er to tildelingskriterier med vekter. Evalueringsmodellen inkluderer i tillegg dokumentasjonskrav, evalueringsmetode, poengregel og sammenstillingsregel. Å utelate fire av fem komponenter er ikke en evalueringsmodell – det er et løfte uten innhold.
7. Ulike deler av modellen trekker i ulike retninger. Tildelingskriteriet sier at «kvalitet» skal vurderes på grunnlag av «innovasjonsgrad og gjennomførbarhet». Dokumentasjonskravet etterspør bare referanseprosjekter. Evalueringsmetoden bruker referanseprosjektene som mål på gjennomførbarhet, men gir ingen veiledning om hvordan innovasjonsgrad skal bedømmes. Resultatet er at halve tildelingskriteriet aldri blir evaluert – en inkonsistens som både bryter med forutberegneligheten og gir et evalueringsresultat som ikke reflekterer det oppdragsgiver faktisk ønsker å prioritere.
Kontrollspørsmål før publisering
Før konkurransegrunnlaget publiseres, bør oppdragsgiver stille følgende spørsmål til sin evalueringsmodell:
- [ ] Er alle fem komponentene på plass? Tildelingskriterium, dokumentasjonskrav, evalueringsmetode, poengregel og sammenstillingsregel – er alle definert, og henger de logisk sammen?
- [ ] Er modellen beskrevet slik at en rimelig opplyst leverandør vil forstå den? Kan en leverandør som leser konkurransegrunnlaget, forstå hva som skal prises, hva som skal beskrives, hvordan det vil bli vurdert, og hvordan poengene vil bli sammenstilt? Eller krever du at leverandørene skal gjette?
- [ ] Er poengskalaen for kvalitative kriterier utstyrt med typebeskrivelser? Kan en leverandør forstå hva som skiller middels fra godt og godt fra svært godt?
- [ ] Er prisskjemaet entydig? Kan en leverandør fylle det ut på én og bare én måte, eller er det rom for tolkningsvariasjoner som gjør tilbudene usammenlignbare?
- [ ] Er modellen testet med konsekvensanalyse? Er den prøvd med minst tre til fem realistiske tilbud? Er den testet med ekstremverdier? Er den reelle vektingen beregnet?
- [ ] Er modellen robust mot taktisk prising? Kan en leverandør sette enkeltposter til null for å flytte kostnader til poster med lav evalueringsvekt? Har du testet dette i konsekvensanalysen?
- [ ] Samsvarer den reelle vektingen med den formelle? Gir poengmodellen priskriteriet og kvalitetskriteriet den innflytelsen som er oppgitt i konkurransegrunnlaget, eller forskyver poengreglene den relative betydningen?
- [ ] Er tidspunktet for modellvalget dokumentert? Kan du vise at modellen ble fastsatt før tilbudsåpning?
- [ ] Forstår evalueringspanelet modellen? Har de fått en gjennomgang? Kan de forklare tilbake hva hvert trinn innebærer?
- [ ] Er modellen forenlig med de tre ufravikelige kravene? Har tildelingskriteriene tilknytning til leveransen? Kan en opplyst leverandør forstå modellen? Kan du etterpå vise at du fulgte den?
Hvis svaret er nei på ett eller flere av disse spørsmålene, er modellen ikke klar for publisering. Hvert «nei» representerer en risiko – for at evalueringen blir ulovlig, for at den gir feil resultat, eller for at den ikke tåler en klage.
Oppsummering: Modellen er beslutningen
Det avgjørende poenget i dette kapitlet er at evalueringsmodellen ikke er et administrativt hjelpemiddel som ligger ved siden av den faglige vurderingen. Modellen er det systemet som oversetter faglige vurderinger og pristall til en rangering og en vinner. Hvert element i modellen – fra poengskalaens bredde til prisskjemaets utfyllingsinstruks – har direkte innflytelse på hvem som vinner.
En oppdragsgiver som forstår dette, vil designe evalueringsmodellen med samme omhu som kravspesifikasjonen. Modellen må velges og forstås før tilbudene er kjent. Den må beskrives slik at leverandørene forstår den. Den må testes med konsekvensanalyse. Og den må følges til punkt og prikke under evalueringen.
Resten av denne boken handler om hvordan du gjør dette i praksis – for priskriterier, for kvantitative ikke-priskriterier, for kvalitative kriterier, og for sammenstillingen av dem alle.
3.2 Evaluering av økonomi og pris
Mange oppdragsgivere oppfatter prisevalueringen som den enkleste delen av tildelingsprosessen. Pris er et tall, det er objektivt, og det kan ikke diskuteres. Denne oppfatningen er en farlig illusjon. Valget av prisgrunnlag, prisskjema og prisformel har minst like store konsekvenser for utfallet som valget av kvalitetsmetode. En feil prisformel kan gjøre at pris — som kanskje er vektet 60 prosent — i praksis bare differensierer tilbudene med noen få prosent. Da har oppdragsgiver effektivt gjort om en priskonkurranse til en ren kvalitetskonkurranse, uten å ha ment det. I den andre enden kan et feil prisgrunnlag invitere til taktisk prising som gjør at tilbudet med lavest evalueringssum blir dyrest i virkeligheten.
Dette underkapitlet tar for seg hele prisiden av evalueringen: hvilke kostnadselementer som må med i prisgrunnlaget, hvordan prisinformasjon gjøres om til sammenlignbare størrelser, hvilke formler som finnes og hva de gjør med rangeringen, hvordan taktisk prising oppstår og forebygges, og hvilke konsekvensanalyser som bør gjøres før konkurransegrunnlaget publiseres.
Prisgrunnlaget: hva skal måles?
Problemet i praksis
Priskriteriet skal måle det oppdragsgiver faktisk kommer til å betale for ytelsen. Høres selvfølgelig ut — men i praksis er det overraskende mange anskaffelser der prisgrunnlaget ikke fanger opp hele den reelle kostnaden. Vesentlige kostnadselementer holdes utenfor evalueringen, estimerte volumer avviker fra faktisk forbruk, eller prisskjemaet er utformet slik at leverandørene priser forskjellige ting.
Prisgrunnlaget kan ta mange former avhengig av anskaffelsens art:
- Totalpris — én samlet pris for hele leveransen, typisk ved entrepriser, prosjekter eller enkle vareleveranser.
- Enhetspriser — priser per time, per stykk, per kilo eller per kvadratmeter, typisk ved rammeavtaler.
- Påslagsprosent — prosentvis påslag på dokumenterte innkjøpspriser eller selvkostpriser, typisk ved videresalg eller kantsortiment.
- Prismatriser — kombinasjon av enhetspriser for mange produkter eller tjenester, multiplisert med estimerte volumer for å gi en evalueringssum.
- Livssykluskostnader — totalkostnaden over ytelsens levetid, inkludert anskaffelsespris, driftskostnader, energiforbruk, vedlikehold og eventuelt avhending.
- Opsjoner — priser for tilleggsytelser oppdragsgiver kan velge å utløse.
- Evalueringssum — en konstruert totalsum basert på prismatrisen, brukt som sammenligningsgrunnlag selv om den ikke representerer hva oppdragsgiver faktisk vil betale.
Uavhengig av hvilken form prisgrunnlaget tar, er det rettslige kravet det samme: priskriteriet må være egnet til å identifisere tilbudet med det beste forholdet mellom pris (eller kostnad) og kvalitet, jf. FOA § 18-1. Det betyr at prisgrunnlaget må reflektere de reelle kostnadene oppdragsgiver vil pådra seg for den etterspurte ytelsen.
Rettslig ramme
Tilknytningskravet innebærer at priskriteriet skal ta utgangspunkt i forpliktende sider ved tilbudet. KOFA har formulert dette tydelig i flere saker. I KOFA 2024/296 (Trondheim kommune) var prisevalueringen basert på leverandørenes honorarbudsjett etter NS 8401. Budsjettet var ikke kontraktsrettslig bindende etter standardens regulering. Nemnda presiserte at tilknytningskravet for priskriteriet «innebærer at tilbudene skal premieres ut fra den prisen oppdragsgiver faktisk skal betale for ytelsen», og at kriteriet må ta utgangspunkt i «forpliktende sider ved tilbudet», med henvisning til KOFA 2023/1135 avsnitt 25. Bruddet medførte avlysningsplikt.
Tilsvarende utfall i KOFA 2024/480 (Oslo kommune), der timepriser ble vektet etter konsulentenes estimerte deltakelsesandeler. Deltakelsesandelene var ikke kontraktsrettslig forpliktende — leverandøren stod fritt til å endre sammensetningen etter kontraktsinngåelse. Nemnda konstaterte brudd: priskriteriet «bygget på uforpliktende deltakelsesandeler og var ikke egnet til å identifisere det økonomisk beste tilbudet».
I KOFA 2019/370 (Brønnøy Havn) lot oppdragsgiver uforpliktende timeestimater påvirke prisrangeringen ved en NS 8402-rådgivningskonkurranse. Timeprisene var bindende, men estimatene var det ikke. KOFA underkjente priskriteriet fordi det la vekt på uforpliktende opplysninger.
Også det motsatte problemet oppstår: at forpliktende kostnadselementer holdes utenfor evalueringen. I KOFA 2017/350 (Utenriksdepartementet) omfattet ikke priskriteriet priser for tredjelandsforflytninger — om lag en tredjedel av oppdraget. Nemnda fant at priskriteriet dermed ikke var egnet til å identifisere det beste tilbudet. I KOFA 2024/2030 (Os kommune) utelot oppdragsgiver byggetrinn 2 fra prisevalueringen uten hjemmel i konkurransegrunnlaget. Nemnda konstaterte brudd. I KOFA 2025/0511 (Arva AS) ble leverandørenes priser for regionalnettet utelatt fra evalueringen under priskriteriet, uten at konkurransegrunnlaget åpnet for det.
Regelen er klar: vesentlige kostnadselementer som oppdragsgiver vil betale for, kan ikke holdes utenfor priskriteriet. Og uforpliktende opplysninger kan ikke brukes som om de var forpliktende.
Evalueringssum og handlekurver
I mange anskaffelser — særlig rammeavtaler med mange produkter eller tjenester — er det umulig å sammenligne totalpris direkte, fordi det ikke finnes én total. Da konstruerer oppdragsgiver en evalueringssum: enhetsprisene multipliseres med estimerte mengder og summeres. Evalueringssummen er et beregnet tall som gjør tilbudene sammenlignbare, selv om den ikke representerer hva oppdragsgiver faktisk vil betale.
For at evalueringssummen skal være meningsfull, må to ting stemme:
- Prispostene må dekke det vesentlige av kontraktsøkonomien. Det som ikke er med i prismatrisen, påvirker ikke evalueringen. Hvis vesentlige kostnadselementer mangler, konkurrerer ikke leverandørene på den reelle prisen.
- Volumestimatene må være rimelig representative for faktisk forbruk. Hvis estimatene avviker systematisk fra virkeligheten, vinner ikke nødvendigvis den billigste leverandøren — men den som best gjettet (eller manipulerte) avviket.
En handlekurv er en variant av evalueringssummen der oppdragsgiver definerer et realistisk bruksscenario: «Vi kjøper x timer av kategori A, y timer av kategori B og z produkter.» Handlekurven fungerer som en miniatyrmodell av kontrakten. Fordelen er at leverandørene kan beregne sin egen evalueringssum og dermed forstå hva de konkurrerer på.
KOFA 2025/0665 (Universitetet i Tromsø) illustrerer yttergrensen for klarhetskravet. Prismodellen var så uklar at tilbudene i praksis ble priset på forskjellige premisser — leverandørene forsto ikke det samme om hva de skulle prise. Nemnda la til grunn EU-domstolens krav i sakene Cartiera dell'Adda og Montte om at kriteriene skal gi en normalt påpasselig leverandør tilstrekkelig informasjon og legge opp til evaluering av objektivt sammenlignbare tilbud. Avlysningsplikt fulgte.
Kontrasten er KOFA 2019/152 (Drammen kommune), der oppdragsgiver strukturerte prisingen i faste grunnpakker med tillegg av timepris. Nøyaktig omfang og kompleksitet for fremtidige oppdrag var ikke oppgitt. KOFA aksepterte dette: innholdet i grunnpakkene var definert, alle leverandører priset den samme strukturen, og oppdragsgiver kan ikke kreves å spesifisere omfanget av fremtidige oppdrag som reelt sett er ukjent på kunngjøringstidspunktet.
Livssykluskostnader og opsjoner
FOA § 18-1 åpner uttrykkelig for at kostnader over livssyklusen kan inngå i priskriteriet. Energiforbruk, vedlikeholdskostnader, utskiftningsintervaller og avhendingskostnader kan alle være del av evalueringsgrunnlaget — forutsatt at det er opplyst og at beregningsmetoden er beskrevet.
Opsjoner reiser et særlig spørsmål: skal de evalueres til full verdi? Opsjoner er per definisjon ytelser oppdragsgiver kan utløse, men ikke er forpliktet til å bestille. Evalueres opsjonsprisene til full verdi, overvurderer man deres økonomiske betydning — leverandøren vet at opsjonsvolumet er usikkert og kan prise det taktisk. Evalueres de ikke i det hele tatt, har leverandøren fritt spillerom til å sette en hvilken som helst opsjonspris etter kontraktsinngåelse. Løsningen er sannsynlighetsvektet opsjonsverdi i evalueringen: opsjonsprisene multipliseres med oppdragsgivers realistiske estimat for sannsynligheten for at opsjonen utløses. Dette gir opsjonen en proporsjonal innflytelse på evalueringssummen.
Metodiske valg for prisgrunnlaget
Oppdragsgiver bør stille følgende spørsmål ved utformingen av prisgrunnlaget:
- Dekker prispostene alt med økonomisk betydning? Hvis deler av leveransen ikke er med i prismatrisen, konkurrerer ikke leverandørene på den reelle totalkostnaden. Kantsortiment, opsjoner, tilleggstjenester og kostnader ved kontraktsavslutning er typiske kandidater.
- Er volumestimatene basert på faktisk historisk forbruk? Estimater som hentes fra kontraktsvedlegg, årsmeldinger eller innkjøpssystemer er mer robuste enn kvalifiserte gjetninger.
- Er evalueringssummen beregnet slik at leverandøren kan gjøre samme regnestykke? Evalueringssummen og dens bestanddeler bør beskrives eksplisitt i konkurransegrunnlaget.
- Er priselementene kontraktsrettslig forpliktende? Estimater, budsjetter og prognoser som leverandøren fritt kan fravike, hører ikke hjemme i en forpliktende prissammenligning.
Prisformler: omregning av pris til poeng
Problemet i praksis
I en poengmodell må prisinformasjonen gjøres om til poeng på en skala som er sammenlignbar med kvalitetspoengene. Valget av prisformel bestemmer hvor store poengutslag prisforskjellene gir. Velger oppdragsgiver feil formel — eller unnlater å tenke gjennom konsekvensene — kan resultatet bli at prisforskjeller som i kroner er store, gir små poengforskjeller, eller omvendt. Og det er formelen, ikke den oppgitte vekten, som bestemmer priskriterietets reelle innflytelse.
De vanligste formlene
Det finnes tre hovedmodeller for å beregne prispoeng. Alle tar utgangspunkt i at laveste pris gir høyest poeng, men de behandler prisforskjellene forskjellig.
Lineær modell (basismodell)
Formelen er:
Poeng = Maksscore × (1 − (P − P_lav) / P_lav)
der P er prisen som evalueres og P_lav er laveste tilbudte pris. På en skala 0–10 blir dette:
Poeng = 10 − 10 × (P − P_lav) / P_lav
Den lineære modellen bevarer prosentforskjellene mellom tilbudene. Er et tilbud 20 prosent dyrere enn det billigste, får det 2 poeng lavere enn det billigste (på en 0–10-skala). Er det 50 prosent dyrere, får det 5 poeng lavere. Er det mer enn 100 prosent dyrere, gir formelen negative poeng.
Modellen er anbefalt som førstevalg av DFØ i veiledningen om evaluering av tilbud. Begrunnelsen er at den er den eneste av de vanlige modellene som bevarer den proporsjonale sammenhengen mellom prisforskjeller og poengforskjeller. En prisforskjell på 10 prosent gir alltid det samme poengutslaget, uavhengig av om den oppstår mellom de to billigste eller de to dyreste tilbudene.
At formelen kan gi negative poeng, er i seg selv ikke i strid med regelverket. KOFA behandlet spørsmålet i sak 2015/60 og uttalte at det «ikke er til hinder for [å] premiere relevante forskjeller mellom tilbudene» at poengskalaen utvides. DFØs veileder bekrefter dette: «Det er ikke i seg selv i strid med regelverket å gi negativ score på priskriteriet.»
Forholdsmessig modell
Formelen er:
Poeng = Maksscore × (P_lav / P)
På en 0–10-skala:
Poeng = 10 × (P_lav / P)
Den forholdsmessige modellen innebærer at poengfradragene blir relativt mindre jo høyere prisforskjellen er fra laveste pris. Et tilbud som er 100 prosent dyrere enn det billigste får 5 av 10 poeng — ikke 0. Ingen tilbud kan få 0 poeng eller negative poeng.
Effekten er kompresjon: store prisforskjeller gir proporsjonalt mindre poengutslag enn i den lineære modellen. DFØs veileder advarer om dette: «Den forholdsmessige metoden innebærer at fradrag i poeng svarer til den relative prisforskjellen. Sagt på en annen måte: Poengforskjellen blir mindre, jo høyere prisforskjellen er.» Nivået på den laveste tilbudsprisen blir styrende for uttelling på alle øvrige tilbud.
KOFA har ikke erklært den forholdsmessige modellen generelt ulovlig. I stornemndsavgjørelsen KOFA 2014/95 kom nemnda til at modellen ikke i seg selv er ulovlig, men at den bare kan brukes der den er egnet til å påvise relevante forskjeller mellom tilbudene. Problemet oppstår når kompresjonen blir så sterk at prisforskjeller av reell økonomisk betydning ikke gir utslag i evalueringen. DFØs veileder oppsummerer KOFAs linje slik: Hvis poengutslagene avviker fra det som ville fulgt av den lineære modellen, må oppdragsgiver vise hvorfor evalueringen likevel har vært saklig og forsvarlig. DFØ viser til KOFA 2009/249, 2009/279, 2011/176, 2012/41 og stornemndsavgjørelsen 2014/95.
I praksis betyr dette at den forholdsmessige modellen innebærer en risiko som den lineære ikke har: at den reelle vektingen av priskriteriet blir lavere enn oppgitt. Oppdragsgiver som velger den forholdsmessige modellen, bør derfor teste den med realistiske prisscenarier og dokumentere at den gir forsvarlige utslag i den aktuelle konkurransen.
Hybridmodell
Hybridmodellen, utviklet av Oslo kommune, er en matematisk kombinasjon av lineær og forholdsmessig: den er lineær innenfor et definert prisintervall (knekkpunktet), og går over til å være forholdsmessig for prisforskjeller utover knekkpunktet. Modellen gir ikke negative poeng og bruker en større del av skalaen enn den rene forholdsmessige modellen. DFØs veileder beskriver den som et «godt alternativ hvor det er forventet store prisforskjeller i tilbudene».
Modeller som er uegnet eller ulovlige
Gjennomsnittsprismodellen bruker gjennomsnittsprisen som referansepunkt og gir poeng basert på avstand fra gjennomsnittet. Modellen har en strukturell feil: den konsentrerer poengene rundt midten av tilbudspopulasjonen og krever store prisavvik for å gi utslag. Tilbud som ligger nær gjennomsnittet — enten de er dyre eller billige — får nesten like poeng.
KOFA har underkjent gjennomsnittsprismodellen i KOFA 2009/151 (Helse Sunnmøre), der priskriteriet var oppgitt med 50 prosent vekt men i realiteten fikk lavere effektiv vekt. Nemnda konstaterte brudd fordi modellen ikke premierte prisforskjeller i tilstrekkelig grad. Bare den øverste fjerdedelen av poengskalaen ble brukt under priskriteriet, mens hele skalaen ble tatt i bruk under de øvrige kriteriene, noe som medførte en forskyvning av vektingen.
EU-kommisjonens veiledning om offentlige anskaffelser påpeker at «typen av genomsnittspris som metod innebär ojämlik behandling av anbudsgivarna, särskilt för dem som har lämnat giltiga låga anbud. Denna praxis är därför inte förenlig med» direktiv 2004/18/EG.
DFØs kursmateriale er tydelig: «Gjennomsnittsprismodellen skal aldri brukes.»
Medianmodellen ligner gjennomsnittsprismodellen i effekt. I KOFA 2020/229 (Bane NOR) brukte oppdragsgiver en medianbasert poengsettingsmodell for priskriteriet uten å ha opplyst om dette. Nemnda fant at modellen reelt endret den oppgitte vektingen av pris, i strid med forutberegnelighetskravet. Det hjalp ikke at modellen var fastsatt internt før tilbudsåpning.
Rangeringsmodellen gir poeng etter tilbudets plassering (billigst = 10, nest billigst = 8, osv.) uten hensyn til størrelsen på prisforskjellene. KOFA har underkjent dette i 2011/1 og 2009/192 fordi relevante forskjeller mellom tilbudene ikke reflekteres.
Avstandsmodellen (basert på differansen mellom høyeste og laveste pris) har det DFØs kursmateriale kaller «dobbel ankerpunktavhengighet» — poengene avhenger av to tilbudsspesifikke referansepunkter, som gjør at ett enkelt ekstremt tilbud kan endre alle andres poeng. Konkurrensverkets rapport fra 2009 (Anders Lunander, «En logisk fälla: Relativ poängsättning av pris vid anbudsutvärdering i offentlig upphandling») advarer generelt mot relative prismodeller som skaper avhengighet av irrelevante alternativer.
Hvordan modellvalget slår ut: et talleksempel
Tenk deg fire tilbud med følgende priser (millioner kroner): A = 8, B = 10, C = 12, D = 16. Skala 0–10.
Lineær modell:
- A: 10,0
- B: 10 − 10 × (10−8)/8 = 10 − 2,5 = 7,5
- C: 10 − 10 × (12−8)/8 = 10 − 5,0 = 5,0
- D: 10 − 10 × (16−8)/8 = 10 − 10,0 = 0,0
Spredning: 10 poeng. Forskjellen mellom A og B (25 % dyrere) gir 2,5 poeng. Forskjellen mellom B og C (20 % dyrere enn B) gir 2,5 poeng. Forskjellen mellom C og D (33 % dyrere enn C) gir 5,0 poeng. Prosentforskjellene reflekteres proporsjonalt.
Forholdsmessig modell:
- A: 10 × (8/8) = 10,0
- B: 10 × (8/10) = 8,0
- C: 10 × (8/12) = 6,67
- D: 10 × (8/16) = 5,0
Spredning: 5 poeng. Kompresjonen er tydelig: D, som er dobbelt så dyrt som A, får likevel 5 av 10 poeng. Poengforskjellen mellom C og D (1,67) er mindre enn mellom A og B (2,0), til tross for at kronedifferansen mellom C og D (4 millioner) er dobbelt så stor som mellom A og B (2 millioner).
Hvis priskriteriet er vektet 60 prosent, blir den vektede poengdifferansen mellom billigste og dyreste tilbud 6,0 vektede poeng med lineær modell og bare 3,0 vektede poeng med forholdsmessig modell. I det siste tilfellet må kvalitetsforskjellene på de resterende 40 prosentene avgjøre — og leverandøren som har budsjettert mest på tilbudsutforming, vinner uavhengig av om han er dobbelt så dyr.
Gjennomsnittsprismodell (med f.eks. gjennomsnitt = 11,5): Her vil A og D gi noenlunde symmetriske avvik fra gjennomsnittet, mens B og C, som ligger nær gjennomsnittet, får nesten like og høye poeng — til tross for at B er 25 prosent dyrere enn A. Prisforskjellene nær gjennomsnittet absorberes.
Rettslig kontroll: hva kreves?
KOFA prøver ikke hvilken prisformel som er «best», men stiller tre krav:
- Formelen må være egnet til å fange opp relevante prisforskjeller. Modeller som absorberer forskjeller som er store nok til å ha reell økonomisk betydning, kan underkjennes (KOFA 2009/151, KOFA 2020/229, KOFA 2010/43).
- Formelen må ikke forskyve den oppgitte vektingen. Hvis priskriteriet er oppgitt med 40 prosent vekt, men formelen gjør at det reelt bare differensierer med noen få prosent, er den oppgitte vekten misvisende. KOFA 2011/201 er illustrerende: priskriteriet ble reelt vektet 63 prosent i stedet for oppgitte 60 prosent fordi prisformelen ga uforholdsmessig store utslag sammenlignet med kvalitetsformelen.
- Formelen må være forhåndskjent, eller i det minste ikke endre forventningene leverandørene hadde grunn til å ha. EU-domstolens avgjørelse i sak C-6/15 Dimarso slår fast at poengsettingsmodellen ikke kan «føre til en ændring af tildelingskriterierne eller en ændring af den relative vægtning heraf». I KOFA 2023/0403 (Kåfjord kommune) konstaterte nemnda brudd der evalueringsmetoden for priskriteriet ble fastsatt etter tilbudsåpning. I KOFA 2019/469 ble en forholdsmessig prismodell underkjent fordi den ikke var forhåndsopplyst og ga et annet utslag enn det leverandørene kunne forvente.
Oppdragsgiver har likevel et betydelig innkjøpsfaglig skjønn ved valg av prismodell. KOFA uttaler gjentatte ganger at valg av evalueringsmodell bare i liten grad kan overprøves rettslig. Men dette skjønnet har en absolutt yttergrense: modellen kan ikke gi vilkårlige utslag, og den oppgitte vekten må ha reelt gjennomslag.
Prismodellens behandling av sammensatte priselementer
Problemet i praksis
Mange anskaffelser har priser som består av flere elementer: totalpris pluss timepriser, grunnpris pluss påslagsprosent, fastpris pluss variable kostnader. Spørsmålet er hvordan disse elementene vektes og evalueres innbyrdes — og hva som skjer når ett element driver hele rangeringen.
Intern vekting av priselementer
I KOFA 2023/1196 (FLO, rammeavtale for gulvmatter) aksepterte nemnda at prisposten «Leie av gulvmatter» og «Påslagsprosent» ble evaluert som underkriterier under priskriteriet uten eksplisitt delvekting. Nemnda fant at priselementene var tilstrekkelig klare og egnede, og at «en rimelig opplyst leverandør» ville forstå postenes innhold og funksjon i evalueringen. Manglende særskilt vekting svekket ikke forutberegneligheten.
Men i KOFA 2023/0899 (Hammerfest kommune) ble den samme lineære formelen brukt for to underkriterier under pris: «tilbudt pris» og «påslagsprosent». For tilbudt pris fungerte formelen fordi den baserte seg på fullstendige kroneverdier. For påslagsprosent var grunnlaget fundamentalt annerledes: prosentvise påslag uten tilknytning til absolutte kroneverdier. Resultatet ble at en marginal forskjell i påslagsprosent ga en uforholdsmessig stor poengdifferanse, og påslagsprosenten — ikke den faktisk relevante prisforskjellen — drev rangeringen. KOFA konstaterte brudd.
Kontrastparet viser en viktig praktisk regel: den samme formelen kan gi lovlige utslag for ett priselement og ulovlige utslag for et annet, avhengig av hva formelen opererer på. En lineær formel som er kalibrert mot kronebeløp, fungerer dårlig når den settes inn for å evaluere prosenttall. Oppdragsgiver må derfor vurdere om formelen passer til hvert enkelt priselement, ikke bare til priskriteriet som helhet.
I KOFA 2012/18 aksepterte nemnda at timepris ble vektet 60 prosent og tillegg 40 prosent under priskriteriet. Modellen lå innenfor oppdragsgivers innkjøpsfaglige skjønn. Men i KOFA 2012/71 (Oslo Lufthavn) ble intern vekting av underkriterier til priskriteriet fastsatt etter tilbudsfristen uten forhåndsinformasjon — det var brudd. Regelen er at delvektingen av priselementer enten må opplyses på forhånd eller være så selvforklarende at leverandørene kan forutse den.
Omsorgsbygg-saken (som gjengis i gjennomgangen i KOFA-materialet) gir ytterligere veiledning: oppdragsgiver fordelte vekten mellom totalpris (85 prosent) og tre øvrige priselementer (5 prosent hver). Konkurransegrunnlaget opplyste at totalpris ville «veie vesentlig mer enn øvrige priselementer». KOFA aksepterte fordelingen som forenlig med det som var opplyst. Leksjon: formuleringen «veie vesentlig mer» ble ansett tilstrekkelig for å dekke en 85/15-fordeling.
Prisendringer gjennom tilleggsinformasjon
I KOFA 2024/0758 endret oppdragsgiver prismodellen fra påslagsprosent til rabatt gjennom tilleggsinformasjon. Nemnda fant at endringen uttrykkelig sa hva leverandørene nå skulle oppgi og hva oppdragsgiver ville legge til grunn. Tilleggsinformasjonen var tilstrekkelig klar for en normalt påpasselig leverandør. Men der tilleggsinformasjonen er uklar eller endrer hva som reelt måles (jf. KOFA 2007/77 om nye handlekurver), krysser den grensen fra lovlig presisering til ulovlig endring.
I KOFA 2024/0138 (Matvarer til skole og barnehage, ca. 130 MNOK) var prisskjemaet så uklart utformet at leverandørene ikke forstod hvordan de skulle fylle det ut. Oda Norway oppga rabatt i stedet for påslag. Resultatet ble avlysning. Saken er en påminnelse om at prisskjemaets struktur og ordlyd er en del av evalueringsarkitekturen: et skjema som leverandørene fyller ut feil, gir ikke sammenlignbare tilbud.
Fast pris og evaluering på bare kvalitet
En særskilt variant av prisgrunnlaget er at oppdragsgiver fastsetter en fast pris og lar leverandørene konkurrere utelukkende på kvalitet. Forarbeidene til den svenske lagen om offentlig upphandling (prop. 2015/16:195, s. 788) slår fast at det er mulig å la kostnadselementet ha formen av et fast pris og la leverandørene kun konkurrere med kvalitetskriterier. Upphandlingsmyndigheten i Sverige har bekreftet at dette er tillatt også etter innføringen av nyere rettspraksis om golvpriser. FOA 2017 gir tilsvarende rom: fast pris kombinert med kvalitetsevaluering er en lovlig evalueringsgrunn under «beste forhold mellom pris eller kostnad og kvalitet». Forutsetningen er at priselementet er reelt til stede — det er bare dets form (fast beløp i stedet for konkurrerende pris) som er annerledes.
Prissetting av kvalitet som alternativ til poengmodeller
Modellens logikk
DFØs veileder om evaluering av tilbud beskriver to hovedgrupper av evalueringsmodeller: poengmodeller, som gjør om pris og kvalitet til poeng, og prissetting av kvalitet, som gjør om kvalitetsforskjeller til fiktive fratrekk eller påslag på tilbudt pris.
I en prissettingsmodell tar man utgangspunkt i de tilbudte prisene og gir et fiktivt fratrekk basert på kvalitetsvurderingen. Vinneren er leverandøren med lavest evaluert pris etter fratrekk. Kontraktsrettslig er det den faktiske tilbudte prisen som gjelder; fratrekkene er bare et evalueringsverktøy.
For å sikre forutberegnelighet, opplyser oppdragsgiver i konkurransegrunnlaget hvor stort fiktivt fratrekk det er mulig å oppnå på hvert enkelt kvalitetskriterium. Det maksimale fratrekket kan oppgis som et bestemt beløp, en prosentandel av anskaffelsens verdi, eller på annen måte. Eksempel fra DFØs veileder:
| Kriterium | Maksimalt fratrekk |
|---|---|
| Pris | Ingen |
| Kvalitet X | Inntil 15 % av anskaffelsens maksimale verdi |
| Kvalitet Y | Inntil 10 % av anskaffelsens maksimale verdi |
| Kvalitet Z | Inntil 10 % av anskaffelsens maksimale verdi |
Det fiktive prisfratrekket bør gjenspeile oppdragsgivers faktiske betalingsvilje: hva er kvalitetsforskjellen verdt i kroner? Det er ikke slik at enhver forskjell i kvalitative egenskaper skal gi fratrekk. Bare relevante forskjeller — forskjeller som oppdragsgiver faktisk ville betale mer for — skal gi utslag.
Fordeler og risiko
Prissettingsmodellen har en strukturell fordel: den tvinger oppdragsgiver til å ta stilling til betalingsvilje før evaluering starter. Når du må si at «bedre prosjektleder er verdt inntil 500 000 kroner», skjerpes kravene til forarbeid. Konkurrensverkets rapport fra 2009 anbefaler sterkt denne tilnærmingen: «det är mycket bättre att värdera kvalitet i pengar och sedan beräkna ett utvärderingspris som summan av anbudspris och antingen ett positivt påslag för kvalitetsbrister eller ett negativt påslag (det vill säga ett avdrag) för faktisk kvalitet.»
Modellen unngår også det problemet som oppstår i poengmodeller med relativ prisberegning: at poengene avhenger av andre tilbud. I en prissettingsmodell evalueres hvert tilbud for seg — kvalitetsfratrekket er uavhengig av hva de andre har tilbudt.
Risikoen, som Innkjøpskontoret påpeker, er at modellen krever god markedskunnskap. Hvis du ikke kjenner markedet godt nok, kan det være vanskelig å forutse hvordan prisfradragene slår ut i praksis. Setter du fratrekket for lavt, dominerer priskriteriet — setter du det for høyt, kan en dyr leverandør med høy kvalitet vinne selv om prisforskjellen er stor. Som Innkjøpskontoret formulerer det: «Hvis du ikke kjenner markedet så godt, eller har litt mindre oversikt over prisdrivere enn du skulle ønske deg, så vil DFØs prismodell kanskje øke sannsynligheten for et dårlig resultat, rett og slett fordi det er vanskeligere å forutse hvordan prisfradragene dine vil slå ut i praksis.»
Men kjernen i argumentet er at prissettingsmodellen ikke gir deg noe du ikke allerede burde ha: en forståelse av hva kvalitetsforskjeller er verdt. Forskjellen er at poengmodellen skjuler denne vurderingen bak abstrakte poeng og prosentvekter, mens prissettingsmodellen gjør den eksplisitt.
DFØ mener at hovedregelen om å vekte miljø minimum 30 prosent ikke hindrer bruk av prissettingsmodeller. Oppdragsgiver kan velge å regne om fra en poengmodell for å finne nivået for påslag eller fratrekk, men det må også være mulig å begrunne konkret hvorfor den valgte modellen ivaretar kravet til prosentvekt.
Partnersamverkan (svensk veileder for kollektivtrafikkupphandlinger) gir et nyttig eksempel på kalibreringen: «Pris utgör 1 000 000 SEK och ska viktas till 65 % av helheten medan kvalitet ska viktas till 35 %. Helheten = 1 000 000/0,65 = 1 538 000 SEK. 35 % av helheten = 538 000 SEK i maximalt kvalitetsbristavdrag.» Poenget er at oppdragsgiver aktivt regner ut hva kvalitetsvektingen betyr i kroner — og dermed synliggjør sin betalingsvilje.
Et konkret eksempel fra DFØs veileder om miljøvekting illustrerer den absolutte prissettingsteknikken i praksis: de innkomne prisene gis 5 kroner påslag per ekstra kilo CO2 sammenlignet med det beste tilbudet. Leverandør C med lavest pris (60,9 MNOK) men høyest utslipp (1 954 660 kg CO2) får et påslag på 1,3 MNOK — og den evaluerte tilbudsprisen ender på 62,2 MNOK, som er lavere enn A (65,4 MNOK) og B (67,1 MNOK). Det absolutte påslaget — 5 kroner per kilo — er forhåndsbestemt og uavhengig av de andre tilbudene.
Konkurrensverket advarer imidlertid mot prosentvise (relative) fratrekk eller påslag, der fratrekket beregnes som en prosent av leverandørens egen pris. Denne varianten innebærer at en gitt kvalitetsforbedring blir mer verdt jo høyere leverandørens pris er — «i princip innebär detta att kvalitet är en giffenvara, som man alltså vill ha mer av när man blir fattigare.» Absolutte fratrekk (faste kronebeløp) unngår denne inkonsistensen.
Taktisk prising og robuste prisskjemaer
Hva er taktisk prising?
Taktisk prising er leverandørens rett. Leverandøren studerer prisskjemaet og volumestimatene og fordeler sin fortjeneste dit den gir størst poenguttelling, ikke nødvendigvis dit kostnaden er størst. Det er en rasjonell tilpasning til oppdragsgivers evalueringsmodell. Problemet oppstår ikke ved at leverandøren handler taktisk — det oppstår når oppdragsgivers modell gjør at taktikken overtrumfer reelle prisforskjeller. Da er modellen ikke egnet til å identifisere det beste tilbudet, og det er oppdragsgivers brudd.
Det finnes flere varianter:
Prismatriseubalanser. Leverandøren studerer volumestimatene i en rammeavtale og inngår et veddemål: poster han tror er overestimert priser han lavt (det koster ham lite fordi volumet blir lavere enn antatt), poster han tror er underestimert priser han høyt (det er der gevinsten ligger). Evalueringssummen, beregnet med de estimerte volumene, ser konkurransedyktig ut. Men den faktiske fakturaen kan bli vesentlig høyere.
Nullprising/ekstremprising. Leverandøren priser enkeltposter til null eller nær null og kompenserer med høye priser på andre poster. I KOFA-saken om Statens vegvesen og Terratec (som omtales i kursmaterialet) var timepris vektet 55 prosent og oppmøtepris 15 prosent. Terratec priset timepriser til mellom null og ni kroner og kompenserte med oppmøtepriser på mellom 10 000 og 99 999 kroner per dag. Resultatet: Terratec fikk 10 av 10 på timepris, alle fem andre tilbydere fikk null, og Terratec endte med 8,5 poeng mot nest bestes 3,9 — til tross for at oppdragsgivers egne priseksempler bekreftet at Terratec sannsynligvis ikke var billigst i virkeligheten. KOFA fant at modellen ikke var egnet til å identifisere det beste tilbudet — brudd på forskriften § 18-1.
Frontloading. Leverandøren priser tidlige poster høyere og senere poster lavere, fordi han får betalt tidligere og diskonteringseffekten favoriserer ham. Mottiltak: nåverdivurdering opplyst i konkurransegrunnlaget.
Ubalanse mellom evaluert og ikke-evaluert. Alt som har økonomisk betydning men som ikke er med i prismatrisen eller evalueringsmodellen, kan prises fritt etter kontraktsinngåelse.
Kantsortiment. Per definisjon produkter som ikke er med i prismatrisen. Det er ikke taktisk prising i tradisjonell forstand — det er fravær av prisregulering. Mottiltak: bind prisene gjennom definert påslag på dokumenterte innkjøpspriser, eller la prisene konkurrere gjennom minikonkurranser.
Forsvarstiltakene
DFØs kursmateriale presenterer en verktøykasse:
| Problem | Mottiltak |
|---|---|
| Prismatriseubalanser | Handlekurver med volumvekting basert på reelt forbruk |
| Nullprising | Avvis bare ved fare for gjennomføring; krav om «reelle priser» fungerer dårlig |
| Evaluert vs. ikke-evaluert | Evaluer alt med økonomisk betydning, med riktig vekt |
| Kantsortiment | Påslag på dokumenterte innkjøpspriser + kontroll |
| Frontloading | Neddiskontering til nåverdi, opplyst i konkurransegrunnlaget |
| Opsjonsubalanser | Sannsynlighetsvektet opsjonsverdi i evalueringen |
| Hybridmodeller | Bruk etablerte kontraktsstandarder med kjent risikofordeling |
Særlig om krav til «reelle priser» og nullprising
En vanlig refleks er å kreve at leverandøren oppgir «reelle priser» som dekker «direkte og indirekte kostnader». Kursmaterialet advarer mot dette: hvordan skal leie til hovedkontoret og lønn til administrerende direktør fordeles ned på 14 timer med anleggsmaskin i ett konkret byggeoppdrag blant tusen oppdrag leverandøren har? Det finnes ingen objektiv fordelingsnøkkel. To leverandører med identiske underliggende kostnader vil nå forskjellige maskinpriser, bare på grunn av ulike fordelingsnøkler. Kravet tvinger leverandøren til en regneøvelse som ikke har noe med virkeligheten å gjøre — og den sofistikerte leverandøren legger på et pent påslag og oppfyller kravet formelt, mens den ærlige som priser etter dekningsbidrag blir avvist.
Nullprising kan bare avvises ved fare for gjennomføring — ikke fordi den «ser feil ut» eller bryter med et generelt krav om prisrealisme. Problemet med nullpriser må løses i modellen, ikke i avvisningsreglene.
Den overordnede regelen
Taktisk prising er alltid leverandørens rett. Modellen må ikke invitere til det. Og det er oppdragsgivers ansvar å sørge for at modellen fanger opp de kostnadskomponentene som reelt vil påvirke kontraktsøkonomien. Den viktigste enkeltøvelsen er å sette seg i leverandørens stol: Hvis du finner en ubalanse som kan utnyttes — fiks den før du sender ut. Leverandøren vil finne den uansett.
Konsekvensanalyse: testing av prismodellen før publisering
Hvorfor teste?
Prismodellens virkemåte er ikke alltid intuitiv. En modell som ser rimelig ut på papiret, kan gi uventede utslag når den møter reelle prisvariasjoner. Testing avdekker om den oppgitte vektingen faktisk gir det gjennomslaget oppdragsgiver ønsker, om formelen gir uforholdsmessige utslag for enkeltposter, og om modellen er robust mot taktisk prising.
Hva bør testes?
- Ekstremverdier. Sett inn priser som er dobbelt så høye og halvparten av forventet. Gir formelen negative poeng? Absorberer den forskjellene? Driver ett priselement hele rangeringen?
- Reell vs. formell vekt. Simuler tilbud der det billigste tilbudet har dårligst kvalitet og det dyreste har best kvalitet. Beregn vektede totalsummer. Stemmer den reelle vektingen med den oppgitte? Hvis priskriteriet er oppgitt med 50 prosent men i simuleringen bare har 30 prosent reell innflytelse, er modellen feil.
- Taktisk prising. Lag et «strategisk» tilbud: pris poster med lav estimert volum høyt, poster med høyt estimert volum lavt. Vinner dette tilbudet? Hvis ja, er modellen sårbar.
- Nullpriser og ekstrempriser. Hva skjer med poengberegningen hvis en leverandør priser én post til null? Kollapser formelen? Får han kunstig høy poengsum?
- Handlekurvens sensitivitet. Endre volumestimatene med ±20 prosent. Endrer rangeringen seg? Hvis rangeringen snur ved moderate volumendringer, er modellen sårbar for volumrisiko.
DFØ tilbyr et regneark-verktøy med formlene for ulike relative poengmodeller innlagt, der oppdragsgiver kan teste konsekvensene av ulike pristilbud. Verktøyet kan brukes både før konkurransen utlyses og som en del av evalueringen der evalueringsmetodikk ikke er publisert i kunngjøringen.
Hva bør dokumenteres?
Simuleringen bør dokumenteres. Ikke fordi det er et formelt rettslig krav, men fordi det gir oppdragsgiver et forsvar hvis modellen utfordres: «Vi testet modellen med disse scenariene og konstaterte at den oppgitte vektingen ga reelt gjennomslag.» Dokumentasjonen bør inneholde forutsetninger, prisscenarier, beregninger og konklusjon.
Vanlige feil ved prisevaluering
- Priskriteriet dekker ikke den reelle kostnaden. Vesentlige kostnadselementer (opsjoner, kantsortiment, tredjelandsforflytninger) holdes utenfor evalueringen. Leverandøren konkurrerer på bare en del av kontraktsøkonomien.
- Evalueringssummen baseres på uforpliktende opplysninger. Honorarbudsjetter, estimerte deltakelsesandeler eller andre ikke-bindende elementer brukes som prisgrunnlag.
- Formelen komprimerer prisforskjellene. Gjennomsnittsprismodeller, medianmodeller eller forholdsmessige modeller absorberer relevante prisforskjeller, og priskriteriet får lavere reell vekt enn oppgitt.
- Samme formel brukes for vesensforskjellige priselementer. En lineær formel som fungerer for totalpriser, fungerer ikke nødvendigvis for påslagsprosenter.
- Prisskjemaet er uklart. Leverandørene forstår ikke hva de skal fylle ut, eller tolker skjemaet forskjellig — tilbudene blir ikke sammenlignbare.
- Modellen inviterer til taktisk prising. Volumestimater som er lett å gjennomskue, poster med lav vekt men høy økonomisk verdi, eller poster som ikke evalueres i det hele tatt.
- Prismodellen fastsettes eller endres etter tilbudsfristen. Intern vekting av priselementer, nye handlekurver eller endret beregningsgrunnlag etter at tilbudene er kjent.
- Modellen er ikke testet med realistiske tall. Oppdragsgiver oppdager først under evaluering at formelen gir uventede utslag.
Kontrollspørsmål før publisering og evaluering
Før konkurransegrunnlaget publiseres, bør oppdragsgiver stille følgende spørsmål:
- [ ] Dekker prispostene alle kostnadselementer med vesentlig økonomisk betydning for kontrakten?
- [ ] Er alle priselementer i evalueringen kontraktsrettslig forpliktende for leverandøren?
- [ ] Er evalueringssummen (handlekurven, prismatrisen) basert på realistiske volumestimater?
- [ ] Er prisformelen beskrevet eksplisitt i konkurransegrunnlaget slik at leverandøren kan beregne sin egen score?
- [ ] Er formelen testet med ekstremverdier, taktiske prisscenarier og realistiske prisvariasjoner?
- [ ] Stemmer den reelle vektingen (som simuleringen viser) med den formelle vektingen?
- [ ] Passer formelen til hvert enkelt priselement, ikke bare til totalprisen?
- [ ] Er opsjoner evaluert med sannsynlighetsvektet verdi?
- [ ] Er kantsortiment bundet gjennom påslagsmekanisme eller minikonkurranse?
- [ ] Er prisskjemaet klart nok til at alle leverandører fyller ut det samme?
- [ ] Er avvikshåndtering beskrevet (hva skjer med nullpriser, negative priser, manglende poster)?
- [ ] Sitter du i leverandørens stol: finner du en ubalanse som kan utnyttes?
Før evalueringen gjennomføres:
- [ ] Er evalueringssummen beregnet nøyaktig i samsvar med den opplyste metoden?
- [ ] Er eventuelle priskorrigeringer (justering for opsjoner, nåverdiomregning, neddiskontering) gjort som opplyst?
- [ ] Gir prisformelen utslag som samsvarer med de reelle prisforskjellene i tilbudene?
- [ ] Er det noe priselement som driver rangeringen på en måte som ikke gjenspeiler den opplyste vektingen?
- [ ] Er beregningene dokumentert slik at en utenforstående kan gjenta dem og komme til samme resultat?
3.3 Evaluering av kvantitative kriterier
Kvantitative ikke-priskriterier virker forlokkende enkle. Leveringstid i dager, utslipp i tonn CO₂, responstid i timer, garantitid i måneder, andel lærlinger i prosent — alt kan telles, og alt kan settes inn i en formel. Likevel er det nettopp i de kvantitative kriteriene at mange evalueringsmodeller feiler. Årsaken er at det å «kunne telle noe» ikke betyr at tellingen automatisk gjenspeiler den verdien oppdragsgiver faktisk er ute etter. Skalavalg, terskler og måleenheter kan skape sprang i poengverdien som verken leverandørene eller oppdragsgiver selv forutså, og som i verste fall forskyver den reelle vektingen mellom tildelingskriteriene. I dette kapitlet gjennomgår vi hva som rettslig og faglig skiller kvantitative kriterier fra pris og fra kvalitativt skjønn, hvilke poengsettingsmodeller som er aktuelle, og hvilke feller som lurer i valget av skala, terskel og trappetrinn.
Hva skiller kvantitative kriterier fra pris og fra kvalitativt skjønn?
Det er nyttig å plassere kvantitative kriterier i landskapet mellom de to andre hovedkategoriene av tildelingskriterier — pris og kvalitativt skjønn — fordi grensedragningen styrer hvilke metoder som er tilgjengelige og hvilke feilkilder som dominerer.
Pris er i seg selv et kvantitativt kriterium, men det har en særstilling: det måles i den samme enheten som hele anskaffelsens mål — kroner. Pris trenger ikke «oversettes» til poeng for å bli sammenlignbar med kostnad; den er kostnad. Prisformler og prismodeller er derfor behandlet i kapittel 3.2. Det avgjørende skillet er at et kvantitativt ikke-priskriterium — for eksempel leveringstid i dager — krever en omregning til enten poeng eller kroner før det kan sammenstilles med prisen. Denne omregningen er ikke verdinøytral: den uttrykker oppdragsgivers betalingsvillighet for en bestemt egenskap, og det er nettopp her de metodiske valgene oppstår.
Kvalitative kriterier kjennetegnes ved at de krever en skjønnsmessig vurdering: gjennomføringsplan, prosjektforståelse, metodikk, estetikk. Her kan ikke tilbudet avleses på en talllinje. Oppdragsgiver må tolke en beskrivelse og plassere den i en poengkategori. Utfordringen er subjektivitet, kalibrering mellom evaluatorer og konsistens.
Kvantitative ikke-priskriterier befinner seg mellom disse: verdien kan avleses som et tall, men tallet er ikke kroner. Leverandøren tilbyr 14 dagers leveringstid, 850 kg CO₂-ekvivalenter, 8 prosent lærlingandel, 36 måneders garanti. Utfordringen er ikke subjektivitet — tallet er som regel objektivt verifiserbart — men verdsettelsen: Hvor mye bedre er 14 dager enn 21 dager? Er forskjellen mellom 850 og 900 kg CO₂ like «verdifull» som forskjellen mellom 400 og 450 kg?
Denne plasseringen mellom pris og skjønn har en rettslig konsekvens som ble presisert i KOFA 2015/60: «Det gjelder uansett ingen ubetinget plikt til å evaluere andre kvantitative eller kvalitative kriterier på samme måte som priskriteriet.» Oppdragsgiver har altså frihet til å velge en annen modell for kvantitative kriterier enn den som brukes for pris, men denne friheten bærer med seg et ansvar: modellvalget må gjøres bevisst, og det må gi relevante forskjeller relevante utslag.
Det rettslige rammeverket
De rettslige kravene til evaluering av kvantitative kriterier springer ut av de samme kildene som for alle andre tildelingskriterier, men noen krav får særlig betydning i den kvantitative konteksten.
Kriteriene må være tilknyttet leveransen. FOA 2017 § 18-1 krever at tildelingskriteriene har tilknytning til leveransen. For kvantitative kriterier betyr dette at det som telles, faktisk må si noe om leveransens verdi. Antall ansatte i bedriften sier for eksempel lite om kvaliteten i den konkrete leveransen; antall lærlinger i det tilbudte prosjektteamet kan derimot ha direkte tilknytning.
Evalueringsmodellen må gi relevante forskjeller relevante utslag. Dette er det gjennomgående kravet fra KOFA-praksis. I KOFA 2005/290 ble det konstatert brudd fordi en faktisk, erkjent og relevant forskjell overhodet ikke fikk gjennomslag i poengsettingen. For kvantitative kriterier innebærer dette at skalavalget ikke må «spise» reelle forskjeller — for eksempel ved at en trappetrinnmodell plasserer to vesentlig ulike tilbud i samme kategori.
Modellen kan ikke forskyve den oppgitte vektingen. KOFA 2011/201 (Eidsberg kommune) er et nøkkeleksempel: Oppdragsgiver brukte forholdsmessig metode for pris og en fast skala for kvalitet og miljø. Resultatet var at prisens reelle vekt ble høyere enn oppgitt. Lærdommen gjelder direkte for kvantitative kriterier: Når et kvantitativt kriterium evalueres med en annen skalatype eller et annet spenn enn priskriteriet, må oppdragsgiver kontrollere at den faktiske innflytelsen til hvert kriterium stemmer med den oppgitte vekten.
Metoden trenger ikke offentliggjøres, men hvis den offentliggjøres, binder den. EU-domstolen fastslo i C-6/15 (Dimarso) at det ikke er et generelt krav om å opplyse om evalueringsmodellen i konkurransegrunnlaget. Samtidig fastslo domstolen at metoden ikke kan føre til en endring av tildelingskriteriene eller vektingen. KOFA har lagt dette til grunn konsekvent: I KOFA 2023/0999 (Statens vegvesen) ble oppdragsgiver felt for å ha normalisert poeng etter tilbudsåpning uten å ha beskrevet dette i konkurransegrunnlaget. Intensjonen var god — å rette opp en skjevhet — men leverandørene hadde ikke grunnlag for å forstå at poengene ville bli justert. For kvantitative kriterier med forhåndsdefinerte skalaer betyr dette at du bør publisere skalaen, og at du etter publisering er bundet av den.
Terskelen for overprøving av modellvalget er høy. Som KOFA har uttalt gjentatte ganger, blant annet i stornemndas sak 2021/1000: «Utgangspunktet er at valg av evalueringsmodell ligger innenfor oppdragsgivers innkjøpsfaglige skjønn, og at dette skjønnet bare i begrenset grad kan overprøves rettslig.» Terskelen for å underkjenne en modell er høy, men den er ikke uoverstigelig — modellen kan underkjennes som «uegnet», jf. KOFA 2018/238.
De fire hovedmodellene for kvantitative kriterier
Kvantitative kriterier kan evalueres med fire hovedmodeller, hver med distinkte egenskaper. Her gjennomgår vi dem systematisk, med eksempler som viser hvordan de slår ut i praksis.
Lineær modell
Den lineære modellen gir poeng som en rett linje mellom to ytterpunkter. En typisk formulering:
Poeng = Maksscore × (Beste verdi − Evaluert verdi) / (Beste verdi − Dårligste verdi)
Eller, med absolutte referansepunkter:
Poeng = Maksscore × (Referanseverdi − Evaluert verdi) / (Referanseverdi − Nullpunkt)
Eksempel — leveringstid: Skala 0–10. Beste oppnåelige leveringstid settes til 7 dager (10 poeng), lengste akseptable leveringstid settes til 42 dager (0 poeng). Et tilbud på 21 dager gir: 10 × (42 − 21) / (42 − 7) = 6,0 poeng.
Styrke: Lineær modell gir maksimal differensiering mellom alle tilbud. Hvert ekstra dags forbedring gir nøyaktig like mange poeng. Den er enkel å forstå og forutsigbar for leverandørene.
Svakhet: Modellen er sårbar for utliggere. Hvis én leverandør tilbyr 3 dagers leveringstid mens alle andre ligger mellom 14 og 28 dager, vil utliggeren «strekke» skalaen slik at de reelle forskjellene mellom de øvrige tilbudene komprimeres. Dessuten forutsetter lineær modell at enheten har konstant verdi — at forskjellen mellom 10 og 15 dager er like «verdifull» som forskjellen mellom 35 og 40 dager. For mange parametere er dette ikke tilfellet.
Som kursmaterialet til FOA Pro poengterer: «Lineær gir maksimal differensiering, men er sårbar for utliggere.» Og videre: «Spørsmålet er ikke 'hvilken metode bruker vi alltid', men 'hvilken metode passer til dette kriteriet'.»
Forholdsmessig modell
Den forholdsmessige modellen gir avtagende poengutslag jo lenger man beveger seg fra den beste verdien. En typisk formulering for et kriterium der lavest verdi er best:
Poeng = Maksscore × (Beste verdi / Evaluert verdi)
Eksempel — leveringstid: Beste tilbud er 7 dager (10 poeng). Et tilbud på 21 dager gir: 10 × (7/21) = 3,33 poeng. Et tilbud på 42 dager gir: 10 × (7/42) = 1,67 poeng.
Styrke: Modellen demper effekten av utliggere. Et ekstremt dårlig tilbud trekker ikke ned de øvrige tilbudenes poengdifferanse. Ingen tilbud kan få null eller negative poeng.
Svakhet: Modellen komprimerer bunnen — forskjellen mellom et tilbud på 35 dager og et tilbud på 42 dager gir nesten ingen poengforskjell, selv om forskjellen kan ha reell praktisk betydning. DFØs veileder i evaluering av tilbud påpeker at «poengforskjellen blir mindre, jo høgare prisforskjellen er», og at metoden «fører til større poengutslag i intervallet nært opp til den lågaste prisen, og små poengutslag ved høgare tilbodsprisar». KOFA har i flere saker, blant annet KOFA 2014/95, vurdert om den forholdsmessige modellen er ulovlig og konkludert med at den ikke i seg selv er ulovlig, men at den bare bør brukes der den er egnet til å påvise relevante forskjeller.
Trappetrinnmodell
Trappetrinnmodellen deler opp verdiskalaen i forhåndsdefinerte intervaller, der alle verdier innenfor samme intervall gir samme poeng.
Eksempel — garantitid:
| Garantitid | Poeng |
|---|---|
| 60 måneder eller mer | 10 |
| 48–59 måneder | 8 |
| 36–47 måneder | 6 |
| 24–35 måneder | 4 |
| 12–23 måneder | 2 |
| Under 12 måneder | 0 |
Styrke: Full kontroll for oppdragsgiver. Du bestemmer selv hvor de meningsfulle grensene går, og du unngår at matematikken produserer verdier som ikke har faglig mening. Modellen er også helt robust mot utliggere — et tilbud på 120 måneders garanti gir ikke mer enn 10 poeng, og et tilbud på 1 måned gir ikke irrasjonelt lave poeng.
Svakhet: Modellen krever at du vet hvor de meningsfulle forskjellene ligger før du publiserer konkurransegrunnlaget. Hvis trinnene er feil plassert, kan to tilbud som er vesentlig forskjellige havne på samme trinn, mens to tilbud med ubetydelig forskjell havner på ulike trinn. Det siste — et sprang fra 47 til 48 måneder som gir 2 poeng ekstra — kan virke vilkårlig og skape incitamenter til taktisk tilpasning akkurat over trinnskillet.
I KOFA 2025/0509 (Larvik kommune) ble en poengskala med trinnene 3-5-7-9-10 underkjent som for grovmasket til å fange relevante forskjeller. Modellen samsvarte heller ikke med den angitte «forholdsmetoden». Saken illustrerer at trappetrinn må kalibreres: trinnbredden, antallet trinn og poengavstanden mellom trinnene må passe til variasjonsbredden i det aktuelle markedet.
Som kursmaterialet formulerer det: «Trappetrinn gir kontroll, men krever at dere vet hvor de meningsfulle forskjellene ligger. Og husk: det er poengverdiene mellom trinnene som styrer effekten, ikke trinnbredden.»
Absolutt skala med fast kroneverdi (prissetting av kvalitet)
Her går oppdragsgiver utenom poeng og konverterer den kvantitative verdien direkte til et kronetillegg eller -fradrag. DFØ anbefaler nå primært prissetting av kvalitet, og for kvantitative kriterier er denne modellen særlig velegnet fordi omregningen fra fysisk enhet til kroneverdien tvinger oppdragsgiver til å artikulere sin betalingsvillighet eksplisitt.
Eksempel — CO₂-utslipp:
DFØs vedlegg om evalueringsmetodikk viser hvordan antall kg CO₂-ekvivalenter kan brukes som tildelingskriterium med en skala for fradrag: Oppdragsgiver fastsetter et kronetillegg per kg CO₂ over en basisverdi, eller et kronefradrag per kg under basis. Tilbudet med lavest evaluert pris (faktisk pris justert for CO₂-tillegg/fradrag) vinner.
Styrke: Direkte uttrykk for betalingsvillighet. Oppdragsgiver trenger ikke gå veien om poeng og kan etterpå kontrollere om prisen per sparte kg CO₂ faktisk var verdt det. DFØs veileder påpeker: «Etter konkurransen kan det være nyttig å undersøke hvor effektivt kriteriet man har brukt på miljø var. I eksempelet kan vi regne ut hvor mye hver kg CO₂ koster oppdragsgiver, sammenliknet med det nest beste tilbudet.»
Svakhet: Krever at oppdragsgiver kan sette en fornuftig kronepris per enhet. For noen parametere — for eksempel responstid i timer — kan det være vanskelig å kvantifisere verdien direkte i kroner uten en grundig behovsanalyse.
Sammenligning av modellene i praksis
For å illustrere hvordan modellvalget slår ut, bruker vi et konstruert eksempel med fire tilbud på en vedlikeholdskontrakt der leveringstid er et kvantitativt kriterium med 20 prosent vekt. Skala 0–10, der kortere leveringstid er bedre.
| Tilbud | Leveringstid (dager) |
|---|---|
| A | 7 |
| B | 14 |
| C | 21 |
| D | 42 |
Lineær modell (referansepunkter: 7 dager = 10 poeng, 42 dager = 0 poeng):
| Tilbud | Poeng |
|---|---|
| A | 10,0 |
| B | 8,0 |
| C | 6,0 |
| D | 0,0 |
Differansen mellom A og B er 2,0 poeng, mellom B og C er 2,0 poeng, mellom C og D er 6,0 poeng. Den lineære modellen gir store poengforskjeller mellom D og de øvrige, men like forskjeller mellom A, B og C.
Forholdsmessig modell (beste verdi = 7 dager):
| Tilbud | Poeng |
|---|---|
| A | 10,0 |
| B | 5,0 |
| C | 3,33 |
| D | 1,67 |
Differansen mellom A og B er 5,0 poeng, mellom B og C er 1,67 poeng, mellom C og D er 1,66 poeng. Den forholdsmessige modellen gir dramatisk stor forskjell mellom beste og nest-beste tilbud, men komprimerer bunnen kraftig.
Trappetrinn:
| Leveringstid | Poeng |
|---|---|
| 1–10 dager | 10 |
| 11–20 dager | 7 |
| 21–30 dager | 4 |
| Over 30 dager | 1 |
| Tilbud | Poeng |
|---|---|
| A | 10 |
| B | 7 |
| C | 4 |
| D | 1 |
Jevn differanse på 3 poeng mellom hvert trinn. Tilbud C, som ligger akkurat på trinngrensen med 21 dager, havner i den dårligere kategorien. Hadde C tilbudt 20 dager, ville C fått 7 poeng i stedet for 4 — et poengsprang som ikke gjenspeiler den reelle forbedringen.
Prissetting av kvalitet (betalingsvillighet: 5 000 kr per dag raskere enn 42 dager):
| Tilbud | Fradrag (kr) |
|---|---|
| A | 175 000 |
| B | 140 000 |
| C | 105 000 |
| D | 0 |
Her er verdien av hver dags forbedring konstant og uttrykt i kroner. Sammenstillingen skjer direkte mot prisen.
Eksempelet viser at samme tilbudsdata gir vidt forskjellig rangering avhengig av modellvalg, særlig når ett tilbud skiller seg vesentlig fra de øvrige. Modellvalget er derfor ikke et teknisk spørsmål — det er et innkjøpsfaglig spørsmål som må avgjøres ut fra hva oppdragsgiver faktisk verdsetter.
Risiko for dobbeltelling mot kravspesifikasjonen
Et gjennomgående problem med kvantitative kriterier er at de kan overlappe med absolutte krav i kravspesifikasjonen. Sondringen mellom minstekrav og tildelingskriterier er sentral i anskaffelsesretten og ble tydelig illustrert i KOFA 2023/1024 (Alta kommune): Oppdragsgiver ga valgte leverandør full poengscore på miljøkriteriet selv om leverandøren verken hadde vedlagt VECTO-beregning eller oppgitt CO₂-utslipp. Nemnda uttalte at «dersom oppfyllelse av minstekravet [Euro 6] i seg selv var tilstrekkelig til full poengscore, hadde miljøkriteriet vært uten selvstendig betydning.»
Problemet oppstår typisk slik:
- Kravspesifikasjonen sier: «Leveringstid skal ikke overstige 30 dager.»
- Tildelingskriteriet sier: «Leveringstid evalueres med poeng.»
Hvis poengskalaen starter ved 30 dager med nullpoeng og går oppover, er det ingen dobbeltelling — tilbud som ikke oppfyller minstekravet avvises uansett, og poengene premierer kun overoppfyllelse. Men hvis minstekravet er 30 dager og alle tilbud i markedet typisk tilbyr mellom 10 og 25 dager, er hele poengskalaen i praksis konsentrert i et smalt intervall over minstekravet. Da kan et tildelingskriterium som ser ut til å ha 20 prosent vekt, i virkeligheten ha minimal innflytelse — fordi poengdifferansene blir svært små.
Motsatt: Hvis tildelingskriteriet premierer «garantitid» og kravspesifikasjonen allerede krever 24 måneders garanti som minstekrav, mens alle leverandørene i markedet typisk tilbyr mellom 24 og 36 måneder, premierer kriteriet bare et smalt intervall av overoppfyllelse. Praktikeren bør kontrollere om det smale intervallet faktisk gir nok differensiering til å forsvare kriteriet som selvstendig tildelingskriterium.
Den rettslige regelen er klar: Et tildelingskriterium må ha selvstendig betydning. Det må skille mellom tilbudene. Minstekravoppfyllelse alene skal ikke gi poenguttelling under tildelingskriteriet; det er nettopp dette som er formålet med sondringen.
For praktikeren innebærer dette to konkrete kontrollpunkter:
- Kontroller at nullpunktet på poengskalaen ligger ved minstekravet, ikke under det. Hvis minstekravet er 30 dagers leveringstid, bør 30 dager gi 0 poeng (eller laveste poeng) under tildelingskriteriet — ikke for eksempel 5 av 10 poeng.
- Kontroller at det forventede tilbudsintervallet faktisk ligger innenfor poengskalaen. Hvis alle tilbud forventes å ligge mellom 10 og 20 dager, men skalaen strekker seg fra 0 til 30 dager, bruker du bare en tredjedel av skalaen — og det kvantitative kriteriet får reelt sett en tredjedel av den oppgitte vekten.
Valg av skala og kalibrering
Skalaspørsmålet for kvantitative kriterier har to dimensjoner: finhet (hvor mange trinn) og bredde (fra hvilken verdi til hvilken verdi).
Finhet
Den danske Konkurrence- og Forbrugerstyrelsens praktiske veiledning om evalueringsmodeller poengterer at «en skala med for få trin i pointskalaen vil muligvis give det udfald, at tilbuddene ikke varierer i point, selv om der eksempelvis er kvalitetsforskelle i tilbuddene. En sådan skala vil altså ikke give mulighed for at differentiere imellem tilbud. En skala med for mange trin kan medføre, at det bliver svært for ordregiver at skelne imellem de forskellige tilbud.»
For kvantitative kriterier der verdien er en kontinuerlig variabel (dager, kg, timer), er det sjelden grunn til å bruke en grovmasket trinnmodell med tre eller fire trinn. En lineær eller forholdsmessig modell utnytter den fulle informasjonen i tallverdien. Men for kvantitative kriterier der forskjellene bare er meningsfulle i grove kategorier — for eksempel antall sertifiseringer der det reelle skillet går mellom «ingen», «én» og «flere» — er en trappetrinnmodell mer hensiktsmessig.
DFØs veileder om poengmodeller slår fast: «Oppdragsgiver må velge en poengskala som er finmasket nok til å gi et korrekt uttrykk for oppdragsgivers betalingsvillighet for ulike kvalitative egenskaper.» Selv om veilederen her bruker ordet «kvalitative», gjelder prinsippet i like stor grad for kvantitative verdier.
Bredde — absolutt versus relativ skala
Et avgjørende valg er om skalaens ytterpunkter fastsettes absolutt (forhåndsbestemt av oppdragsgiver) eller relativt (bestemt av de innkomne tilbudene).
Absolutt skala: Oppdragsgiver fastsetter at 7 dager gir 10 poeng og 42 dager gir 0 poeng, uavhengig av hva som faktisk tilbys. Hvis alle tilbud ligger mellom 14 og 18 dager, brukes bare en liten del av skalaen — men poengdifferansene gjenspeiler den forhåndsdefinerte verdivurderingen.
Relativ skala: Beste tilbud får 10 poeng, dårligste tilbud får 0 poeng, og øvrige interpoleres. Her utnyttes hele skalaen, men en liten forskjell mellom beste og dårligste tilbud kan gi store poengutslag.
DFØs veileder om poengmodeller påpeker at det «har vært hevdet at det er nødvendig å utnytte hele skalaen for ikke å forrykke den oppgitte relative vekten til de ulike tildelingskriteriene. Dette er en oppfatning som ikke er riktig. En poengforskjell på ett poeng mellom tilbud A og B har akkurat den samme betydning for sluttresultatet av konkurransen uansett hvor på skalaen denne poengforskjellen oppstår.» Tydligere kan det knapt sies: det er poengdifferansene som styrer resultatet, ikke om hele skalaen er brukt.
Dette har en viktig praktisk implikasjon for kvantitative kriterier: En absolutt skala der bare en del av skalaen brukes, forskyver ikke vektingen — forutsatt at poengdifferansene faktisk gjenspeiler oppdragsgivers betalingsvillighet. En relativ skala kan derimot føre til at små faktiske forskjeller blåses opp til store poengdifferanser, noe som i praksis kan forskyve det kvantitative kriteriets vekt oppover. KOFA-stornemndas uttalelse i sak 2021/1000 understreker dette med enda større tyngde: «I flere tilfeller vil en slik normalisering tvert imot kunne gi uønskede og uriktige utslag, særlig i tilfeller hvor det kvalitativt beste tilbudet har relativt lav kvalitet. Da kan det bli mange kvalitetspoeng å fordele på et lite kvalitetsintervall. Det kan føre til at poengdifferansene blir for store, noe som igjen kan medføre at små kvalitetsforskjeller får uforholdsmessig stor betydning.»
Metodisk anbefaling: For kvantitative kriterier bør oppdragsgiver som hovedregel bruke en absolutt skala. Referansepunktene bør fastsettes på grunnlag av markedsundersøkelse og behovsanalyse før konkurransegrunnlaget publiseres. En absolutt skala gjør evalueringen uavhengig av de innkomne tilbudene, forhindrer at utliggere forvrenger skalaen, og gir leverandørene full forutsigbarhet om hva som gir uttelling.
Ikke-linearitet i fysiske størrelser
Et subtilt men viktig problem med kvantitative kriterier er at mange fysiske enheter ikke har lineær verdi. Kursmaterialet gir et treffende eksempel: «For støy i desibel — der 3 dB er en dobling av lydeffekten — er hverken lineær eller forholdsmessig riktig, fordi tallverdien ikke gjenspeiler den fysiske virkeligheten.»
Tilsvarende problemstillinger oppstår for:
- Energieffektivitet (kWh per m²): Forbedring fra 150 til 140 kWh/m² er lettere og billigere å oppnå enn forbedring fra 50 til 40 kWh/m². En lineær modell premierer begge like mye.
- Utslipp (CO₂-ekvivalenter): Reduksjon fra 1000 til 500 kg er sannsynligvis enklere enn reduksjon fra 100 til 50 kg — men begge er en halvering, og en forholdsmessig modell ville gi dem lik uttelling.
- Responstid: Forskjellen mellom 1 time og 2 timer kan være kritisk; forskjellen mellom 23 timer og 24 timer er sjelden det.
Løsningen er enten å bruke en trappetrinnmodell der trinnene er plassert ved de faglig meningsfulle grensene, eller å bruke prissetting av kvalitet der kroneverdien per enhet varierer avhengig av nivå. For desibel kan oppdragsgiver for eksempel sette kroneverdien per dB som dobbelt så høy under 50 dB som over 70 dB, fordi den fysiske opplevelsen og den tekniske kostnaden ved å oppnå ytterligere reduksjon er fundamentalt forskjellig.
Miljø- og livssykluselementer som kvantitative kriterier
Miljø- og livssykluselementer er et voksende felt for kvantitative tildelingskriterier, og de illustrerer både mulighetene og fallgruvene på en særlig tydelig måte.
CO₂-utslipp og klimagassekvivalenter
DFØs vedlegg om evalueringsmetodikk gir et eksempel på hvordan antall kg CO₂-ekvivalenter kan brukes direkte som tildelingskriterium. Modellen er: For hvert tilbud beregnes CO₂-utslippet. Tilbudet med lavest utslipp gir størst fradrag fra evaluert pris, etter en fast kroneverdi per kg CO₂. Veilederen advarer samtidig: «I konkurranser med relativt lave utslipp og liten forskjell mellom tilbudene, kan oppdragsgiver ende med å betale uforholdsmessig mye for en liten miljøgevinst.»
Dette er et sentralt poeng. Når oppdragsgiver fastsetter en kroneverdi per kg CO₂, uttrykker dette en eksplisitt betalingsvillighet. Hvis den kroneverdien er høyere enn kostnaden ved andre klimatiltak, bruker oppdragsgiver ressursene ineffektivt. Konsekvensanalyse før publisering er derfor avgjørende (se kontrollspørsmålene nedenfor).
Energiforbruk i driftsfasen
Livssykluskostnader (LCC) kan i noen tilfeller konvertere et kvalitativt vurderingstema til et kvantitativt kriterium. Energiforbruk i kWh per år, ganget med en antatt energipris over kontraktsperioden, gir en kronevurdering som kan legges til tilbudsprisen. Dette er i realiteten en utvidelse av priskriteriet til å omfatte driftskostnader — noe FOA 2017 § 18-1 tredje ledd eksplisitt åpner for.
Andeler versus absolutte tall
Kursmaterialet belyser et viktig manipulasjonsproblem ved bruk av andeler som kvantitativt kriterium — for eksempel «andel elektrisk transport». Problemet er at en leverandør kan manipulere andelen ved å rapportere lavt totalvolum. Kursmaterialet foreslår to løsninger: Enten gjøre totalt transportvolum til en juridisk bindende forpliktelse (der overskridelse straffes), eller snu kriteriet helt — i stedet for å premiere andelen elektrisk transport, poengsette totale utslipp fra transport. «Lavest utslipp gir best score. Det er enklere, mer robust, og vanskeligere å manipulere.»
Dette er en generell lærdom for kvantitative miljøkriterier: Absolutte mål (totale utslipp, total energibruk, totalt avfall) er nesten alltid mer robuste enn relative mål (andeler, prosenter, intensiteter), fordi absolutte mål ikke kan manipuleres gjennom justering av nevneren.
Dokumentasjon og kontroll av tallgrunnlaget
Kvantitative kriterier innebærer at leverandøren oppgir et tall som oppdragsgiver bruker direkte i evalueringen. Dette reiser to spørsmål: Hvordan sikrer oppdragsgiver at tallet er korrekt? Og hva skjer hvis tallet viser seg å være feil etter kontraktstildeling?
Krav til dokumentasjon i tilbudet
Oppdragsgiver bør — og vil i de fleste tilfeller måtte — kreve dokumentasjon for de kvantitative verdiene som oppgis. For CO₂-utslipp kan dette være VECTO-beregning, EPD-dokumentasjon (Environmental Product Declaration) eller uavhengig verifisering. For leveringstid kan det være en fremdriftsplan som underbygger det oppgitte antallet dager. For garantitid kan det være et skriftlig garantidokument med vilkår.
KOFA 2024/1960 (Oslobygg KF) er illustrerende selv om saken gjaldt kvalitative kriterier: Nemnda presiserte at «formålet med dokumentasjonskrav under tildelingskriterier er å legge til rette for evaluering, og at oppdragsgiver er bundet av de rammene dokumentasjonskravene oppstiller.» Ressurser uten dokumentert fem års erfaring fikk ikke uttelling. Prinsippet gjelder tilsvarende for kvantitative kriterier: Hvis konkurransegrunnlaget krever dokumentasjon for utslippstall, må oppdragsgiver avvise udokumenterte tall — ikke godta dem i god tro.
Kontroll og verifisering
Oppdragsgiver har en kontrollplikt som utløses av konkrete holdepunkter for at opplysningene er uriktige. For kvantitative verdier kan dette innebære å sjekke om oppgitt leveringstid er realistisk gitt leverandørens kapasitet, om oppgitte utslippstall er konsistente med kjent teknologi, eller om oppgitt responstid er mulig å oppnå med tilbudt bemanning. Men kontrollplikten er ikke absolutt — generell skepsis er ikke nok. Det kreves «konkrete og foreliggende holdepunkter», som behandlet i KOFA-praksis om tilbudsforståelse.
Kontraktsrettslig forankring — sanksjonslogikken
Et kvantitativt tildelingskriterium som ikke er forankret i kontrakten, er en tom øvelse. Hvis leverandøren får 8 poeng for 14 dagers leveringstid, men kontrakten ikke inneholder sanksjoner ved forsinkelse utover 14 dager, har leverandøren et incitament til å oppgi optimistisk leveringstid uten å bære risikoen.
Kursmaterialet beskriver en sanksjonslogikk: «Fordelen i konkurransen = naturlig målestokk for sanksjonen.» Hvis en leverandør fikk 15 MNOK i fradrag for lave utslipp i evalueringen, bør sanksjonen i kontrakten ved overskridelse av utslippsforpliktelsen ligge i samme størrelsesorden. Uten denne koblingen kan leverandørene spille evalueringsmodellen uten å faktisk levere det de tilbyr.
For kvantitative kriterier innebærer dette at oppdragsgiver allerede i konkurransegrunnlaget bør:
- Gjøre den oppgitte kvantitative verdien til en kontraktsforpliktelse.
- Fastsette en sanksjon (dagmulkt, prisreduksjon, hevingsrett) som gjenspeiler verdien kriteriet fikk i evalueringen.
- Sikre at verdien er verifiserbar under kontraktsgjennomføringen — noen kan måle den.
Vanlige feil ved evaluering av kvantitative kriterier
Basert på KOFA-praksis og metodelitteraturen kan følgende feilmønstre identifiseres:
1. Dobbeltelling. Oppdragsgiver setter et absolutt krav om minimum 24 måneders garanti og bruker garantitid som tildelingskriterium — uten å justere skalaens nullpunkt opp til minstekravet. Resultatet er at tilbud som bare oppfyller minstekravet, likevel får poeng, og at minstekravet i realiteten mister sin funksjon som avvisningsgrunn.
2. Feil skalatype for kriteriet. Lineær modell brukes for en enhet med ikke-lineær verdi (for eksempel desibel eller energieffektivitet), eller forholdsmessig modell brukes der oppdragsgiver egentlig verdsetter forbedringer jevnt over hele intervallet.
3. Relativ skala uten konsekvensanalyse. Oppdragsgiver bruker relativ skala der beste tilbud får 10 poeng og dårligste 0 poeng, uten å ha testet hva som skjer hvis tilbudsintervallet er smalt. I en konkurranse der alle tilbud ligger mellom 12 og 15 dagers leveringstid, vil en relativ skala gi en poengdifferanse på 10 poeng for en forskjell på 3 dager — som kan tilsvare en utilsiktet høy betalingsvillighet.
4. Uspesifiserte trappetrinn. Oppdragsgiver definerer trappetrinn for leveringstid, men opplyser ikke eksplisitt hvilke intervaller som gjelder eller hvilken poengverdi hvert trinn gir. KOFA 2024/1273+1372 illustrerer det generelle prinsippet: «KOFA aksepterte metoden (høyeste pris + tillegg). Men den må beskrives på forhånd. Og: unngå harde terskler — bruk glidende skala. Tilbyderne optimaliserer mot reglene du setter. Hvis de ikke kjenner reglene, er det ikke rettferdig.»
5. Manglende kontraktsforankring. Det kvantitative kriteriet evalueres, poeng gis, kontrakt tildeles — men den oppgitte verdien finnes ikke som forpliktelse i kontrakten. Leverandøren har vunnet på et løfte som ikke kan håndheves.
6. Manipulerbare andeler. Prosentandeler brukes som tildelingskriterium uten at den absolutte størrelsen er forankret. Leverandøren kan manipulere prosenten ved å justere nevneren.
7. Normalisering etter tilbudsåpning. Oppdragsgiver oppdager etter tilbudsåpning at poengskalaen ikke fungerer som forutsatt, og forsøker å normalisere. KOFA 2023/0999 viser at dette bryter forutberegnelighetskravet når normaliseringen ikke er forhåndsbeskrevet.
8. For grovmasket skala. Trinnmodellen har så få trinn at vesentlig ulike tilbud får samme poeng. KOFA 2025/0509 er et tydelig eksempel. Omvendt kan en for finmasket skala for et kvalitativt kriterium evaluert skjønnsmessig gi vilkårlige utslag, men for kvantitative kriterier der verdien er objektivt målbar, er en finmasket skala sjelden et problem.
Kontrollspørsmål før publisering og evaluering
Oppdragsgiver bør gjennomgå følgende spørsmål for hvert kvantitativt tildelingskriterium:
Før konkurransegrunnlaget publiseres:
- Er det kvantitative kriteriet reelt forskjellig fra minstekravene i kravspesifikasjonen, eller premierer det bare oppfyllelse av minstekravet?
- Er måleenheten entydig definert? Vet leverandørene nøyaktig hva de skal oppgi (for eksempel: er «leveringstid» kalenderdager eller virkedager? Er «utslipp» målt per tjenestereise eller per kontraktsår)?
- Er skalaens ytterpunkter fastsatt absolutt, og er de realistiske gitt markedets variasjon? Har du testet hva som skjer med poengdifferansene dersom alle tilbud ligger i den nedre, midtre eller øvre delen av skalaen?
- Er poengsettingsmodellen (lineær, forholdsmessig, trappetrinn, kroneverdi) tilpasset enhetens egenskaper? Har enheten lineær verdi, eller bør verdien avta/øke i ulike deler av intervallet?
- Er den kvantitative verdien gjort til en kontraktsforpliktelse med korresponderende sanksjon?
- Har du gjennomført en konsekvensanalyse der du simulerer ulike tilbudsscenarier for å se om modellen gir resultater som stemmer med din betalingsvillighet?
- Er det kvantitative kriteriet robust mot taktisk tilpasning? Kan en leverandør manipulere verdien uten å faktisk levere bedre?
Under evalueringen:
- Er alle oppgitte verdier dokumentert i samsvar med dokumentasjonskravene i konkurransegrunnlaget?
- Er udokumenterte verdier avvist eller etterprøvd?
- Er poengsettingen gjennomført konsistent for alle tilbud — samme modell, samme skala, samme referansepunkter?
- Er det kontrollert at ingen normalisering eller skalajustering foretas som ikke er forhåndsbeskrevet?
- Gir de beregnede poengdifferansene mening sett opp mot de faktiske forskjellene mellom tilbudene? Hvis to tilbud med nesten identisk verdi får svært ulike poeng — eller omvendt — bør det analyseres om modellen er kalibrert riktig. Men merk: Denne kontrollen endrer ikke modellen; den dokumenterer at modellen fungerer som forutsatt.
Oppsummering: Modellvalget er et innkjøpsfaglig ansvar
Kvantitative kriterier gir en forlokkende illusjon av objektivitet. Tallene er presise, formelen er matematisk, og resultatet ser uangripelig ut. Men bak hver formel ligger en rekke valg — skalatype, ytterpunkter, trinnplassering, kroneverdi per enhet — som alle uttrykker oppdragsgivers betalingsvillighet. Disse valgene er ikke tekniske; de er innkjøpsfaglige og i siste instans kommersielle. Og som KOFA-stornemndas sak 2021/1000 og DFØs veileder begge understreker: oppdragsgiver bør ha fokus på å uttrykke sin betalingsvillighet gjennom poengforskjeller, ikke på å utnytte hele skalaen eller normalisere i etterkant.
Rettslig sett har oppdragsgiver vide rammer. Terskelen for å underkjenne en evalueringsmodell er høy. Men denne friheten innebærer et ansvar for å velge den modellen som best gjenspeiler hva oppdragsgiver faktisk verdsetter — og for å teste modellen grundig før den publiseres. En konsekvensanalyse som simulerer ulike tilbudsscenarier er den viktigste kvalitetssikringen oppdragsgiver kan gjøre. Den koster lite. Å oppdage etter tilbudsåpning at modellen gir absurde resultater, koster mye.
3.4 Evaluering av kvalitative kriterier
Kvalitativ evaluering er kjernen i enhver konkurranse der tildelingskriteriet er beste forhold mellom pris eller kostnad og kvalitet. Det er her oppdragsgiver utøver mest faglig skjønn, og det er her de fleste KOFA-sakene oppstår. Problemet er sammensatt: Skjønnet må være reelt – det vil si at det faktisk skiller mellom tilbudene på en meningsfull måte. Det må være sammenlignbart – alle tilbud må vurderes mot samme referanseramme. Og det må være etterprøvbart – både leverandørene og et eventuelt klageorgan må kunne forstå hvorfor ett tilbud fikk bedre uttelling enn et annet. Samtidig må ikke evaluatoren låse seg så fast i skjemaer og formler at det faglige øyet mister blikket for det som faktisk betyr noe for leveransens kvalitet.
Denne seksjonen behandler hvordan oppdragsgiver gjennomfører en lovlig og faglig god kvalitativ evaluering. Vi ser på hva det innebærer å foreta en reell kvalitativ vurdering, hvordan evalueringsmatriser og karakterbeskrivelser bygges opp, hvor grensen går mellom minimumskrav og meroppfyllelse, hvordan referanser, personell, intervju og presentasjon brukes som evalueringsgrunnlag, og hvordan like poeng kan være fullt lovlig – men også bli et problem.
Hva det vil si å foreta en reell kvalitativ vurdering
Problemet i praksis
Den vanligste feilen i kvalitativ evaluering er ikke at oppdragsgiver gjør noe aktivt galt, men at evalueringen ikke gjør noe i det hele tatt. Tilbudene får poeng, men poengene gjenspeiler ikke reelle kvalitetsforskjeller. Noen ganger skyldes det at kriteriet er formulert så vagt at evaluatorene mangler referansepunkt. Andre ganger skyldes det at evalueringsgruppen ikke har kompetanse til å vurdere det faglige innholdet i tilbudene, eller at tidspress fører til en overflatisk gjennomgang. Resultatet er det samme: en evaluering som formelt sett er gjennomført, men som ikke har identifisert de forskjellene som faktisk betyr noe for oppdragsgiver.
Rettslig ramme
FOA § 18-1 krever at tildelingskriterier skal ha tilknytning til leveransen. Kriteriet «kvaliteten på den tilbudte løsningen» er lovlig fordi det handler om leveransen. Kriteriet «leverandørens omdømme» er ulovlig fordi det handler om leverandøren som sådan. Denne koblingen til leveransen er det rettslige ankerfestet for kvalitativ evaluering: det som vurderes, må si noe om hva oppdragsgiver faktisk vil få levert.
Evalueringen må dessuten oppfylle de grunnleggende kravene til likebehandling, forutberegnelighet og etterprøvbarhet, jf. LOA § 4. Det betyr at oppdragsgiver må ha en tilstrekkelig tydelig evalueringsmetodikk til at leverandørene kan forstå hva som skiller et godt fra et middels tilbud – og at oppdragsgiver etterpå kan vise at evalueringen fulgte denne metodikken.
KOFA 2025/0160 er et tydelig eksempel på hva som skjer når dette kravet ikke oppfylles. Oppdragsgiver hadde beskrevet at «kvalitet» skulle evalueres, men ikke forklart hvordan. KOFA konstaterte at «vi vurderer kvalitet» er en overskrift, ikke en evalueringsmodell. Leverandøren måtte kunne forstå hva som skilte 3 poeng fra 7 poeng. Resultatet var at kvalitetskriteriet ble ansett ulovlig, og oppdragsgiver hadde plikt til å avlyse konkurransen.
Tilsvarende i KOFA 2023/1006, som gjaldt arbeidsmarkedstiltak med en verdi på 100–150 millioner kroner og kvalitet vektet 60 prosent. Oppdragsgiver brukte en skala fra 0 til 10, men hadde ingen typebeskrivelser. Det fantes ingen definisjon av hva som kjennetegnet et tilbud til 4 poeng sammenlignet med 7 poeng. Evalueringsgruppen manglet felles referansepunkt, og resultatet var inkonsistent poenggivning. KOFA understreket at en poengskala uten typebeskrivelser ikke er en metode – det er et tomt skjema.
Hva «reell» vurdering innebærer
En reell kvalitativ vurdering har tre kjennetegn. For det første er den substansiell: evaluatorene leser og forstår det faglige innholdet i tilbudene, ikke bare registrerer om formalia er oppfylt. For det andre er den komparativ: tilbudene vurderes mot hverandre og mot de kvalitetsmålene konkurransegrunnlaget har definert. For det tredje er den differensierende: der det finnes reelle kvalitetsforskjeller, gjenspeiles de i ulik poenguttelling; der det ikke finnes slike forskjeller, er det legitimt å gi lik poenguttelling.
DFØs veileder i evaluering av tilbud understreker dette poenget: det er kun relevante forskjeller i tilbudene som skal gi utslag i ulike fradrag eller poengforskjeller. Ikke enhver forskjell i kvalitative egenskaper trenger å utgjøre en forskjell i poeng. Forskjeller som ikke har betydning for oppdragsgivers betalingsvilje, skal ikke gis poengemessig utslag. Speilbildet er like viktig: forskjeller som har betydning for oppdragsgivers betalingsvilje, må gi utslag. Hvis evalueringen overser vesentlige kvalitetsforskjeller, risikerer oppdragsgiver å kåre feil vinner.
KOFA-praksisen bekrefter begge sider. I KOFA 2021/625 aksepterte nemnda at oppdragsgiver holdt seg til tildelingskriteriene slik de var angitt og at skjønnsutøvelsen under underkriteriene «Egenskaper og funksjoner», «Personell» og «Miljø» verken var vilkårlig eller sterkt urimelig. Evalueringen bygget på tilbudenes dokumenterte innhold. I motsatt retning: i KOFA 2024/0364 hadde oppdragsgiver ikke vist hvordan valgte leverandørs løsning var vurdert konkret opp mot klagers, annet enn at løsningen var vurdert som «tilstrekkelig». KOFA underkjente evalueringen fordi den manglende etterprøvbarheten hindret overprøving.
Den faglige kjernen er altså: Oppdragsgiver må gjøre seg opp en mening om hva som er godt og hva som er mindre godt innenfor hvert kvalitetskriterium – og denne meningen må være synlig i evalueringsdokumentasjonen.
Evalueringsmatriser, karakterbeskrivelser og vurderingsmomenter
Problemet i praksis
De fleste oppdragsgivere bruker en form for matrise der kriterier og underkriterier er listet opp på den ene aksen og leverandørene på den andre. I cellene settes det poeng, ofte på en skala fra 0 til 5, 0 til 6 eller 0 til 10. Problemet oppstår når matrisen bare inneholder tallene – uten at evaluatorene har en felles forståelse av hva tallene betyr. Én evaluator kan legge listen høyt og gi 4 av 10 til et godt tilbud, mens en annen legger listen lavt og gir 8 av 10 til tilsvarende kvalitet. Resultatet er intern inkonsistens som kan undergrave hele evalueringen.
Typebeskrivelser som felles referanseramme
En typebeskrivelse – på engelsk ofte kalt «scoring descriptor» – er en kort, kvalitativ beskrivelse av hva som kjennetegner hvert nivå på poengskalaen. Formålet er å gi evaluatorene et felles utgangspunkt, slik at poengsettingen blir konsistent på tvers av kriterier, evalueringsgruppens medlemmer og tilbud.
Et eksempel på en slik typebeskrivelse for en sekspunktsskala kan være:
- 0 – Ikke akseptabel: Tilbudet oppfyller ikke kravet eller gir ingen informasjon som kan evalueres.
- 1 – Svak: Tilbudet viser at leverandøren har forstått kravet, men løsningen har vesentlige svakheter eller mangler.
- 2 – Under middels: Tilbudet oppfyller kravet på et grunnleggende nivå, men gir ikke tilfredsstillende svar på vesentlige aspekter.
- 3 – Middels: Tilbudet oppfyller kravet tilfredsstillende og gir en akseptabel løsning uten vesentlige svakheter.
- 4 – God: Tilbudet viser en god forståelse av behovet og tilbyr en løsning med klare kvalitative fortrinn utover det som kreves.
- 5 – Svært god: Tilbudet viser en fremragende forståelse og tilbyr en løsning med betydelige kvalitative fortrinn. Risikoen er lav og nytteverdien høy.
Disse beskrivelsene er generiske og må tilpasses det konkrete kvalitetskriteriet. Det vesentlige er at de gir evaluatorene et felles vokabular. Hvis én evaluator mener tilbudet er «under middels» mens en annen mener det er «godt», tvinges de til å diskutere hva som begrunner forskjellen – og det er nettopp denne diskusjonen som skaper konsistens.
KOFA 2023/1006 illustrerer konsekvensen av å ikke ha slike beskrivelser. NAV Møre og Romsdal brukte en skala 0–10 for fire kvalitetsunderkriterier, men skalaen hadde ingen typebeskrivelser. Hadde oppdragsgiver definert kategoriene med typebeskrivelser på forhånd, ville evaluatorene hatt en felles ramme. I stedet ble poenggivningen inkonsistent.
Vurderingsmomenter under hvert kriterium
I tillegg til typebeskrivelser bør evalueringsmatrisen inneholde vurderingsmomenter – konkrete forhold som evaluatorene skal se etter under hvert kriterium. Disse kan komme fra konkurransegrunnlaget (der de er opplyst for leverandørene) eller fra en intern evalueringsguide (der de presiserer, men ikke utvider, det opplyste).
Forskjellen er rettslig viktig. Vurderingsmomenter som er en naturlig utfylling av det opplyste kriteriet, kan utarbeides internt. I KOFA 2021/339 (Simas) aksepterte nemnda at oppdragsgiver vektla kompetanse fra tilgrensende fagfelt, ekstra personell og egne erfaringer med personellet under kvalitetskriteriet – alt dette lå innenfor en naturlig forståelse av kriteriet. I KOFA 2008/161 bekreftet nemnda at underliggende vurderingspunkter som er naturlige utslag av opplyste kriterier, er lovlige.
Men det finnes en grense. I KOFA 2025/0211 (Sogndal kommune) hadde evalueringsgruppen under kriteriet «Prosjektgruppa si gjennomføringsevne» vektlagt kvalitative egenskaper ved løsningsforslaget – som hørte under et annet tildelingskriterium. KOFA tolket kriteriene objektivt og fant at blanding av vurderingstemaer på tvers av kriterier var ulovlig. Tilsvarende i KOFA 2024/2031 (Oslobygg), der oppdragsgiver vurderte flere referanseprosjekter enn konkurransegrunnlagets antallsbegrensning tillot, og dessuten trakk inn erfaring utenfor kriteriets lovlige vurderingstema. KOFA underkjente evalueringen.
Regelen er: Vurderingsmomenter kan konkretisere, men ikke utvide. De kan strukturere evalueringen, men de kan ikke innføre nye vurderingstemaer som leverandørene ikke kunne forutse.
Når kan evalueringsmatrisen utarbeides?
KOFA 2017/81 trekker grensen eksplisitt: Oppdragsgiver kan lovlig «strukturere sitt arbeid med å undersøke og analysere de avgitte tilbud» etter tilbudsåpning, men kan ikke fastsette selve bedømmelsesmetoden – herunder vekting av underkriterier og enkeltkrav – etter at tilbudene er kjent. I den saken hadde Statistisk sentralbyrå utarbeidet en evalueringsmatrise som innebar et detaljert vektingsskjema for underkriterier og enkeltkrav etter tilbudsåpning. Nemnda konstaterte brudd.
For den praktiske innkjøperen betyr dette: Den overordnede evalueringsmetodikken – poengskala, typebeskrivelser, eventuelle vekter på underkriterier – skal være fastsatt og helst dokumentert før tilbudsåpning. Rene praktiske struktureringer, som skjemaer for å systematisere lesingen av tilbudene, kan lages etterpå – så lenge de ikke endrer hva som evalueres eller hvordan det vektes.
Implisitt vekting gjennom matrisens konstruksjon
KOFA 2012/17 (Oslo kommune, kontorrekvisita) er et slående eksempel på at evalueringsmetoden kan skape en implisitt vekting som ingen har forutsett. Oslo kommune evaluerte 126 vareprøver på en skala 0–10 og multipliserte kvalitetspoengene med estimert innkjøpsvolum. Resultatet var at en kulepenn med 155 000 enheter ble vektet 1 550 ganger tyngre enn en kalkulator med 100 enheter. Evalueringsmetoden hadde skapt en reell vekting som verken var beskrevet eller tilsiktet.
Læringspunktet er generelt: Volum, antall dokumenter, antall referanseprosjekter – alt som multipliserer enkeltvurderinger kan endre den reelle vektingen. Oppdragsgiver som lager en matrise med mange underkriterier under ett hovedkriterium og få underkriterier under et annet, forskyder vektingen mellom hovedkriteriene selv om den formelle prosentvekten er lik. Test alltid at matrisens struktur gir den vektingen du faktisk ønsker.
Grensen mellom minimumskrav og meroppfyllelse
Problemet i praksis
Et gjennomgående spørsmål i kvalitativ evaluering er: Når kan oppdragsgiver gi poenguttelling for noe leverandøren tilbyr utover minstekravene? Og omvendt: Når er et krav i kravspesifikasjonen bare et minstekrav som ikke gir grunnlag for differensiering?
Spørsmålet er praktisk viktig fordi mange konkurransegrunnlag inneholder en blanding av absolutte krav (skal-krav) og evaluerbare forhold. Hvis grensen mellom dem er uklar, oppstår to problemer. Leverandørene vet ikke om de skal investere i å beskrive merverdi. Og oppdragsgiver risikerer å gi poeng for noe som egentlig bare kan besvares med ja eller nei.
Rettslig ramme
Hovedregelen er at et absolutt minstekrav – et krav som må oppfylles for at tilbudet ikke skal avvises – ikke i seg selv kan gi differensiert poenguttelling. Oppfyllelse av minstekravet er inngangsbilletten til konkurransen, ikke et kvalitetsfortrinn. Men: meroppfyllelse av kravet kan gi kvalitetsuttelling dersom dette er kommunisert for leverandørene.
KOFA 2025/1674 (Tønsberg kommune) er instruktiv. Klager anførte at evalueringskravene om vaktordning, forsvarlig bemanning og kildesortering fremstod som absolutte minstekrav uten rom for meroppfyllelse. KOFA vurderte hvert krav i sammenheng med de overordnede tildelingskriteriene og instruksen om å beskrive oppfyllelsen i eget vedlegg. Nemnda fant at samtlige krav «åpnet for reell konkurranse på kvalitet» – leverandørene kunne beskrive ulike løsninger og tilnærminger, ikke bare bekrefte oppfyllelse. Tolkningsnormen var hvordan konkurransegrunnlaget fremstod for en «rimelig opplyst og normalt påpasselig leverandør».
I motsatt retning: KOFA 2011/130 (Hammerfest kommune) gjaldt et underkriterium der leverandørene bare krysset av «ja» eller «nei» på om de hadde personell med angitt kompetanse. Kriteriet fungerte som et minstekrav og var ikke egnet til å identifisere det beste tilbudet. Oppdragsgiver hadde avlysningsplikt.
Og i KOFA 2023/0320 (Sykehusinnkjøp) ble «ca. 29 cm ± 1 cm» etter presiseringer et de facto minstekrav som ikke kunne danne grunnlag for kvalitetsuttelling. Å behandle det som et evaluerbart moment var brudd.
KOFA 2019/712 (Universitetet i Stavanger) understreker det samme fra en annen vinkel: Absolutte A-krav og evaluerbare forhold var ikke tydelig atskilt, slik at leverandørene ikke kunne forutse hva som ville gi poenguttelling. Brudd.
Praktisk veiledning
Testen for om noe er et minstekrav eller et evaluerbart krav er enkel i prinsippet, men krever bevisst design:
- Hvis kravet bare kan besvares med ja eller nei – det er et minstekrav. Bruk det i kravspesifikasjonen, ikke i tildelingsevalueringen.
- Hvis kravet kan oppfylles på ulike kvalitative nivåer – det kan være et evaluerbart krav, men bare dersom leverandørene er informert om at meroppfyllelse gir uttelling. Plasser kravet under tildelingskriteriet, og beskriv hva som gir høyere score.
- Hvis kravet har et absolutt minimum og et rom for meroppfyllelse over dette – bruk minstekravet som avvisningsgrunn og evaluer meroppfyllelsen under tildelingskriteriet. Skill tydelig mellom de to i konkurransegrunnlaget.
KOFA 2005/171 viser hva som skjer når dette skillet ikke overholdes i praksis: Underkriterier under kvalitet/funksjonalitet var presentert som del av en skjønnsmessig kvalitetsevaluering, men oppdragsgiver behandlet dem i praksis som godkjent/ikke-godkjent. Evalueringsmodellen forutsatte differensiert uttelling; oppdragsgiver leverte binær uttelling. Brudd på forutberegneligheten.
Referanser, personell, intervju og presentasjon som evalueringsgrunnlag
Problemet i praksis
Mange kvalitative tildelingskriterier evalueres på grunnlag av opplysninger om personell, referanseprosjekter, intervjuer eller presentasjoner. Disse vurderingsgrunnlagene skaper særskilte utfordringer fordi de befinner seg i grenselandet mellom kvalifikasjon (er leverandøren egnet?) og tildeling (hvilket tilbud er best?). Feilen som oftest gjøres, er å evaluere noe som i realiteten er leverandørens generelle egnethet, men kalle det kvalitetsevaluering.
Personell som evalueringsgrunnlag
Det er lovlig å bruke kvaliteten på tilbudt personell som tildelingskriterium, men bare der personellet har reell betydning for leveransens kvalitet. I KOFA 2014/53 (Oslo kommune) aksepterte nemnda at erfaring og kompetanse hos tilbudt personell ble evaluert under kvalitet, fordi evalueringen gjaldt det konkret tilbudte personellets kvalitet og merverdi for oppdraget. Nemnda fremhevet at konkurransegrunnlaget holdt et tydelig skille mellom minimumsegnethet (kvalifikasjon) og den ekstra kvaliteten ved de navngitte ressursene (tildeling).
Kontrasten er KOFA 2009/87 (Nordreisa kommune), der «Tilbyders fagkompetanse» ble brukt som tildelingskriterium. Nemnda la vekt på at kriteriet uttrykkelig gjaldt tilbyderen og dennes fagkompetanse generelt – ikke den konkrete leveransen, tilbudt nøkkelpersonell eller andre tilbudsspesifikke kvaliteter. Ulovlig.
KOFA 2010/131 (NAV Virkemiddelenhet Rogaland) viser et beslektet problem: Under tildelingskriteriet «kvalitet» inngikk «faglige og pedagogiske kvalifikasjoner på tilbudte instruktører» og «gode referanser». Kvalifikasjonskravene gjaldt leverandørens tekniske og faglige kompetanse. Nemnda fant at underkriteriene traff de samme forholdene på nytt uten tilstrekkelig avgrensning. Tildelingsvurderingen ble en repetisjon av kvalifikasjonsvurderingen.
Den rettslige testen er altså: Tildelingskriteriet om personell må tilføre noe utover kvalifikasjonsgrensen. Det evaluerte personellet må knyttes til den konkrete leveransen, og evalueringen må vurdere hva personellets kvaliteter betyr for oppdragsgivers forventede utbytte – ikke bare om personellet er kompetent nok til å gjøre jobben.
For personellevalueringen spesielt gjelder et ytterligere krav til dokumenterbarhet. I KOFA 2021/339 (Simas) aksepterte nemnda at oppdragsgiver vektla egne erfaringer med leverandørens personell, men senere KOFA-praksis har presisert at personlig eller intern kjennskap til tilbudt personell ikke kan brukes som vurderingsgrunnlag dersom erfaringene ikke er gjort objektivt konstaterbare og etterprøvbare. Udokumentert kjennskap kan ikke kompensere for mangler i tilbudet.
KOFA 2025/0952 (Sandefjord kommune) viser nok en felle: Oppdragsgiver ga valgte leverandør full uttelling for et referanseprosjekt som ikke var ferdigstilt, selv om konkurransegrunnlaget knyttet uttellingen til gjennomførte prosjekter. Evalueringen må forholde seg til de dokumentasjonskravene som er stilt.
Referanser som evalueringsgrunnlag
Referanseprosjekter kan lovlig brukes i tildelingsevalueringen, men bare dersom de brukes til å belyse forventet kvalitet ved den aktuelle leveransen. I KOFA 2024/594 (Statsbygg) evaluerte oppdragsgiver referanseprosjekters overføringsverdi og nøkkelpersonellets antikvariske erfaring under tildelingskriteriet «kvalitet». KOFA aksepterte dette: det avgjørende var at referansene ble brukt til å vurdere forventet kvalitet på leveransen, ikke leverandørens generelle egnethet.
Skillet mellom lovlig og ulovlig referansebruk kan stilles opp slik:
- Lovlig: Referanser brukes til å belyse konkret kvalitet ved tilbudt leveranse. Evaluering retter seg mot overføringsverdi til den aktuelle kontrakten. Referansene knyttes til tilbudt personell eller konkret metodikk.
- Ulovlig: Referanser måler generell erfaring eller egnethet. Evaluering gjentar kvalifikasjonskravets vurderingstema. Referansene telles kvantitativt uten kvalitativ vurdering.
KOFA 2019/664 viser grensen: Tildelingskriteriet «Tilbyders erfaring med tilsvarende arbeider» la bare opp til en kvantitativ telling av referanseprosjekter. Nemnda underkjente kriteriet fordi det ikke var egnet til å identifisere det beste tilbudet.
I KOFA 2024/0271 (Miljødirektoratet) aksepterte nemnda at en leverandør leverte fem referanseprosjekter selv om kvalifikasjonskravet stilte krav om tre, fordi tildelingskriteriet «Løsningsforslag/Oppdragsforståelse» ikke hadde noen slik tallbegrensning. Men i KOFA 2024/2031 (Oslobygg) ble evalueringen underkjent nettopp fordi oppdragsgiver vurderte flere referanseprosjekter enn konkurransegrunnlagets antallsbegrensning tillot. Regelen er at oppdragsgiver må forholde seg til den rammen konkurransegrunnlaget setter – den binder begge veier.
At referansedokumentasjon brukt i kvalifikasjonen også kan brukes i tildelingen, er uttrykkelig slått fast i FOA § 16-6 femte ledd – men bare dersom vurderingstemaene er ulike.
Intervju og presentasjon som evalueringsgrunnlag
Intervjuer og presentasjoner kan være verdifulle verktøy for å forstå innholdet i et tilbud, men de reiser særskilte etterprøvbarhetsproblemer. Det som sies i et intervjurom, er flyktig. Hvis oppdragsgiver baserer poenguttelling på momenter som bare kom frem muntlig, uten at de er dokumentert i tilbudet eller i skriftlig referat, svikter etterprøvbarheten.
Den rettslige føringen er at oppdragsgiver må sikre at det som evalueres, har forankring enten i det skriftlige tilbudet eller i dokumentasjon som er etterprøvbar i ettertid. KOFA 2023/402 presiserte at lenker til nettsider ikke ble tillagt vekt – ikke som en usaklig begrensning, men som en konsekvens av kravet til etterprøvbarhet: dokumentasjon som kan endres etter tilbudsfristen, er ikke egnet som evalueringsgrunnlag.
Det avgjørende er ikke om leverandøren har en kvalitet, men om tilbudet viser den. Oppdragsgiver har ingen plikt til å identifisere uuttalte kvaliteter, gi uttelling for muntlige forklaringer som ikke følger av tilbudet, videreføre innhold fra en tidligere tilbudsversjon, eller supplere tilbudet med ekstern kunnskap. Denne linjen følger tydelig av KOFA 2014/39 (NAV Tiltak Rogaland), der evalueringen ble akseptert fordi oppdragsgiver vurderte det reviderte tilbudet ut fra det som faktisk sto der – leverandøren bar risikoen for at ønskede kvaliteter ikke var tilstrekkelig synlige i siste tilbudsversjon.
Praktisk anbefaling for intervjuer og presentasjoner:
- Fastsett hva intervjuet/presentasjonen skal belyse i konkurransegrunnlaget, slik at leverandørene forbereder seg på det riktige.
- Skriv referat som evaluatorene signerer umiddelbart etter intervjuet.
- La det skriftlige tilbudet være utgangspunktet – intervjuet utdyper og verifiserer, men erstatter ikke tilbudets innhold.
- Bruk samme format og tidsramme for alle leverandører – likebehandling gjelder også her.
Poengsettingsprosessen: fra lesing til poeng
Individuelle vurderinger og konsensusmøte
God praksis i kvalitativ evaluering følger vanligvis en tredelt prosess. Først leser hver evaluator tilbudene individuelt og setter foreløpige poeng med skriftlig begrunnelse, basert på typebeskrivelsene og vurderingsmomentene. Deretter møtes gruppen til et konsensusmøte der poeng og begrunnelser diskuteres, og der eventuelle avvik mellom evaluatorenes vurderinger løses gjennom faglig argumentasjon. Til slutt fastsettes endelig poeng med tilhørende begrunnelse.
Konsensusmøtet er ikke en forhandling der evaluatorene «møtes på midten». Det er en kvalitetssikring der evaluatorene tvinger hverandre til å artikulere sine vurderinger. Hvis én evaluator gir 7 og en annen gir 4 på samme tilbud under samme underkriterium, skal konsensusmøtet avklare hva forskjellen skyldes. Har de sett forskjellige ting i tilbudet? Har de tolket typebeskrivelsene ulikt? Har den ene vektlagt et moment som den andre ikke har sett som relevant?
Dokumentasjonskrav til evalueringen
Evalueringen må dokumenteres i tidsnære dokumenter – det vil si dokumenter som produseres under eller umiddelbart etter evalueringen. KOFA 2024/1021 og KOFA 2025/662 viser at det er de tidsnære evalueringsdokumentene som utgjør kontrollgrunnlaget. Dokumentasjonen bør for hvert tilbud og hvert kvalitetskriterium inneholde:
- Gitt poeng.
- Kvalitativ begrunnelse for poenget, med henvisning til konkrete forhold i tilbudet.
- Sammenligning med de andre tilbudene der dette er relevant for differensieringen.
Knappe evalueringsnotater av typen «godt tilbud, 7 poeng» er ikke tilstrekkelig. Hva er det som gjør tilbudet godt? Hvilke konkrete egenskaper ved den tilbudte løsningen, det tilbudte personellet eller den beskrevne metoden gjør at evaluatorene mener det fortjener 7 av 10?
Skalavalg og bruk av skalaen
Oppdragsgiver må velge en poengskala som er finmasket nok til å gi et korrekt uttrykk for oppdragsgivers betalingsvillighet for ulike kvalitative egenskaper, som DFØs veiledning påpeker. En for grov skala (for eksempel 1–3) kan tvinge evaluatoren til å gi lik poeng til tilbud som faktisk er kvalitativt forskjellige. En for fin skala (for eksempel 1–100) kan gi inntrykk av en presisjon som ikke finnes i vurderingen.
I praksis er skalaer på 0–5, 0–6 eller 0–10 de vanligste. Hva som passer, avhenger av hvor mange tilbud som forventes og hvor finkornede kvalitetsforskjellene typisk er i den aktuelle markedssektoren. For anskaffelser der man forventer tre til fem tilbud med moderate kvalitetsforskjeller, er en 0–5 eller 0–6-skala ofte tilstrekkelig. For store rammeavtaler med mange tilbud og potensielt store kvalitetsforskjeller kan en 0–10-skala gi bedre differensiering.
KOFA 2022/99 aksepterte at bruk av hele tall i kvalitetsbedømmelsen var lovlig, selv om dette kunne medføre at mindre forskjeller mellom tilbud ikke fikk ulikt poengutslag. Det avgjørende var om evalueringen samlet sett var saklig, kriteriebundet og gjennomført på en likebehandlende måte. KOFA 2013/31 peker i samme retning: at enkelte forskjeller ikke ga utslag i ulik poengscore, var ikke i seg selv ulovlig når modellen likevel premierte de forskjellene oppdragsgiver saklig hadde valgt å vektlegge innenfor kriteriet.
Men oppdragsgiver kan ikke bruke en annen skala enn den som er opplyst. KOFA behandlet en sak der oppdragsgiver brukte en poengskala fra 0–6 i stedet for den kunngjorte skalaen 1–6 ved evaluering av kvalitative tildelingskriterier. Nemnda konstaterte brudd på forutberegnelighetsprinsippet: Når leverandørene var informert om en bestemt skala, men evalueringen brukte en annen, var utslagene ikke i samsvar med det som var opplyst.
Absolutt versus relativ vurdering
I storkammersak KOFA 2021/1000 (Ørsta kommune) uttalte nemnda at ved en absolutt vurdering vil det beste tilbudet ikke nødvendigvis treffe toppen av skalaen – og at det er uproblematisk at beste tilbud får 4 eller 5 av 10 poeng. Begrunnelsen var at man må spare poengene til en teoretisk fremragende løsning som kanskje ikke finnes i konkurransen.
Denne tilnærmingen – absolutt vurdering – innebærer at oppdragsgiver setter poeng ut fra en fast forestilling om hva ulike kvalitetsnivåer fortjener, uavhengig av hva de andre tilbudene tilbyr. Alternativet er relativ vurdering, der beste tilbud definisjonsmessig får toppkarakter.
Valget mellom absolutt og relativ vurdering har direkte konsekvens for den reelle vektingen mellom pris og kvalitet. Hvis oppdragsgiver bruker absolutt vurdering og ingen av tilbudene treffer toppen av skalaen, vil kvalitetens reelle vekt bli lavere enn den formelle prosentvekten. Et eksempel: Pris vektes 40 prosent med en lineær modell der laveste pris får 10 poeng. Kvalitet vektes 60 prosent, men beste tilbud får bare 5 av 10 poeng. Kvalitetens faktiske maksimale vektede uttelling er da 60 % × 5/10 = 30 prosentpoeng, mens pris' faktiske uttelling er 40 % × 10/10 = 40 prosentpoeng. Kvalitetens reelle vekt er blitt 30/70 ≈ 43 prosent i stedet for 60 prosent.
KOFA 2021/1000 aksepterte eksplisitt denne konsekvensen og fastslo at oppdragsgiver ikke er forpliktet til å normalisere poengscore. DFØs anbefaling om normalisering er «verken begrunnet i lov, forskrift eller rettspraksis». Normalisering kan tvert imot gi uønskede utslag: der det beste tilbudet har relativt lav absolutt kvalitet, blåser normalisering opp små kvalitetsforskjeller til store poengdifferanser.
DFØs veiledning følger opp: Dersom oppdragsgiver benytter en evalueringsmodell der normalisering blir et tema, anbefaler DFØ å la være å normalisere. Oppdragsgiver bør ha fokus på å uttrykke sin betalingsvillighet gjennom poengforskjeller. En senere normalisering vil gi et galt bilde av betalingsvilligheten.
Det er likevel ikke slik at normalisering alltid er forbudt. KOFA 2024/1458 aksepterte normalisering fordi den var beskrevet i konkurransegrunnlaget på forhånd. KOFA 2023/0999 underkjente normalisering fordi den ble gjennomført i etterkant for å rette en feil i poengsettingen. Regelen er: Normalisering er verken påbudt eller forbudt, men den må være opplyst på forhånd dersom den brukes.
For den som bruker modellen prissetting av kvalitet, er normalisering uansett ikke en aktuell problemstilling, fordi kvalitetsvurderingen uttrykkes direkte i kroner og øre.
Hvordan like poeng kan være lovlig – og når det blir et problem
Problemet i praksis
Like poeng på et kvalitetskriterium er ikke uvanlig. To leverandører kan tilby løsninger som oppdragsgiver mener er jevngode – eller i hvert fall at forskjellene mellom dem ikke er store nok til å fortjene ulikt poengutslag. Like poeng kan også oppstå fordi skalaen er for grov til å fange opp små forskjeller. Spørsmålet er når like poeng er et legitimt uttrykk for oppdragsgivers faglige vurdering, og når de er et tegn på at evalueringen ikke har gjort jobben sin.
Rettslig ramme
KOFA har i flere saker akseptert like poeng. I KOFA 2013/21 fikk klager og en annen tilbyder likt poengantall under kvalitetskriteriet. Nemnda fant ikke at dette var ulovlig – det sentrale var om poengsettingen saklig gjenspeiler den faglige vurderingen, ikke om den nødvendigvis produserer en unik rangering på hvert enkelt kriterium.
I et annet tilfelle vurderte KOFA en sak der alle tilbydere fikk lik score på et underkriterium. Nemnda aksepterte dette fordi den forhåndsbestemte poengsettingsmetoden var transparent og klart kommunisert. At markedet tilfeldigvis responderte med tilbud som alle oppfylte et kvalitetstak, var en markedsrespons, ikke en vektendring.
Kontrasten vises i KOFA 2009/4, der oppdragsgiver karakteriserte klagers tilbud som «likeverdig» på underkriteriet «service», men ga lavere poeng. KOFA underkjente: oppdragsgiver hadde ikke påvist relevante kvalitetsforskjeller som kunne begrunne den lavere uttellingen. Regelen er symmetrisk: Hvis vurderingen beskriver tilbudene som jevngode, må poengene være like. Hvis vurderingen beskriver tilbudene som forskjellige, må poengene gjenspeile forskjellen.
Når like poeng forskyver vektingen
Like poeng på kvalitet betyr at pris blir avgjørende. Det er i utgangspunktet uproblematisk – hvis kvalitet faktisk er likt, skal pris avgjøre. Men dersom like poeng skyldes at evalueringen ikke har greid å identifisere reelle kvalitetsforskjeller – for eksempel fordi skalaen er for grov, typebeskrivelsene for vage, eller vurderingen for overflatisk – har kvalitetskriteriet i praksis fått null vekt. Da har evalueringsmodellen ikke fungert etter sin hensikt.
KOFA 2011/201 (Eidsberg kommune) illustrerer problemet fra en annen vinkel. Oppdragsgiver brukte en forholdsmessig metode for pris og en fast skalabruk for kvalitet/miljø. Resultatet var at prisens reelle vekt ble høyere enn oppgitt. Brudd. Her var det ikke like poeng som var årsaken, men effekten var den samme: kvalitet fikk systematisk lavere uttelling enn den formelle vekten tilsa.
Praktisk veiledning
Like poeng er lovlig når de gjenspeiler en reell vurdering av at tilbudene er jevngode på det aktuelle kriteriet. Like poeng er problematisk når de skyldes at evalueringen mangler verktøy til å differensiere. Oppdragsgiver bør stille seg følgende spørsmål:
- Har evaluatorene faktisk vurdert hvert tilbud substantielt, eller har de gitt «standard» poeng uten reell analyse?
- Er poengskalaen finmasket nok til å fange opp de forskjellene som faktisk finnes?
- Er begrunnelsen for like poeng en positiv konstatering av jevn kvalitet, eller er den en negativ konstatering av manglende evne til å skille?
- Hva betyr de like poengene for samlet evaluering – forskyver de den reelle vektingen vesentlig?
Dokumentasjonskrav og kontrollregime for kvalitative påstander
Et kvalitativt tildelingskriterium har liten verdi hvis oppdragsgiver ikke kan verifisere om det leverandøren skriver i tilbudet, faktisk stemmer. Kursmaterialet understreker: For hvert kvalitetsvilkår – kan det dokumenteres, eller er det bare løfter uten bevis? Uten dokumentasjonskrav og kontrollregime er kriteriet ulovlig, jf. Fosen-Linjen-problematikken.
Dokumentasjonskravene har to funksjoner. For det første gir de evaluatorene noe konkret å vurdere – en løsningsbeskrivelse, en CV, en bemanningsplan, en eksempelrapport. For det andre gir de leverandørene veiledning om hva som vil bli tillagt vekt.
KOFA 2023/462 viser at et tildelingskriterium som isolert sett fremstår som vagt, kan oppfylle klarhetskravet dersom dokumentasjonskravet gir tilstrekkelig presisering. Men denne «redningen» har en grense: dokumentasjonskravet må faktisk gi leverandørene en forståelig veiledning om hvilke forhold som vil bli vurdert. Et dokumentasjonskrav som bare sier «beskriv tilbudt kvalitet» uten nærmere angivelse, vil neppe ha den innsnevrende funksjonen.
KOFA 2022/1657 godtok at en eksempelrapport ble brukt som bevis for kvalitet under tildelingskriteriet «Oppdragsforståelse» i en konkurranse om revisjonstjenester – dokumentet illustrerte metode og faglig tilnærming, og konkurransegrunnlaget ga tilstrekkelig informasjon om at revisjonsplanen skulle inneholde bakgrunn, gjennomføring, estimert omfang og metode.
Kontrollregimet er den andre siden av mynten. Hvis oppdragsgiver premierer at en leverandør lover høy kvalitet i tilbudet, men ikke har mekanismer for å kontrollere om kvaliteten faktisk leveres, inviterer man til opportunistisk adferd. Kontrollregimet kan bestå av sanksjonsklausuler i kontrakten, krav om dokumentasjon av oppfyllelse underveis, eller målesystemer som leverandøren må akseptere. Det viktige er at det eksisterer en kobling mellom det som evalueres i tilbudet og det som kontrolleres i kontrakten.
Vanlige feil i kvalitativ evaluering
Basert på gjennomgangen av KOFA-praksis og faglitteraturen kan de vanligste feilene i kvalitativ evaluering oppsummeres slik:
- Ingen typebeskrivelser. Evaluatorene har en poengskala, men ingen felles forståelse av hva tallene betyr. Resultatet er inkonsistent poenggivning (KOFA 2023/1006).
- Vurderingstemaer blandes på tvers av kriterier. Egenskaper som hører under ett kriterium, evalueres under et annet. Resultatet er at leverandørene ikke kan forutse hva som evalueres hvor (KOFA 2025/0211).
- Kvalifikasjonskrav repeteres som tildelingskriterier. Leverandørens generelle egnethet evalueres på nytt under kvalitetskriteriet, uten at det tilføres noe nytt (KOFA 2010/131, KOFA 2011/367).
- Minstekrav brukes som differensieringsgrunnlag. Ja/nei-krav gis gradert poenguttelling (KOFA 2011/130, KOFA 2005/171).
- Udokumenterte vurderinger. Oppdragsgiver baserer seg på intern kjennskap til leverandøren eller personellet, uten at dette er gjort etterprøvbart i evalueringsdokumentene.
- Uopplyste vurderingsmomenter. Evalueringsmatrisen innfører nye vurderingstemaer som leverandørene ikke kunne forutse (KOFA 2017/81, KOFA 2024/2031).
- Implisitt vekting gjennom matrisens struktur. Antall underkriterier eller multiplikasjonsmekanismer forskyder den reelle vektingen mellom hovedkriteriene (KOFA 2012/17).
- Etterfølgende normalisering uten forhåndsopplysning. Oppdragsgiver normaliserer kvalitetspoeng for å rette opp en ubalanse, men uten at dette var opplyst i konkurransegrunnlaget (KOFA 2023/0999).
- Manglende sammenligning mellom tilbudene. Hvert tilbud vurderes for seg, uten at evaluatorene har tatt stilling til de relative forskjellene.
- For grunn evaluering. Tilbudene skannes overflatisk, og det gis standardiserte poeng som ikke reflekterer det faktiske innholdet.
Prissetting av kvalitet som alternativ til poengmodell
For fullstendighetens skyld bør det nevnes at mange av utfordringene med kvalitativ poengsetting kan reduseres ved å bruke evalueringsmodellen prissetting av kvalitet, som DFØ nå primært anbefaler. I denne modellen uttrykkes kvalitetsvurderingen som et fiktivt fratrekk i kroner fra tilbudsprisen, i stedet for som poeng. Tilbudet med lavest evaluert tilbudspris vinner.
Denne modellen har den fordelen at evaluatorene tvinges til å tenke på kvalitetsforskjellens verdi i kroner og øre – noe som ofte gir en mer realistisk vurdering enn abstrakte poeng. Normalisering er ikke et tema, fordi kvaliteten allerede er uttrykt i den samme valutaen som prisen. Men modellen stiller høyere krav til at oppdragsgiver har gjort seg opp en mening om sin betalingsvilje i forkant.
Uavhengig av om oppdragsgiver bruker poengmodell eller prissettingsmodell, er det kvalitative vurderingsarbeidet det samme: evaluatorene må lese tilbudene, identifisere forskjeller, vurdere forskjellenes betydning og uttrykke sin vurdering på en etterprøvbar måte. Modellvalget endrer formen, ikke substansen.
Kontrollspørsmål før publisering og evaluering
Før konkurransegrunnlaget publiseres:
- Er det tydelig hva som er minstekrav og hva som er evaluerbare kvalitetsforskjeller?
- Har hvert kvalitetskriterium en evalueringslogikk som går utover ja/nei?
- Er typebeskrivelser for poengskalaen utarbeidet, eller i det minste planlagt?
- Er dokumentasjonskravene tilstrekkelig presise til at leverandørene vet hva de skal levere og evaluatorene vet hva de skal vurdere?
- Er det samsvar mellom dokumentasjonskravene og det som faktisk skal evalueres?
- Kan en normalt påpasselig leverandør forstå hva som skiller et middels fra et godt tilbud?
- Er antall underkriterier og matrisens struktur testet mot den tilsiktede vektingen? Skaper strukturen implisitt vekting som avviker fra den formelle?
- Er det et kontrollregime for kvalitative påstander i kontraktsgjennomføringen?
Før evalueringsarbeidet starter:
- Har evaluatorene fått tilgang til konkurransegrunnlagets evalueringsmetodikk, herunder typebeskrivelser og vurderingsmomenter?
- Er det avtalt en prosess for individuell vurdering, konsensusmøte og dokumentasjon?
- Er evaluatorene instruert om at vurderingen skal forankres i tilbudets dokumenterte innhold – ikke i kjennskap til leverandøren utenom tilbudet?
- Er skalaen som er opplyst i konkurransegrunnlaget, den skalaen som faktisk brukes?
Etter at poeng er satt:
- Er begrunnelsen for hvert poeng forankret i konkrete forhold i tilbudet?
- Er forskjeller i poeng mellom tilbudene forklart med referanse til kvalitative forskjeller?
- Der poeng er like: Er dette en bevisst konstatering av jevn kvalitet, eller et uttrykk for at evalueringen ikke har greid å differensiere?
- Stemmer den reelle vektingen – den som følger av de faktisk gitte poengene – rimelig overens med den formelle vektingen?
- Forskyver evalueringen vekten mellom kriteriene på en måte som ikke var tilsiktet?
3.5 Poengsettingsmetoder
Poeng er ikke nøytrale tallstørrelser. De er et språk oppdragsgiver velger for å uttrykke forskjeller mellom tilbud, og dette språket har grammatikk og konsekvenser. En poengskala fra 0 til 10 ser uskyldig ut. Men dersom oppdragsgiver velger en lineær metode i stedet for en forholdsmessig, eller bruker trappetrinn i stedet for en kontinuerlig skala, endrer han ikke bare presentasjonen av forskjellene – han endrer hvilke forskjeller som betyr noe, hvor mye de betyr, og hvem som vinner konkurransen. Poengmetoden er derfor ikke et administrativt valg som kan tas i siste liten. Den er en del av evalueringsmodellens kjerne, og den må velges med bevissthet om hvordan den samvirker med tildelingskriteriene, vektingen og den faktiske konkurransesituasjonen.
Dette kapittelet handler om de viktigste poengsettingsmetodene oppdragsgiver kan bruke ved evaluering av tildelingskriterier. Det dekker skalatyper, beregningsmetoder, samspillet mellom poengmodell og vekting, og de vanligste feilene som oppstår når poengmetoden ikke er gjennomtenkt.
Poeng som målespråk: absolutte, relative og hybride skalaer
Før oppdragsgiver velger beregningsmetode, må han forstå hvilken type skala han opererer med. I anskaffelsespraksis skiller vi mellom tre hovedtyper: absolutte skalaer, relative skalaer og hybride skalaer.
Absolutte skalaer fastsetter poengverdien til hvert tilbud utelukkende basert på tilbudets egne egenskaper, vurdert mot en forhåndsdefinert standard. Poengene et tilbud oppnår, er uavhengige av hva de øvrige tilbudene tilbyr. Et eksempel er en trappetrinnsmodell der oppdragsgiver på forhånd har definert at responstid under 2 timer gir 10 poeng, 2–4 timer gir 7 poeng, 4–8 timer gir 4 poeng og over 8 timer gir 0 poeng. Tilbyder A får sine 10 poeng for under 2 timer uavhengig av om tilbyder B tilbyr 1 time eller 12 timer. Det samme gjelder kvalitative skalaer med typebeskrivelser: «svært god gjennomføringsplan med konkrete milepæler og risikoanalyse» gir 9–10 poeng uavhengig av hva andre tilbydere har levert.
Den viktigste fordelen med absolutte skalaer er forutsigbarhet for leverandørene. Tilbyderen kan, i den grad skalaen er tydelig kommunisert, beregne hva tilbudet vil gi av poeng. Den viktigste svakheten er at absolutte skalaer krever at oppdragsgiver har nok kunnskap om markedet til å definere meningsfulle trinn eller nivåbeskrivelser. Settes trinnene feil – for eksempel slik at alle tilbud havner i samme kategori – differensierer modellen ikke.
Relative skalaer setter poengverdien til hvert tilbud i forhold til de øvrige tilbudene i konkurransen. Den klassiske lineære prisformelen er relativ: beste pris får topp-poeng, og øvrige tilbud poengsettes basert på avstand fra denne. Den forholdsmessige prisformelen er også relativ: poeng beregnes som forholdet mellom beste pris og tilbudt pris. Også kvalitetsevalueringer kan være relative, for eksempel der oppdragsgiver beslutter at beste tilbud på kvalitet skal få 10 poeng og øvrige tilbud vurderes i forhold til dette.
Den grunnleggende styrken ved relative skalaer er at de garanterer spredning – det vil alltid være et tilbud med toppkarakter og et med bunnkarakter (forutsatt at tilbudene er ulike). Den grunnleggende svakheten er at poengverdien til ett tilbud endres når et annet tilbud legges til eller fjernes fra konkurransen. Dette er det som i økonomisk teori kalles «beroende av irrelevanta alternativ» (Independence of Irrelevant Alternatives, IIA), grundig behandlet av Andersson og Lunander i Konkurrensverkets rapport 2004:1. Problemet er ikke bare teoretisk. DFØs utkast til veileder for evaluering påpeker uttrykkelig at «tilfeldigheter i forholdet mellom det billigste pristilbudet og de øvrige pristilbudene kan få avgjørende betydning for utfallet av konkurransen, i stedet for at oppdragsgivers vurdering av egen betalingsvilje for de kvalitative kriteriene blir det avgjørende.»
Hybride skalaer kombinerer elementer fra begge. Oslo kommunes hybridmodell, omtalt i DFØs veiledning, er det mest kjente eksempelet i norsk praksis. Den er lineær opp til et knekkpunkt og går deretter over til å bli forholdsmessig. Hybridmodellen er utviklet for å beholde den lineære modellens evne til å bruke skalaen fullt ut, samtidig som den unngår de negative poengene som den lineære modellen kan gi når prisforskjellene er store. DFØ påpeker at hybridmodellen er matematisk mer komplisert og at den i svært begrenset omfang er prøvet i KOFA eller domstolene.
Et viktig poeng for praktikeren: skalatypen er ikke bare et spørsmål om prisformelen. Også kvalitetskriterier kan evalueres med absolutte, relative eller hybride skalaer. Når oppdragsgiver bruker en relativ kvalitetsskala – der beste tilbud settes til 10 og øvrige vurderes i forhold til dette – oppstår de samme IIA-problemene som for pris. Og når oppdragsgiver bruker en absolutt kvalitetsskala men ikke treffer med nivåbeskrivelsene, oppstår problemet med manglende differensiering.
Lineær poengsettingsmetode
Den lineære metoden er den mest utbredte beregningsmetoden for pris i norsk anskaffelsespraksis. Formelen er enkel: poeng = maks poeng × (1 – (evaluert pris – beste pris) / beste pris). Alternativt kan den skrives som poeng = maks poeng – maks poeng × (evaluert pris – beste pris) / beste pris. Uansett formulering er logikken den samme: hvert prosentpoeng over beste pris gir et likt poengtrekk.
Sagt annerledes: en tilbyder som er 10 prosent dyrere enn beste pris, mister 10 prosent av maksskalaen. En tilbyder som er 30 prosent dyrere, mister 30 prosent. Og en tilbyder som er mer enn 100 prosent dyrere – altså tilbyr dobbelt så mye som billigste – mister hele skalaen og ender med 0 poeng. Hvis forskjellen er enda større, gir den lineære modellen negative poeng.
Styrker. Lineær metode bevarer prosentforskjellene mellom tilbudene. Hvis tilbud A er 5 prosent billigere enn tilbud B, gir dette det samme poengtrekket uansett om begge ligger på et lavt eller et høyt prisnivå. Kronene teller likt gjennom hele skalaen. For pris er dette intuitivt riktig: en oppdragsgiver som er villig til å betale 50 000 kroner ekstra for kvalitet på et anbud til 500 000 kroner, bør typisk være villig til det samme uavhengig av om billigste tilbud er 400 000 eller 450 000 kroner.
Svakheter. Lineær metode er sårbar for utliggere – et enkelt tilbud med svært lav pris strekker skalaen og komprimerer alle andre tilbud. DFØs veiledning påpeker dette problemet: «Konsekvensen av dette er at tilbudet med den laveste prisen påvirker rangeringen av de øvrige tilbudene. Et tilbud som har lavest pris, men likevel ikke når opp i konkurransen grunnet dårlig nivå på de kvalitative kriteriene, kan likevel få helt avgjørende betydning for rangeringen av de øvrige tilbudene.» Og den lineære modellen gir negative poeng når prisforskjellen overstiger 100 prosent, noe som kan virke kontraintuitivt. KOFA har imidlertid i sak 2015/60 slått fast at negative poeng ikke er ulovlige i seg selv. Nemnda uttalte: «At innklagede har lagt opp til å utvide poengskalaen for to av tildelingskriteriene er etter nemndas syn ikke til hinder for å premiere relevante forskjeller mellom tilbudene i dette tilfellet.»
Når passer lineær metode? For pris er lineær det naturlige førstevalget der prisforskjellene mellom tilbudene forventes å ligge innenfor et rimelig spenn. Også for kvantitative kvalitetskriterier der verdien er lineært proporsjonal med den fysiske størrelsen – for eksempel leveringstid i dager – kan lineær metode være hensiktsmessig. Det er imidlertid et helt avgjørende forbehold: lineær poengsetting forutsetter at den underliggende skalaen selv er lineær. Hvis den ikke er det – som ved desibel – gir lineær poengsetting et galt bilde av de reelle forskjellene.
Forholdsmessig poengsettingsmetode
Den forholdsmessige metoden beregner poeng som forholdet mellom beste pris og tilbudt pris, multiplisert med maksskalaen. Formelen er: poeng = maks poeng × (beste pris / evaluert pris). Et tilbud med laveste pris 100 får 10 poeng. Et tilbud på 125 får 10 × (100/125) = 8 poeng. Et tilbud på 200 får 10 × (100/200) = 5 poeng.
Metoden har en viktig matematisk egenskap: den er immun mot IIA-problemet. Poengene til hvert tilbud er utelukkende en funksjon av tilbudets egen pris og den beste prisen. Hvis et nytt tilbud legges til eller et annet fjernes, endres bare poengene til det tilbudet som hadde beste pris (og bare dersom det fjernede tilbudet var det billigste). De øvrige tilbudenes forholdstall til den nye beste prisen kan riktignok endres, men poengene til hvert enkelt tilbud er bestemt av et fast forhold, ikke av hele populasjonen.
Styrker. Ingen negative poeng – poengene nærmer seg null men blir aldri negative, uansett hvor dyrt et tilbud er. Modellen er enkel å forklare. Og den er som nevnt mer robust mot at et utliggertilbud forvrenger hele rangeringen.
Svakheter. Den forholdsmessige metoden har en grunnleggende svakhet som mange oppdragsgivere overser: den komprimerer forskjellene i bunnen av skalaen. DFØs veiledning beskriver dette presist: «Poengforskjellen blir mindre, jo høgare prisforskjellen er.» For å bruke et konkret eksempel: forskjellen mellom et tilbud på 100 og et tilbud på 110 gir et poengtrekk på 0,91 poeng (fra 10 til 9,09 på en 10-skala). Forskjellen mellom et tilbud på 200 og et tilbud på 210 gir bare 0,24 poeng (fra 5,00 til 4,76). En prisøkning på 10 kroner gir altså fire ganger så stort poengutslag ved lavt prisnivå som ved høyt prisnivå. Hver krone har ulik poengverdi avhengig av hvor i skalaen man befinner seg.
I praksis betyr dette at den forholdsmessige metoden skiller dårlig mellom tilbud som alle er vesentlig dyrere enn billigste. Eksempelet fra kursmaterialet illustrerer problemet tydelig: et tilbud med 95 prosent fossilfri transport får nesten toppkarakter, mens forskjellen mellom 50 prosent fossilfri og 5 prosent fossilfri – en enorm forskjell i miljøbelastning – gir knapt poengutslag.
KOFA har i flere saker vurdert om den forholdsmessige metoden er ulovlig. Den ledende avgjørelsen er stornemndsavgjørelsen KOFA 2014/95, der KOFA kom til at metoden ikke i seg selv er ulovlig, men at den bare kan brukes der den er egnet til å påvise relevante forskjeller mellom tilbudene. DFØs veiledning sammenfatter dette slik: «KOFA har i fleire saker vurdert om den forholdsmessige modellen er ulovleg å bruke. Til no har KOFA kome til at den forholdsmessige metoden ikkje i seg sjølv er ulovleg å nytte i evalueringa, men det er viktig at han berre blir nytta i tilfelle der han er eigna til å påvise relevante forskjellar mellom tilboda.»
I KOFA 2011/201 (Eidsberg kommune) ble det konstatert brudd der forholdsmessig metode for pris og fast skalabruk for kvalitet/miljø samlet ga en reell vekt for pris som var høyere enn oppgitt. Saken illustrerer at forholdsmessig metode ikke bare kan vurderes isolert, men må ses i sammenheng med hvordan kvalitetspoengene beregnes.
Når passer forholdsmessig metode? For kvalitetskriterier der nytteverdien avtar – der forskjellen mellom «godt» og «veldig godt» er viktigere enn forskjellen mellom «middelmådig» og «godt» – kan forholdsmessig poengsetting være faglig riktig. For pris er den problematisk nettopp fordi en krone bør være en krone uansett prisnivå.
Trappetrinnsmodeller
En trappetrinnsmodell deler skalaen inn i forhåndsdefinerte intervaller, der hvert intervall gir et bestemt antall poeng. Et tilbud som faller innenfor et gitt intervall, får det samme antall poeng som alle andre tilbud i det intervallet. Det er ingen interpolering mellom trinnene.
Styrken ved trappetrinn er kontroll. Oppdragsgiver bestemmer eksakt hvor trinngrensene skal ligge, og bestemmer eksakt hvilken poengverdi hvert trinn har. Dermed kan oppdragsgiver sørge for at de forskjellene han ønsker å premiere, faktisk gir poengutslag, og at forskjeller han anser som uvesentlige, ikke gir utslag.
Det mest pedagogiske eksempelet på når trappetrinn er nødvendig, er støy målt i desibel. Desibel er en logaritmisk skala: 3 dB forskjell tilsvarer en dobling av lydeffekten. Kursmaterialet forklarer problemet slik: «Lineær poengsetting behandler disse forskjellene likt – 3 dB gir samme poengutslag uansett hvor i skalaen du er. Forholdsmessig metode har samme problem – den forholder seg til tallverdien, ikke til den fysiske virkeligheten.» Løsningen er trappetrinn som gjenspeiler den logaritmiske virkeligheten: under 42 dBA er maks poeng, 42–45 dBA er neste trinn, 45–48 dBA er et trinn til, over 48 dBA gir null. Hvert trinn representerer en dobling eller halvering av den faktiske støybelastningen.
Et viktig prinsipp som kursmaterialet understreker: «Det er poengverdiene mellom trinnene som styrer effekten, ikke trinnbredden.» Hvis alle trinn er like bredt (3 dB), men poengverdiene mellom trinnene er ulike – for eksempel 0, 3, 7, 10 i stedet for 0, 3,3, 6,7, 10 – gir oppdragsgiver ekstra belønning til tilbydere som kommer under den laveste terskelen. Oppdragsgiver kan altså bruke poengverdiene til å styre hvor i skalaen differensieringen er størst.
Svakheter. Trappetrinnsmodellen krever at oppdragsgiver vet hvor de meningsfulle forskjellene ligger. Hvis trinnene settes feil – for eksempel slik at alle realistiske tilbud havner i samme trinn – differensierer modellen ikke. Og fordi det ikke interpoleres innenfor trinnene, kan to tilbud som ligger rett på hver side av en trinngrense, få ulikt poeng selv om den reelle forskjellen er ubetydelig. Omvendt kan to tilbud med vesentlig ulike verdier innenfor samme trinn få identisk poeng.
Dansk praksis, slik Konkurrence- og Forbrugerstyrelsen beskriver den, understreker det samme dilemmaet fra en annen vinkel: «En skala med for få trin i pointskalaen vil muligvis give det udfald, at tilbuddene ikke varierer i point, selv om der eksempelvis er kvalitetsforskelle i tilbuddene. En sådan skala vil altså ikke give mulighed for at differentiere imellem tilbud.» Men omvendt: «En skala med for mange trin kan medføre, at det bliver svært for ordregiver at skelne imellem de forskellige tilbud.»
For pris fungerer trappetrinn dersom det er nok trinn til å fange de realistiske prisforskjellene. DFØs oversikt over metodenes egenskaper plasserer trappetrinn på pris med grønt lys, men med betingelsen «nok trinn». For kvalitet er trappetrinn et sterkt verktøy nettopp fordi oppdragsgiver kan forankre trinnene i faglige vurderinger av hva som utgjør meningsfulle forskjeller i leveransekvalitet.
Det er viktig å merke seg at KOFA i sak 2025/0993 (Nord-Troms interkommunale politiske råd) konstaterte brudd da oppdragsgiver brukte en trappetrinnsmodell i stedet for den forholdsmessige formelen som var angitt i konkurransegrunnlaget. Saken handler ikke om at trappetrinnsmodellen er ulovlig, men om at oppdragsgiver er bundet av den metoden han har opplyst. Valget mellom metodene er fritt – men det må gjøres og kommuniseres på forhånd.
Hoppbakkemodellen: poengsetting av skjønnsmessige vurderinger
Lineær, forholdsmessig og trappetrinn er alle matematiske metoder – du setter inn en verdi og får et tall ut. Men mange tildelingskriterier kan ikke måles i tall. Gjennomføringsplan, metodikk, prosjektforståelse, bemanningsplan – dette krever skjønnsmessig vurdering. Her trengs en annen tilnærming.
Hoppbakkemodellen – et begrep fra kursmaterialet – er en teknikk der oppdragsgiver definerer grove kategorier med typebeskrivelser. Poenget er ikke «her er en skala fra 1 til 10, tenk på et tall», som kursmaterialet advarer mot at gir vilkårlighet. Poenget er at hver kategori på skalaen er knyttet til en konkret beskrivelse av hva et tilbud i den kategorien typisk ser ut. For eksempel:
- 9–10 poeng: Gjennomføringsplanen er konkret, realistisk og demonstrerer dyp forståelse for prosjektets risikofaktorer. Den inneholder spesifikke milepæler med tidsfrister, navngitte ansvarlige for hver fase, og en risikoanalyse med identifiserte tiltak. Planen viser tydelig sammenheng mellom ressursallokering og leveransekrav.
- 6–8 poeng: Gjennomføringsplanen er strukturert og dekker hovedfasene. Milepæler er angitt, men uten full detaljering av ressursallokering eller risikoanalyse. Planen viser forståelse for oppdraget, men mangler konkretisering på enkeltpunkter.
- 3–5 poeng: Gjennomføringsplanen er generell og beskriver hovedtrekkene uten å tilpasse dem til det konkrete oppdraget. Milepæler og ressursbruk er mangelfullt beskrevet.
- 0–2 poeng: Gjennomføringsplanen er fraværende, svært overfladisk eller viser manglende forståelse for oppdraget.
Typebeskrivelsene er det som gjør modellen lovlig og faglig forsvarlig. Uten dem blir poengsettingen subjektiv og vanskelig å etterprøve. Med dem har evaluator et rammeverk som sikrer at like tilbud bedømmes likt, og at forskjeller mellom tilbud artikuleres i lys av konkrete, forhåndsbestemte kvalitetsforventninger.
KOFA har i flere saker akseptert denne typen modeller. I KOFA 2025/0934 (Statsbygg) ble en firefasig poengskala for kompetanseevaluering akseptert. Nemnda la vekt på at modellen var «saklig og forsvarlig begrunnet» og at utslagene ikke var «upåregnelige eller uforholdsmessige». At erfaringer innenfor samme nivå på ett enkelt område ikke ble direkte differensiert, var lovlig fordi den samlede poengsummen likevel fanget forskjeller mellom tilbudene. I KOFA 2019/106 (Nordland fylkeskommune) aksepterte nemnda at en kvalitativ skala ble brukt uten automatisk toppscore – det avgjørende var at modellen ikke var vilkårlig.
Poengutslag og relevante forskjeller
Det rettslige kjerneproblemet med poengmetoder er om modellen fanger opp relevante forskjeller mellom tilbudene – og om den gir forholdsmessige utslag for disse forskjellene.
KOFA har i fast praksis etablert at poengsettingen «i alle fall må sikre at relevante forskjeller mellom tilbudene gjenspeiles i de poengene tilbudene gis». Formuleringen stammer fra saker som KOFA 2005/201, 2006/90 og 2007/30, og er gjentatt i en rekke avgjørelser. DFØs veiledning peker i samme retning når den viser til at KOFA i flere saker har vurdert poengberegningen opp mot utslag ved den lineære proporsjonale metoden. Hvis poengutslagene avviker fra det som ville ha fulgt om denne metoden ble benyttet, følger det av KOFA-praksis at oppdragsgiver må vise hvorfor evalueringen likevel har vært saklig og forsvarlig – jf. KOFA 2009/249, 2009/279, 2011/176, 2012/41 og stornemndsavgjørelsen 2014/95.
Kravet innebærer ikke at enhver forskjell mellom tilbud må gi ulikt poeng. I KOFA 2013/31 fastslo nemnda at «enkelte forskjeller ikke ga utslag i ulik poengscore, var ikke i seg selv ulovlig når modellen likevel premierte de forskjellene oppdragsgiver saklig hadde valgt å vektlegge innenfor kriteriet.» I KOFA 2022/99 aksepterte nemnda bruk av hele tall i kvalitetsbedømmelsen, selv om dette kunne medføre at mindre forskjeller ikke fikk ulikt poengutslag. Det avgjørende var at evalueringen «samlet sett var saklig, kriteriebundet og gjennomført på en likebehandlende måte.»
Men grensen nås der modellen systematisk undertrykker forskjeller som er relevante. I KOFA 2010/335 (Avinor) komprimerte prisformelen poengspreaden slik at vesentlige kostnadsforskjeller nesten ikke slo ut. KOFA konstaterte brudd. Og i KOFA 2010/32 blåste poengmodellen for pris opp en liten forskjell til et uforholdsmessig utslag. Begge situasjonene er ulovlige – den ene fordi modellen er for grovmasket til å fange relevante forskjeller, den andre fordi den er for finmasket og gir vilkårlige utslag.
Praktisk konsekvens: Oppdragsgiver bør alltid teste poengmodellen med realistiske tilbudsverdier før konkurransegrunnlaget publiseres. Gir modellen tilstrekkelig poengspredning til å skille tilbudene? Og gir den forholdsmessige utslag – altså utslag som gjenspeiler hvor store de reelle forskjellene er? Disse to spørsmålene er kjernen i konsekvensanalysen som behandles i kapittel 3.9.
Poeng for krav, momenter og meroppfyllelse
En poengmodell må skille mellom tre ulike situasjoner: oppfyllelse av minstekrav, vurdering av kvalitative momenter, og belønning av meroppfyllelse ut over det som er krevd.
Minstekrav skal ikke poengsettes. Absolutte krav – krav merket som «skal-krav» eller krav som etter sin karakter er binære (oppfylt/ikke oppfylt) – vurderes i avvisningsfasen, ikke i tildelingsfasen. Oppfyllelse av et minstekrav gir ikke automatisk kvalitetspoeng. Å gi poeng for ren kravoppfyllelse er å reklassifisere kravet, noe som bryter med forutberegnelighet og likebehandling. I KOFA 2012/90 ble dette prinsippet uttalt med stor tydelighet: absolutte krav er enten oppfylt eller ikke, og inngår ikke i poengsettingen med mindre overoppfyllelse klart er gjort til et konkurranseelement.
Kvalitative momenter er de forholdene tildelingskriteriet faktisk etterspør vurdering av. Disse er kjernen i poengsettingen. Oppdragsgiver bør i konkurransegrunnlaget identifisere hvilke momenter som vil bli vurdert under hvert tildelingskriterium, og poengsettingsmetoden må være egnet til å differensiere mellom tilbudene på disse momentene. I KOFA 2005/171 ble det konstatert brudd fordi oppdragsgiver i praksis behandlet underkriterier som var presentert som del av en skjønnsmessig kvalitetsevaluering, som rene terskelkrav. Evalueringsmodellen forutsatte differensiert uttelling, men oppdragsgiver brukte dem som godkjent/ikke-godkjent.
Meroppfyllelse er der tilbudet overgår det som er krevd. Meroppfyllelse kan belønnes med poeng, men bare dersom konkurransegrunnlaget gjør det klart at overoppfyllelse vil gi uttelling, og helst angir på hvilken måte. Trappetrinn egner seg godt til meroppfyllelse: oppdragsgiver kan definere at tilbud som oppfyller kravet får et basisnivå av poeng, mens tilbud som overgår kravet, kan nå et høyere trinn.
Hvordan poengmodell og vekting virker sammen
Det er et utbredt misforståelse at vektingen alene bestemmer hvor mye et tildelingskriterium betyr. I virkeligheten er det samspillet mellom vekting og poengspredning som bestemmer den reelle vekten.
Betrakt et eksempel med to tildelingskriterier: pris (60 prosent vekt) og kvalitet (40 prosent vekt), begge med en skala fra 0 til 10. Maks poeng for pris er 6 (10 × 60 prosent), maks poeng for kvalitet er 4 (10 × 40 prosent).
Nå antar vi at poengene for pris spreder seg fra 3 til 6 (spredning 3 poeng), mens poengene for kvalitet spreder seg fra 1 til 4 (spredning 3 poeng). I dette tilfellet bidrar pris og kvalitet like mye til å differensiere tilbudene – begge har en poengspredning på 3, selv om pris er vektet 60 prosent og kvalitet bare 40 prosent. Formell vekt er 60/40, men reell differensieringseffekt er 50/50.
Men hva skjer om kvalitetspoengene i stedet spreder seg fra 3 til 4 (spredning bare 1 poeng), fordi alle tilbudene er ganske like på kvalitet? Da er det pris med spredning 3 som avgjør nesten alt – reell vekt er tilnærmet 75/25 i stedet for 60/40. Og omvendt: hvis alle tilbudene prises likt og prispoengene spreder seg fra 5,5 til 6, mens kvalitetspoengene spreder seg fra 1 til 4, er det kvalitet som avgjør – reell vekt er langt over 40 prosent.
Kursmaterialet demonstrerer denne mekanismen ved å sette de samme fem tilbyderne inn i tre forskjellige poengmetoder for kvalitet (trappetrinn, lineær og forholdsmessig), alle med maks 40 poeng. Spredningen mellom svakeste og beste tilbud ble: trappetrinn 40 poeng, lineær 40 poeng, forholdsmessig bare 10 poeng. Med andre ord: ved forholdsmessig metode ble den reelle vekten av kvalitet dramatisk redusert sammenlignet med den nominelle vektingen, fordi poengspredningen ble komprimert.
Konsekvensen er fundamental: «Samme prispoeng (lineær). Hvem vinner?» spør kursmaterialet, og svaret er: Med lineær kvalitetspoengsetting vinner tilbudet med best kvalitet. Med forholdsmessig kvalitetspoengsetting vinner billigste. Med trappetrinn avhenger det av trinnene. Poengmodellen endrer hvem som vinner, selv om vektingen er identisk.
KOFA har gjentatte ganger slått ned på modeller der den reelle vekten avviker fra den oppgitte. I KOFA 2020/229 (Bane NOR) brukte oppdragsgiver en medianbasert poengsettingsmodell for priskriteriet uten å ha opplyst om dette. Nemnda fant at modellen reelt endret den oppgitte vektingen av pris. I KOFA 2011/201 (Eidsberg kommune) ga kombinasjonen av forholdsmessig metode for pris og fast skalabruk for kvalitet en reell prisvekt som var høyere enn oppgitt. Begge sakene endte med brudd.
Partnersamverkan i Sverige understreker det samme problemet fra kollektivtrafikkens perspektiv: «Om den reella effekten blir för liten ska man vara beredd på att pris är utslagsgivande och att trafikföretaget inte väljer att offerera mervärden. Många gånger krävs det i realiteten en kvalitetsviktning om 25–30 procent av helheten för att det ska få ett tillräckligt genomslag i praktiken.»
Utliggerproblemet
Både lineær og forholdsmessig metode er sårbare for utliggere – et tilbud med en ekstrem verdi som strekker skalaen og dermed komprimerer alle andre tilbud. DFØs veileder påpeker dette uttrykkelig for prisformler: det billigste tilbudet påvirker rangeringen av alle øvrige.
Men utliggerproblemet gjelder også kvantitative kvalitetskriterier. Hvis ett tilbud lover en maskinpark med 100 prosent nullutslipp mens alle andre ligger på 20–40 prosent, vil en lineær modell gi dette tilbudet toppkarakter og presse alle andre tilbud ned mot bunnen. En forholdsmessig modell vil gi noe bedre resultater, men komprimerer som nevnt bunnen.
Trappetrinn er immunt mot utliggerproblemet: hvert tilbud plasseres i et trinn utelukkende basert på sin egen verdi, uavhengig av andre tilbud. Et ekstremt tilbud havner i øverste (eller nederste) trinn, men påvirker ikke poengene til noen andre.
Kursmaterialet oppsummerer: «Utliggerproblemet rammer både lineær og forholdsmessig.» Og gir en klar anbefaling: «Spørsmålet er ikke 'hvilken metode bruker vi alltid', men 'hvilken metode passer til dette kriteriet'.»
Valg av metode – kriterium for kriterium
Oppsummeringen av metodenes styrker og svakheter kan struktureres i en enkel tabell:
- Trappetrinn for pris: Fungerer med nok trinn. Gir full kontroll, ingen utliggerproblem. Krever at oppdragsgiver kjenner markedet godt nok til å sette riktige trinn.
- Lineær for pris: Bevarer prosentforskjeller. Maksimal differensiering. Sårbar for utliggere. Gir negative poeng ved store forskjeller. Det naturlige valget der prisforskjellene forventes å være moderate.
- Forholdsmessig for pris: Gir ulik kroneverdi gjennom skalaen – uegnet for pris i de fleste situasjoner. Kan forsvares der prisforskjellene er svært store og lineær ville gi negative poeng, men hybridmodellen er da et bedre alternativ.
- Trappetrinn for kvalitet: Full kontroll over differensieringen. Ideelt der oppdragsgiver kan definere faglig meningsfulle terskelverdier.
- Lineær for kvalitet: Maksimal differensiering. Egnet for kvantitative kvalitetskriterier der verdien er lineært proporsjonal med den fysiske størrelsen. Sårbar for utliggere.
- Forholdsmessig for kvalitet: Kan være riktig der nytteverdien avtar (avtagende grensenytte). Demper ekstremverdier. Komprimerer bunnen.
- Hoppbakke for kvalitet: Det riktige verktøyet for skjønnsmessige vurderinger. Krever typebeskrivelser for hvert poengintervall. Ikke relevant for pris.
Finmasketheten i skalaen
Hvor mange trinn – eller hvor mange poeng – trengs? DFØs poengmodellveileder gir en generell retningslinje: «Oppdragsgiver må velge en poengskala som er finmasket nok til å gi et korrekt uttrykk for oppdragsgivers betalingsvillighet for ulike kvalitative egenskaper.»
Konkurrence- og Forbrugerstyrelsen i Danmark formulerer det som en avveining mellom to feil: for få trinn gir manglende differensiering, for mange trinn gir risiko for vilkårlig gradering. I norsk rett er det ikke fastsatt et bestemt antall poengtrinn som er påkrevd. Men den rettslige rammen – kravet om at modellen skal fange relevante forskjeller – setter en nedre grense. Hvis modellen er så grovmasket at tilbud med vesentlig ulik kvalitet havner i samme kategori, risikerer oppdragsgiver å bryte kravet.
I praksis ser vi at skalaer fra 0 til 5 eller 0 til 10 er vanligst for kvalitetskriterier. For priskriterier er skalaen typisk den samme, men her er det formelen – ikke antall trinn – som bestemmer finmasketheten. En lineær formel med maks 10 poeng differensierer kontinuerlig; en trappetrinnsmodell med 5 trinn differensierer bare i 5 nivåer.
Oppdragsgiver bør tenke over finmasketheten i sammenheng med vektingen. Hvis et kriterium har 10 prosent vekt og evalueres på en skala fra 0 til 10, er hvert poeng verdt 1 prosent av totalscoren. Hvis alle tilbud havner mellom 6 og 8, er den reelle differensieringseffekten 2 prosent av total – ofte for lite til å avgjøre noe som helst. Oppdragsgiver bør da enten øke vektingen, eller akseptere at kriteriet i praksis ikke vil differensiere.
Vanlige feil
Gjennomgangen av KOFA-praksis, DFØs veiledere og det øvrige faggrunnlaget avdekker et sett gjentakende feil i poengsettingsarbeidet:
- Ukritisk bruk av lineær metode på ikke-lineære skalaer. Desibel, prosentvise reduksjoner, og andre logaritmiske eller degressivt skalerte størrelser krever en poengsettingsmetode som gjenspeiler den fysiske virkeligheten, ikke den numeriske verdien.
- Forholdsmessig metode for pris. Gir ulik kroneverdi og komprimerer bunnen. Er sjelden det beste valget for prisevaluering, selv om den ikke er ulovlig i seg selv.
- Manglende testing av poengspredning. Oppdragsgiver definerer vekting og skala, men tester ikke hva modellen faktisk gir av differensiering med realistiske tilbudsverdier. Resultatet kan være at et kriterium med 30 prosent vekt i praksis differensierer med 3 prosent.
- Endring av metode etter tilbudsåpning. I KOFA 2025/0993 ble bytte fra forholdsmessig formel til trappetrinn konstatert som brudd. I KOFA 2019/469 ble bruk av forholdsmessig prismodell uten forhåndsopplysning konstatert som brudd. Oppdragsgiver er bundet av den opplyste metoden.
- Normalisering som reparasjon. I KOFA 2023/999 forsøkte Statens vegvesen å rette inkonsistent poengsetting ved etterfølgende normalisering. KOFA underkjente dette: «Når man ikke vet hva man normaliserer fra, kan man heller ikke vite at resultatet er representativt for den skjønnsmessige vurderingen.»
- Manglende typebeskrivelser for skjønnsmessige kriterier. Uten typebeskrivelser er det vanskelig å sikre at like tilbud bedømmes likt, og enda vanskeligere å dokumentere at evalueringen er forsvarlig.
- For mange underkriterier som utvanner hvert enkelts differensiering. Kursmaterialet omtaler dette som «utvanningseffekten»: syv underkriterier gjør at hvert enkelt knapt differensierer, uansett hvilken poengmetode som brukes.
Kontrollspørsmål før publisering og evaluering
Oppdragsgiver bør stille seg selv følgende spørsmål før konkurransegrunnlaget publiseres:
- Er poengmetoden tilpasset det enkelte kriterium, eller bruker vi samme metode ukritisk på alt?
- Har vi testet modellen med realistiske tilbudsverdier for å se om den gir tilstrekkelig poengspredning?
- Er den reelle vekten av hvert kriterium – poengspredning × formell vekt – i samsvar med det vi ønsker å kommunisere til markedet?
- Har vi definert typebeskrivelser for hvert poengnivå i skjønnsmessige kriterier?
- Vil et utliggertilbud forvri hele rangeringen? Hvis ja, bør vi bruke trappetrinn eller annen absolutt modell?
- Er skalaen finmasket nok til å fange de forskjellene vi anser som relevante?
- Er poengmetoden opplyst i konkurransegrunnlaget? Hvis ikke – er vi trygge på at de tre vilkårene fra EU-domstolens avgjørelse i Dimarso er oppfylt?
- Er det mulig for en tilbyder å forstå, ut fra konkurransegrunnlaget, hva som gir hvilken poengverdi? Ikke nødvendigvis en eksakt beregning, men en kvalifisert forventning?
Og etter at tilbudene er mottatt, men før evalueringen gjennomføres:
- Har vi tilbud med ekstreme verdier som vil strekke en relativ skala? Hvis ja, håndterer den valgte metoden dette forsvarlig?
- Er poengskalaen brukt konsistent på tvers av alle tilbud? (Jf. KOFA 2023/999 der ulike skalaer ble brukt for ulike tilbydere.)
- Gir poengsettingen uttrykk for evalueringsgruppens faktiske faglige vurdering, eller er den et mekanisk resultat av en formel som ingen har tenkt gjennom?
- Er det noen tilbud som får like poeng – og i så fall, er det fordi tilbudene faktisk er likeverdige, eller fordi modellen er for grovmasket til å fange forskjellene?
3.6 Normalisering, skala og minuspoeng
Problemet i praksis
Når oppdragsgiver evaluerer pris, brukes nesten alltid en relativ metode: det billigste tilbudet får toppscoren, og de øvrige tilbudene får trekk etter hvor mye dyrere de er. Prisskalaen utnyttes dermed fullt ut – hele spennet fra null til ti (eller null til hundre) poeng er i bruk. Når oppdragsgiver evaluerer kvalitet, skjer ofte det motsatte. Evalueringsgruppen vurderer tilbudene mot en absolutt standard – «hva som er mulig å levere», eller «hva som er godt nok» – og ender kanskje med at det beste tilbudet får fem av ti poeng. Ingen tilbud er «fremragende», og de øvre trinnene på skalaen brukes ikke.
Denne asymmetrien er ikke bare et estetisk problem. Dersom pris har full poengspredning og kvalitet bare bruker halve skalaen, får pris i praksis større gjennomslag enn den oppgitte vektingen tilsier. Spørsmålet er: må oppdragsgiver gjøre noe med dette, og i så fall hva?
Svaret har skapt en av de mest intense fagdebattene i norsk innkjøpspraksis. Diskusjonen handler om normalisering – praksisen med å justere kvalitetspoeng slik at det beste tilbudet får toppscoren på skalaen. I dette underkapitlet gjennomgår vi hva normalisering betyr, hvilke varianter som finnes, hva KOFA har sagt, og hvilke konsekvenser de ulike valgene har for resultatet.
Hva normalisering og normering betyr
Begrepet «normalisering» brukes i anskaffelsesfaget om én bestemt operasjon: å justere poengscorene på et tildelingskriterium slik at det beste tilbudet treffer toppen av skalaen. De øvrige tilbudene justeres etter – enten med et fast tillegg (parallellforskyvning) eller ved prosentvis oppskalering.
Det er viktig å skille normalisering fra to beslektede begreper:
- Relativ poengmodell innebærer at poengene fra starten fastsettes i forhold til de andre tilbudene. Beste tilbud får alltid toppscoren. Normalisering er da innbakt i metoden og oppstår aldri som et eget trinn.
- Absolutt poengmodell innebærer at poengene fastsettes mot en forhåndsdefinert standard – for eksempel «hva markedet kan levere» eller «hva oppdragsgiver anser som ideelt». Beste tilbud trenger ikke treffe toppen. Normalisering oppstår som spørsmål nettopp her: skal poengene etterpå justeres opp?
DFØs utkast til veileder om evaluering formulerer dette slik: «I de tilfeller ingen tilbud har oppnådd høyeste mulige poengscore på et tildelingskriterium har enkelte oppdragsgivere oppjustert poengscorene på det aktuelle tildelingskriteriet slik at beste tilbud oppnår den høyeste mulige score. Praksisen kalles gjerne for normalisering.»
For pris er normalisering sjelden et eget diskusjonstema, fordi de vanligste prisformlene – lineær og forholdsmessig – begge bruker laveste tilbudspris som referansepunkt og dermed normaliserer automatisk. Laveste pris får alltid toppscore. Diskusjonen gjelder derfor i hovedsak kvalitative og kvantitative ikke-priskriterier.
De to normaliseringsmetodene
DFØs utkast til veileder identifiserer to hovedteknikker for oppjustering:
Metode 1: Parallellforskyvning (absolutt normalisering). Alle tilbuds poeng økes med det samme antall poeng som trengs for at beste tilbud treffer toppen av skalaen. Hvis beste tilbud fikk 8 av 10, legges 2 poeng til alle.
Eksempel:
| Tilbyder | Opprinnelig poeng | Etter parallellforskyvning |
|---|---|---|
| A | 8 | 10 |
| B | 6 | 8 |
| C | 4 | 6 |
Poengforskjellen mellom tilbudene er uendret: A–B er fortsatt 2 poeng, B–C er fortsatt 2 poeng. Fordi det er poengforskjellene som avgjør resultatet, har parallellforskyvning ingen betydning for rangeringen. Den er en ren kosmetisk operasjon. DFØs utkast er tydelig på dette: «Metoden endrer ikke på den opprinnelige poengforskjellen og det er poengforskjellen som er av betydning for resultatet, ikke antall poeng som blir gitt. Normalisering etter metode nr. 1 er derfor en unødvendig operasjon uten betydning for resultatet eller tildelingskriteriets vekt.»
Metode 2: Prosentvis oppskalering (relativ normalisering). Beste tilbud skaleres opp til toppen av skalaen, og de øvrige tilbudene beholder sin prosentvise avstand til det beste. Formelen er: justert poeng = opprinnelig poeng × (maks skala / beste tilbuds opprinnelige poeng).
Eksempel:
| Tilbyder | Opprinnelig poeng | Prosentvis oppskalering (faktor 10/8 = 1,25) |
|---|---|---|
| A | 8 | 10,0 |
| B | 6 | 7,5 |
| C | 4 | 5,0 |
Her endres poengforskjellene: A–B var 2 poeng, men er nå 2,5. B–C var 2 poeng, men er nå 2,5. Forskjellene er blåst opp med 25 prosent. Denne formen for normalisering kan endre rangeringen i totalresultatet, fordi kvalitetsforskjellene nå veier tyngre relativt til prisforskjellene.
DFØs utkast påpeker problemet direkte: «Det er vanskelig å se noen grunn for at tilbud som etter gjennomført evaluering har oppnådd poengene 5 og 3, skal normaliseres til poengene 10 og 6. Det er oppdragsgivers evaluering som har resultert i poengene 5 og 3 og en poengdifferanse på 2. Vil poengene 10 og 6 og en poengforskjell på 4 reflektere oppdragsgivers vurdering av tilbudene på en mer korrekt måte, og hva er i så fall begrunnelsen for dette?»
Den rettslige rammen: KOFA storkammer 2021/1000 og etterfølgende praksis
Den sentrale avgjørelsen er storkammersaken KOFA 2021/1000 (Ørsta kommune). Klager hevdet at manglende normalisering av poeng på kvalitative tildelingskriterier medførte at prisens reelle vekt ble høyere enn oppgitt. Stornemnda fastslo enstemmig tre ting:
- Det foreligger ingen plikt til å normalisere. DFØs dagjeldende anbefaling om normalisering var «verken begrunnet i lov, forskrift eller rettspraksis».
- Det er uproblematisk at det beste tilbudet får for eksempel 4 av 10 poeng. Begrunnelsen var at man kan ønske å «spare» poengene til en teoretisk fremragende løsning som kanskje ikke finnes i konkurransen.
- Normalisering kan gi uønskede utslag. Stornemnda advarte: «I flere tilfeller vil en slik normalisering tvert imot kunne gi uønskede og uriktige utslag, særlig i tilfeller hvor det kvalitativt beste tilbudet har relativt lav kvalitet. Da kan det bli mange kvalitetspoeng å fordele på et lite kvalitetsintervall. Det kan føre til at poengdifferansene blir for store, noe som igjen kan medføre at små kvalitetsforskjeller får uforholdsmessig stor betydning i den samlede bedømmelsen av tildelingskriteriene. Hvis det da blir lettere å få uttelling på dette tildelingskriteriet enn på de andre kriteriene, vil normaliseringen føre til at tildelingskriterienes vekt endres.»
Stornemnda la til en viktig begrunnelse fra økonomisk teori: «Det er en av grunnene til at man i økonomisk teori fraråder at tilbudet med best kvalitet brukes som målestokk.»
Etterfølgende praksis bekrefter og nyanserer dette:
KOFA 2024/1458 (Trøndelag fylkeskommune) gjaldt en modell der konkurransegrunnlaget uttrykkelig angav at beste tilbud under kvalitetskriteriet skulle få 10 poeng. Evalueringsgruppens underkriteriepoeng ga imidlertid bare 9 til beste tilbud. Oppdragsgiver normaliserte ved parallellforskyvning (la til 1 poeng til alle). Klager mente at prosentvis oppskalering var den eneste lovlige metoden. KOFA godtok parallellforskyvningen: den ivaretok de innkjøpsfaglig vurderte forskjellene mellom tilbudene og endret ikke den reelle vektingen. Men nemnda understreket at normaliseringen var påkrevd i dette tilfellet – nettopp fordi konkurransegrunnlaget skapte en forventning om at beste tilbud skulle få 10 poeng. Oppdragsgiver hadde bundet seg til det.
Regelen kan formuleres slik: Dersom konkurransegrunnlaget angir at beste tilbud skal få toppscoren, er oppdragsgiver forpliktet til å normalisere. Men formen for normalisering – parallellforskyvning eller prosentvis oppskalering – ligger innenfor det innkjøpsfaglige skjønnet, så lenge metoden bevarer de reelle forskjellene.
KOFA 2023/0999 (Statens vegvesen) illustrerer det motsatte: normalisering som ble forsøkt etter tilbudsåpning, uten at det var beskrevet i konkurransegrunnlaget. Evalueringsgruppen hadde brukt ulike poengskalaer for de to tilbyderne, og oppdragsgiver forsøkte å rette feilen ved etterfølgende normalisering. KOFA underkjente dette: normaliseringen var ikke «tilstrekkelig representativ for evalueringsgruppens skjønnsmessige poenggivning», og det gikk «et grunnleggende skille mellom absolutte og relative evalueringsmetoder». Når det underliggende skjønnet var utøvd på ulikt grunnlag, kunne en matematisk normalisering ikke reparere feilen.
Sammenhengen med Dimarso-doktrinen: EU-domstolens sak C-6/15 (Dimarso) fastslo at evalueringsmetoden i prinsippet kan fastsettes etter tilbudsåpning, men at den ikke kan inneholde elementer som ville påvirket tilbudene dersom leverandørene hadde kjent til dem. Normalisering er et slikt element: en leverandør som vet at kvalitetspoengene normaliseres, vet at kvalitetsforskjeller vil slå fullt igjennom i totalresultatet, og kan tilpasse tilbudet deretter. Det er dette som gjør etterfølgende innføring av normalisering problematisk.
Relativ og absolutt poengmodell – grunnlaget for diskusjonen
For å forstå normaliseringsdebatten fullt ut, må man skille tydelig mellom relativ og absolutt poengmodell:
Relativ poengmodell: Poengene fastsettes ved at tilbudene sammenlignes innbyrdes. Beste tilbud på hvert kriterium får automatisk toppscoren. Hele skalaen utnyttes alltid. Normalisering er ikke et tema, fordi den er innbygd i metoden.
Absolutt poengmodell: Poengene fastsettes mot en forhåndsdefinert standard – «idealtilbudet» eller «hva markedet kan levere». Det er fullt mulig – og vanlig – at ingen tilbud treffer toppen. DFØs utkast til veileder beskriver det slik: «Ved absolutte poengberegningsmodeller kan forklaringen være at ingen tilbud har blitt vurdert gode nok til å bli tildelt den høyeste mulige score.»
DFØs poengmodellveileder gjør et viktig poeng: «Om en bruker en absolutt eller relativ modell ved evaluering av de kvalitative kriteriene er uten betydning for det endelige resultatet. Det er poengforskjellene som gis tilbudene på de ulike kriteriene som er det avgjørende.» Og videre: «En poengforskjell på ett poeng mellom tilbud A og B har akkurat den samme betydning for sluttresultatet av konkurransen uansett hvor på skalaen denne poengforskjellen oppstår. Det er altså uvesentlig for den endelige rangeringen om tilbud A og B blir gitt poengene 10 og 9 eller 3 og 2.»
Denne innsikten er avgjørende. Dersom poengforskjellene er de samme, er det likegyldig om skalaen utnyttes fullt ut eller ikke. Problemet oppstår først dersom metoden for pris og metoden for kvalitet gir ulik grad av spredning – for da endres den effektive vektingen.
Effektiv vekting og poengdifferanser
Det er her kjernen i normaliseringsdebatten ligger: spørsmålet om effektiv vekting – altså den vektingen som faktisk slår igjennom i resultatet, til forskjell fra den formelle prosentvekten som er oppgitt i konkurransegrunnlaget.
Eksemplet som utløser problemet:
Oppdragsgiver har angitt kvalitet 50 prosent og pris 50 prosent, med en poengskala 0–10 på begge.
| Tilbyder | Prispoeng (lineær, normalisert) | Kvalitetspoeng (absolutt, ikke normalisert) |
|---|---|---|
| A | 10 | 5 |
| B | 7 | 3 |
Vektet poengsum:
- A: (10 × 0,5) + (5 × 0,5) = 5,0 + 2,5 = 7,5
- B: (7 × 0,5) + (3 × 0,5) = 3,5 + 1,5 = 5,0
Forskjellen mellom A og B er 2,5 poeng. Men av denne forskjellen kommer 1,5 fra pris og bare 1,0 fra kvalitet. Pris står altså for 60 prosent av den samlede forskjellen, og kvalitet for 40 prosent – ikke de oppgitte 50/50.
Hvis vi normaliserer kvalitetspoengene (prosentvis oppskalering, faktor 10/5 = 2):
| Tilbyder | Prispoeng | Kvalitetspoeng (normalisert) |
|---|---|---|
| A | 10 | 10 |
| B | 7 | 6 |
Vektet poengsum:
- A: 5,0 + 5,0 = 10,0
- B: 3,5 + 3,0 = 6,5
Nå kommer 1,5 fra pris og 2,0 fra kvalitet. Kvalitet har fått mer gjennomslag enn den oppgitte vekten. Men den prosentvise forskjellen mellom tilbudene (A var 60 prosent av beste på kvalitet, og er det fortsatt) er bevart.
Hva er «riktig»? Det er her den faglige uenigheten oppstår. Argumentet for normalisering er at oppdragsgiver har sagt «kvalitet teller 50 prosent», og da bør kvalitetsskalaen utnyttes like mye som prisskalaen. Argumentet mot er at oppdragsgivers evaluering ga 5 og 3 poeng – det var den faglige vurderingen – og en kunstig oppskalering til 10 og 6 gir en annen vurdering enn den evalueringsgruppen faktisk gjorde.
KOFA storkammer 2021/1000 la seg tydelig på den sistnevnte siden. Stornemnda presiserte at poengforskjellene – ikke poengenes absolutte nivå – er det relevante, og at oppblåsing av poengforskjellene kan gi «uforholdsmessig stor betydning» til små kvalitetsforskjeller.
Betalingsvillighet og normalisering
DFØs utkast til veileder knytter problemstillingen til oppdragsgivers betalingsvillighet: «Oppdragsgiver bør ha fokus på å uttrykke sin betalingsvillighet gjennom poengforskjeller. En senere normalisering vil da i så fall gi et galt bilde av betalingsvilligheten og bør følgelig unngås.»
Poenget er følgende: Når evalueringsgruppen gir tilbud A fem poeng og tilbud B tre poeng på kvalitet, uttrykker poengforskjellen på to poeng en vurdering av hvor mye bedre A er enn B. Denne vurderingen har en implisitt verdi i kroner – den sier noe om hvor mye mer oppdragsgiver er villig til å betale for kvalitetsforskjellen. Hvis poengforskjellen dobles gjennom normalisering (til fire poeng), dobles også den implisitte betalingsvilligheten. Men evalueringsgruppen har ikke gjort noen ny faglig vurdering som begrunner denne doblingen.
Som den svenske Konkurrensverket-rapporten fra 2004 (Andersson og Lunander) påpeker, er det å uttrykke betalingsvillighet eksplisitt «kognitivt meget svårt». Men normalisering løser ikke dette problemet – den erstatter bare én implisitt og ugjennomtenkt betalingsvillighet med en annen, enda mer vilkårlig betalingsvillighet.
DFØs anbefaling er derfor at modellen «prissetting av kvalitet» er å foretrekke, nettopp fordi den tvinger oppdragsgiver til å uttrykke betalingsvilligheten direkte i kroner. Da oppstår aldri spørsmålet om normalisering.
Minuspoeng og negative poeng
Spørsmålet om negative poeng oppstår primært på priskriteriet. I den lineære modellen beregnes poeng etter formelen:
Poengscore = 10 − 10 × (Pe − Pb) / Pb
der Pe er den aktuelle prisen og Pb er laveste pris. Dersom en tilbyder har mer enn dobbelt så høy pris som den laveste, blir poengsummen negativ. Spørsmålet er: er dette lovlig?
DFØs utkast til veileder er tydelig: «Det har eksistert en oppfatning at en slik situasjon ikke vil være forenelig med regelverket, begrunnet i at poengskalaen da blir utvidet. Denne oppfattelsen er imidlertid ikke riktig. Det er ikke i seg selv i strid med regelverket å gi negativ score på priskriteriet.»
Nemnda behandlet spørsmålet i KOFA 2015/60 og uttalte: «At innklagede har lagt opp til å utvide poengskalaen for to av tildelingskriteriene er etter nemndas syn ikke til hinder for å premiere relevante forskjeller mellom tilbudene i dette tilfellet.»
Rettsregelen er altså: Negative poeng er lovlig. Men modellen må være opplyst på forhånd, og den må premieres relevante forskjeller mellom tilbudene – ikke gi vilkårlige utslag.
Praktisk konsekvens: Lineær modell gir negative poeng når prisvariasjonen er stor. Forholdsmessig modell gir aldri negative poeng, men komprimerer poengforskjellene i den øvre delen av prisspekteret. Hybridmodellen (utviklet av Oslo kommune) kombinerer egenskapene: den er lineær opp til et knekkpunkt og går deretter over til forholdsmessig. DFØ beskriver den slik: «Hybridmodellen tar delvis høyde for problemet med strategisk prising, samtidig som den bruker skalaen i større grad enn en ren forholdsmessig metode vil gjøre. Modellen gir ikke minuspoeng, og kan derfor være et godt alternativ hvor det er forventet store prisforskjeller i tilbudene.»
For kvalitative kriterier er negative poeng sjeldnere, men kan forekomme der konkurransegrunnlaget åpner for trekk under null – typisk for kvantitative miljøkriterier. Det rettslige utgangspunktet er det samme: lovlig så lenge det er forutberegnelig og ikke gir vilkårlige utslag. I praksis bør oppdragsgiver ha en god grunn til å åpne for negative kvalitetspoeng, og konsekvensen bør testes i en konsekvensanalyse før publisering.
Argumentene for og mot normalisering – den norske fagdebatten
Diskusjonen om normalisering har pågått i det norske innkjøpsmiljøet i mange år, og toppet seg etter KOFA 2021/1000 og DFØs etterfølgende veiledningsarbeid. Argumentene kan struktureres slik:
Argumenter for normalisering (prosentvis oppskalering):
- Symmetri mellom pris og kvalitet. Prisskalaen utnyttes alltid fullt ut (laveste pris = topppoeng). Hvis kvalitetsskalaen ikke utnyttes, forskyves den reelle vektingen i favør av pris. Normalisering gjenoppretter symmetrien.
- Forutberegnelighet for leverandørene. Når leverandøren vet at kvalitetsforskjeller normaliseres, vet leverandøren at investering i kvalitet gir forholdsmessig uttelling. Uten normalisering er det usikkert hvor mye kvalitet «lønner seg».
- Den oppgitte vektingen bør holdes. Oppdragsgiver har valgt «50/50» av en grunn – da bør modellen sørge for at dette faktisk blir resultatet.
Argumenter mot normalisering (prosentvis oppskalering):
- Oppblåsing av små forskjeller. Når det beste tilbudet har relativt lav kvalitet – for eksempel 3 av 10 – og normaliseres til 10, tredobles poengforskjellene. Små, tilfeldig bestemte forskjeller kan bli avgjørende for hvem som vinner.
- Feil bilde av betalingsvilligheten. Evalueringsgruppens faglige vurdering resulterte i bestemte poengforskjeller. Normalisering endrer disse forskjellene uten at det foreligger noen ny faglig vurdering.
- Vektingen forskyves den andre veien. Normalisering gir ikke nødvendigvis «riktig» vekting – den kan gi kvalitet uforholdsmessig stor vekt dersom prisspredningen er liten og kvalitetsspredningen (etter normalisering) blir stor.
- IIA-problemet. Ved relativ normalisering definerer det beste tilbudet toppscoren. Hvis ett tilbud trekker seg (eller det kommer inn ett nytt tilbud som er marginalt bedre), endres normaliseringsfaktoren for alle. Et eksternt, irrelevant tilbud kan dermed endre rangeringen mellom de øvrige tilbudene. Dette er det Konkurrensverkets rapport fra 2004 kaller «beroende av irrelevanta alternativ» – IIA-problemet.
- Økonomisk teori fraråder det. KOFA 2021/1000 viser til at det «i økonomisk teori frarådes at tilbudet med best kvalitet brukes som målestokk». Referansen er nettopp til konsistensproblematikken som Andersson og Lunander (2004) dokumenterte.
DFØs nåværende standpunkt er utvetydig: «DFØ anbefaler nå primært evalueringsmodellen prissetting av kvalitet, hvor normalisering uansett ikke vil være en aktuelt problemstilling. Dersom oppdragsgiver benytter en evalueringsmodell hvor normalisering blir et tema, anbefaler vi å la være å normalisere.»
Skalavalg: Hvor mange trinn er riktig?
Valg av poengskala er et spørsmål som henger tett sammen med normalisering, fordi skalaens bredde bestemmer hvor presist poengforskjellene kan uttrykkes.
Den danske Konkurrence- og Forbrugerstyrelsen (KFST) anbefaler i sin praktiske veileder om evalueringsmodeller en skala med ni trinn (0–8): «Denne skala er valgt, da skalaen gør det muligt at vurdere tilbud ud fra et tilpas omfang trin til at skelne imellem dem. Omfanget af trin kan altså sikre, at der hensigtsmæssigt kan differentieres imellem tilbuddene, uden at små forskelle betyder relativt store forskelle i evalueringen.»
KFST peker på to farer: «En skala med for få trin i pointskalaen vil muligvis give det udfald, at tilbuddene ikke varierer i point, selv om der eksempelvis er kvalitetsforskelle i tilbuddene. En skala med for mange trin kan medføre, at det bliver svært for ordregiver at skelne imellem de forskellige tilbud. I dette tilfælde vil relativt ens tilbud risikere at få forskelligt antal point.»
Fra KOFA-praksis vet vi at KOFA 2025/0509 (Larvik kommune) underkjente en poengskala 3-5-7-9-10 fordi den var for grovmasket til å fange relevante forskjeller. Og KOFA 2023/0861 konstaterte brudd da oppdragsgiver brukte en annen skala (0–6) enn den kunngjorte (1–6). Feilen medførte riktignok ikke omgjøring fordi den ikke hadde påvirket rangeringen, men det var likevel et regelverksbrudd.
Praktisk anbefaling:
- En skala med 5–10 trinn er vanligvis tilstrekkelig for kvalitative kriterier med skjønnsmessig vurdering.
- For kvantitative kriterier (leveringstid, utslipp, gjenvinningsgrad) er trappetrinn eller en matematisk formel mer egnet enn en skjønnsskala, fordi de gir forutsigbar og etterprøvbar konvertering.
- Skalaen som kunngjøres, er den skalaen som brukes. En endring – selv en «utvidelse» nedover til null – er et avvik fra det opplyste.
Utliggereffekten i relative modeller
Normalisering henger også sammen med det som kalles utliggereffekten – problemet med at ett enkelt, ekstremt tilbud strekker skalaen og endrer poengfordelingen mellom alle de øvrige tilbudene.
Tenk deg følgende: Fem tilbydere leverer tilbud på andel fossilfri maskinpark. Fire av dem ligger mellom 60 og 80 prosent. Den femte – Epsilon – lover 100 prosent. I en lineær modell som normaliserer mot beste tilbud, spenner skalaen fra 60 til 100 prosent (40 prosentpoengs spenn). En tilbyder med 70 prosent ligger da en fjerdedel opp på skalaen og får beskjeden uttelling. En tilbyder med 80 prosent ligger halvveis og får halvparten av maks.
Fjern Epsilon fra konkurransen. Nå spenner skalaen fra 60 til 80 prosent (20 prosentpoengs spenn). Tilbyder med 70 prosent er nå halvveis, og tilbyder med 80 prosent får maks. Samme tilbud, men fundamentalt annerledes poengfordeling – og kanskje annen vinner.
Dette er IIA-problemet i praksis. Konkurrensverkets rapport fra 2004 identifiserer det som en grunnleggende brist ved alle modeller der pris eller kvalitet poengberegnes relativt til det beste (eller dårligste) faktisk innkomne tilbudet. Rapporten viser at «rangordningen mellan två anbud kommer att påverkas av förändringar i kvalitetspoäng eller i pris hos andra anbud», og at dette åpner for strategisk manipulasjon.
Modeller som er immune mot IIA-problemet, er modeller der evalueringsverdien av hvert tilbud bestemmes uavhengig av de andre tilbudene. Det viktigste eksempelet er prissetting av kvalitet (se kapittel 3.7), der kvalitetsforskjeller verdsettes direkte i kroner. Men også absolutte poengmodeller – med fast, forhåndsdefinert skala der poengene ikke justeres – er immune, så lenge de brukes konsekvent og uten etterfølgende normalisering.
Normalisering i prismodeller – et sjeldnere, men reelt problem
Selv om normalisering oftest diskuteres i kvalitetskontekst, kan analoge problemstillinger oppstå for pris. Den forholdsmessige prismodellen (Poengscore = 10 × Pb/Pe) gir for eksempel alle tilbud poeng i forhold til laveste pris, og poengforskjellene avtar jo lenger opp i pris man kommer. DFØs utkast beskriver dette: «Poengforskjellen blir mindre, jo høgare prisforskjellen er.» Resultatet er at store prisforskjeller i det øvre prissjiktet «komprimeres» og ikke gir tilsvarende poengutslag.
KOFA 2014/95 (stornemnd) behandlet spørsmålet og konkluderte med at den forholdsmessige metoden ikke i seg selv er ulovlig, men at den bare kan brukes der den er «eigna til å påvise relevante forskjellar mellom tilboda». Flere tidligere KOFA-saker (2009/249, 2009/279, 2011/176, 2012/41) har vurdert poengberegningen opp mot utslag ved den lineære proporsjonale metoden. Hvis poengutslagene avviker vesentlig fra hva en lineær metode ville gitt, må oppdragsgiver vise hvorfor evalueringen likevel har vært saklig og forsvarlig.
Oppsummering av rettslige regler og metodeanbefalinger
For å gjøre bildet oversiktlig skiller vi mellom hva som er rettslig krav og hva som er metodisk anbefaling:
Rettslige krav (grenser):
- Det foreligger ingen generell plikt til å normalisere (KOFA 2021/1000, stornemnd).
- Dersom konkurransegrunnlaget angir at beste tilbud skal få toppscoren, er oppdragsgiver forpliktet til å normalisere (KOFA 2024/1458).
- Normalisering som innføres etter tilbudsåpning, uten å være beskrevet i konkurransegrunnlaget, er et brudd på forutberegnelighetsprinsippet (KOFA 2023/0999).
- Negative poeng er lovlig så lenge det er opplyst på forhånd og ikke gir vilkårlige utslag (KOFA 2015/60).
- Poengskalaen som er kunngjort, er bindende. En endring av skalaen under evalueringen er regelstridig (KOFA 2023/0861).
- Evalueringsmodellen kan ikke gi tildelingskriteriene en reell vekt som avviker vesentlig fra den oppgitte (KOFA 2009/151, 2011/201, 2020/229 m.fl.).
- Ulike poengskalaer for ulike tilbydere er regelstridig (KOFA 2023/999).
Metodiske anbefalinger (faglig god praksis):
- DFØ anbefaler å ikke normalisere dersom man bruker en poengmodell. Fokus bør ligge på å uttrykke betalingsvilligheten gjennom poengforskjellene, ikke gjennom etterfølgende justering.
- DFØ anbefaler primært prissetting av kvalitet, der normalisering ikke er en aktuell problemstilling.
- Dersom man likevel bruker en relativ poengmodell med normalisering, må dette beskrives i konkurransegrunnlaget – inkludert hvilken normaliseringsmetode som brukes (parallellforskyvning eller prosentvis oppskalering).
- Parallellforskyvning er enklest og tryggst, men har ingen effekt på resultatet. Prosentvis oppskalering endrer poengforskjellene og bør bare brukes der man bevisst ønsker denne effekten.
- Hybridmodellen er et godt alternativ der store prisforskjeller kan forventes og man vil unngå negative poeng.
- Skalaen bør ha nok trinn til å fange relevante forskjeller, men ikke så mange at evalueringsgruppen tvinges til å fingradere forskjeller som ikke reelt finnes.
Vanlige feil
- Normalisering innføres etter tilbudsåpning. Oppdragsgiver oppdager at kvalitetsskalaen ikke utnyttes, og justerer poengene opp uten at dette var beskrevet. Brudd (KOFA 2023/0999).
- Ubevisst vektforskyvning. Priskriteriet bruker en lineær modell med full spredning (0–10), mens kvalitetskriteriet bruker absolutt modell der ingen passerer 5. Pris får i praksis vesentlig høyere vekt enn oppgitt. Oppdragsgiver har ikke sjekket dette i forkant.
- Normalisering blåser opp bagateller. Beste tilbud får 3 av 10 poeng. Etter prosentvis oppskalering blir poengene 10, 8 og 7 – store poengforskjeller basert på et smalt kvalitetsintervall. Små, muligens tilfeldige vurderingsforskjeller avgjør konkurransen.
- Blanding av absolutt evaluering og relativ normalisering uten å kommunisere det. Evalueringsgruppen gjør en absolutt vurdering. Prosjektleder normaliserer etterpå «for å utnytte skalaen». Resultatet avviker fra den faglige vurderingen, og er ikke sporbart for leverandørene.
- Negative poeng overrasker leverandørene. Den lineære prismodellen gir minus tre poeng til den dyreste tilbyderen. Skalaen var opplyst som 0–10. Leverandøren klager – med rette – fordi utvidelsen av skalaen ikke var varslet.
- Feil normaliseringsmetode i forhold til det kunngjorte. Konkurransegrunnlaget sier «beste tilbud får 10 poeng». Evalueringsgruppen bruker prosentvis oppskalering, som endrer de innbyrdes forskjellene. KOFA 2024/1458 viser at parallellforskyvning hadde vært lovlig i dette tilfellet. Men dersom oppdragsgiver ikke har presisert hvilken metode som brukes, oppstår tolkningsspørsmål.
Kontrollspørsmål før publisering av konkurransegrunnlaget
Før oppdragsgiver publiserer konkurransegrunnlaget, bør følgende spørsmål besvares:
- Skal kvalitetspoengene normaliseres? Hvis ja: Er dette uttrykkelig beskrevet i konkurransegrunnlaget, inkludert hvilken normaliseringsmetode som brukes?
- Hvis normalisering ikke brukes: Har du sjekket med realistiske poengscenarier at den effektive vektingen av pris og kvalitet samsvarer rimelig med den oppgitte vektingen? Hva skjer dersom alle tilbud får mellom 3 og 5 av 10 kvalitetspoeng?
- Bruker du en fast eller relativ skala for kvalitet? Dersom fast: hva er ankerpunktene? Dersom relativ: er du forberedt på at uteliggere kan strekke skalaen?
- Kan prismodellen gi negative poeng? Hvis ja: Er dette opplyst i konkurransegrunnlaget? Dersom store prisforskjeller er sannsynlige, har du vurdert hybridmodellen?
- Er skalaen grovmasket nok til å forhindre skinnpresisjon, men finmasket nok til å fange relevante forskjeller? Har du testet modellen med 3–5 tenkte tilbud?
- Er du sikker på at samme evalueringsmetode brukes likt for alle tilbydere? Ingen individuell skalering, ingen etterpåjustering av enkelttilbud.
Kontrollspørsmål under evaluering
- Har evalueringsgruppen fulgt den kunngjorte modellen? Hvis modellen sier «beste tilbud får 10 poeng», men evalueringsgruppen har gitt 8 – normaliser med parallellforskyvning (som er nøytral) eller med prosentvis oppskalering dersom dette er det kunngjorte.
- Oppstår det et behov for normalisering som ikke var forutsett? Stopp. Vurder om justeringen kan gjennomføres innenfor den kommuniserte modellen. Hvis ikke, er det sannsynligvis for sent å innføre normalisering.
- Er poengforskjellene på kvalitet konsistente med evalueringsgruppens verbale vurderinger? Dersom evaluererne beskriver to tilbud som «tilnærmet like gode», men poengene etter normalisering avviker med 4 poeng, er det et tegn på at normaliseringen har forkludret bildet.
- Gir totalresultatet mening sett opp mot oppdragsgivers betalingsvillighet? Sjekk: Hva betaler oppdragsgiver i kroner for den kvalitetsforskjellen som avgjør rangeringen? Er dette et beløp oppdragsgiver faktisk ville stå inne for?
3.7 Prissetting av kvalitet og sammenstilling
Problemet i praksis
Evalueringsmodeller som bygger på poeng, oversetter både pris og kvalitet til en felles abstrakt enhet – poeng – for deretter å vekte og summere. Det skaper et grunnleggende problem: hva betyr egentlig forskjellen mellom 7 og 9 poeng på kvalitet, målt mot forskjellen mellom 1,2 og 1,5 millioner kroner i pris? Svaret er at ingen vet det med sikkerhet, fordi sammenhengen mellom poengskalene og kroneverdi forblir skjult i modellen. Oppdragsgiver kan hevde at kvalitet er vektet 40 prosent, men dersom poengskalaen på kvalitet brukes annerledes enn poengskalaen på pris – noe som er svært vanlig – kan den reelle vekten bli en helt annen. KOFA konstaterte nettopp dette i sak 2011/201, der priskriteriet ble reelt vektet 63 prosent til tross for at oppdragsgiver hadde oppgitt 60 prosent, fordi ulike poengmetoder for pris og kvalitet forskjøv den faktiske vektingen.
Prissetting av kvalitet er et alternativ som forsøker å løse dette problemet ved å måle alt i kroner. I stedet for å gi poeng til kvalitet, setter oppdragsgiver en pengeverdi på kvalitetsforskjellene. Denne pengeverdien trekkes fra eller legges til tilbudsprisen, og tilbudet med lavest justert pris vinner. Tanken er enkel: dersom oppdragsgiver er villig til å betale 200 000 kroner ekstra for en bestemt kvalitetsforbedring, skal modellen gjenspeile nettopp det – verken mer eller mindre.
DFØ anbefaler nå primært denne evalueringsmodellen, slik det fremgår av DFØs veileder i evaluering av tilbud. Modellen er også beskrevet og analysert i nordisk faglig sammenheng, blant annet i Konkurrensverkets uppdragsforskningsrapporter fra 2004 og 2009 og i den danske Konkurrence- og Forbrugerstyrelsens (KFST) praktiske veiledning om evalueringsmodeller. Nedenfor gjennomgås modellens oppbygging, rettslige rammer, praktiske gjennomføring, styrker og svakheter.
Forskjellen mellom poengmodell og monetær modell
For å forstå hva prissetting av kvalitet innebærer, er det nødvendig å ha et klart bilde av de to hovedgruppene av evalueringsmodeller.
Poengmodeller omgjør både pris og kvalitet til poeng. Poengene som gis for hvert tildelingskriterium justeres for kriteriets relative vekt, og de vektede poengene summeres. Tilbudet med høyest totalpoengsum vinner. DFØs veileder i evaluering av tilbud beskriver dette som den tradisjonelle og fortsatt vanligste metoden i Norge. Styrken er at modellen er kjent og akseptert. Den gir fleksibel vekting og tillater ulike poengsettingsmetoder for ulike kriterier – for eksempel trappetrinn for kvalitet og lineær formel for pris. Svakheten er at oversettelsen fra kroner til poeng og fra kvalitet til poeng skjer gjennom separate konverteringsmekanismer, og at forholdet mellom disse to oversettelsene sjelden er transparent.
Prissetting av kvalitet (også kalt monetær modell, «evaluert pris»-modell eller i dansk tradisjon «prismodell») omgjør kvalitet til en pengeverdi i stedet for poeng. DFØs veileder beskriver mekanismen slik: «Det tas utgangspunkt i de tilbudte prisene, så gis det et fiktivt fratrekk, eventuelt påslag, fra prisen basert på hvordan kvalitetskriteriene vurderes. Vinneren av konkurransen er den leverandøren som har tilbudet med den laveste fiktive tilbudsprisen.» Den justerte prisen brukes utelukkende til sammenligning; når kontrakten gjennomføres, gjelder den faktisk tilbudte prisen.
Forskjellen er altså ikke bare kosmetisk. I en poengmodell er det opp til samspillet mellom to separate poengskalaer, med tilhørende vekting, å bestemme den endelige rangeringen. I en monetær modell finnes det bare én enhet – kroner – og rangeringen følger direkte av den evaluerte prisen. Det betyr at oppdragsgiver ikke trenger å velge prisformel, normalisere poeng eller bekymre seg for at prispoengene og kvalitetspoengene måler på inkompatible skalaer.
KFST beskriver tilsvarende sondring i sin praktiske veiledning om evalueringsmodeller: i prismodeller omregnes poeng for kvalitet til kronebeløp som vektes sammen med tilbudsprisene. Det sentrale poenget – som alle tre nordiske veiledningskilder understreker – er at den monetære modellen tvinger oppdragsgiver til å ta stilling til betalingsvillighet før konkurransen, uttrykt i den valuta tilbudene prises i.
Justert pris, kvalitetsfradrag og kvalitetspåslag
Den mest brukte varianten av prissetting av kvalitet i norsk sammenheng er fradragsmodellen (også kalt «prisfradrag» eller «kvalitetsfradrag»). Prinsippet er:
Evaluert pris = Tilbudspris – Kvalitetsfradrag
Tilbudet med lavest evaluert pris vinner. Kvalitetsfradraget er et fiktivt beløp som representerer verdien av kvaliteten leverandøren tilbyr utover et nærmere definert utgangspunkt. Jo høyere kvalitet, desto større fradrag, og desto lavere evaluert pris. Det er altså en belønningsmekanisme for kvalitet, men uttrykt i kroner.
Alternativt kan modellen bygges som en påslagsmodell (kvalitetstillegg), der tilbud med svak kvalitet får et fiktivt påslag i pris. Da blir evaluert pris høyere for tilbud med dårlig kvalitet. Matematisk gir de to variantene samme rangering dersom de kalibreres likt; forskjellen er pedagogisk og dreier seg om hvilket nullpunkt som velges.
DFØs veileder anbefaler fradragsvarianten og beskriver den praktiske gjennomføringen i detalj. For hvert kvalitetskriterium fastsettes det et maksimalt fiktivt fratrekk som oppdragsgiver er villig til å gi for best mulig kvalitet. Fratrekket kan oppgis som et bestemt beløp, en prosentandel av anskaffelsens maksimale verdi, eller på annen måte. Det avgjørende er at det maksimale fiktive fradraget oppgis på en forutberegnelig og etterprøvbar måte.
Et typisk oppsett kan se slik ut:
| Kriterium | Maksimalt fratrekk |
|---|---|
| Pris | Ingen (tilbudspris brukes direkte) |
| Kvalitet X | Inntil 15 % av anskaffelsens estimerte verdi |
| Kvalitet Y | Inntil 10 % av anskaffelsens estimerte verdi |
| Kvalitet Z | Inntil 10 % av anskaffelsens estimerte verdi |
Dersom anskaffelsens estimerte verdi er 10 millioner kroner, betyr dette at et tilbud som scorer best mulig på alle tre kvalitetskriterier, kan oppnå et samlet fiktivt fradrag på inntil 3,5 millioner kroner. En leverandør som tilbyr 11 millioner kroner med full kvalitetsuttelling, vil da ha en evaluert pris på 7,5 millioner – og vinne over en leverandør som tilbyr 8 millioner med null kvalitetsuttelling.
Merk at fratrekket ikke er et automatisk resultat av evalueringen. Som DFØs veileder presiserer: «Det fiktive prisfratrekket bør gjenspeile faktisk betalingsvilje. Det betyr at det ikke nødvendigvis er noen som oppnår maksimalt fratrekk på et enkelt tildelingskriterium, eller noen av dets underkriterier. Det vil være faktisk tilbudt kvalitet, slik oppdragsgiver bedømmer det, som er avgjørende for størrelsen på fratrekket, innenfor den oppgitte rammen.» Og videre: «Det er ikke slik at enhver forskjell i de kvalitative egenskapene i tilbudene skal innebære forskjeller i de fiktive prisfradragene. Det er kun relevante forskjeller i tilbudene som skal gi utslag i ulike prisfradrag.»
DFØ anbefaler dessuten at kvalitetskriteriene evalueres uten at evalueringsteamet kjenner tilbudsprisene. Ved å holde prisevalueringen og kvalitetsevalueringen separat, styrkes likebehandlingen og man unngår at evaluerernes kvalitetsvurdering ubevisst tilpasses prisbildet.
Den rettslige rammen
Forskriftens krav om vekting
Anskaffelsesforskriften § 18-1 (6) krever at oppdragsgiver oppgir den relative vektingen hvert enkelt tildelingskriterium skal ha. Prissetting av kvalitet oppgir ikke vektingen i tradisjonell prosentform. I stedet utledes vektingen fra de maksimale summene som kan komme til fradrag. Spørsmålet er om dette tilfredsstiller forskriftens krav.
KOFA har vurdert dette direkte i sak 2019/589. Oppdragsgiver hadde benyttet en modell tilsvarende den DFØ anbefaler, der kvalitetskriteriene ble evaluert uten at evalueringsteamet kjente tilbudsprisene. KOFA uttalte at den valgte evalueringsmodellen under disse omstendighetene ikke var «mindre forutberegnelig eller etterprøvbar enn hvor tildelingskriteriene vektes innenfor et nærmere angitt spenn, slik forskriften § 18-1 (6) åpner for». Modellen ble altså akseptert som lovlig.
Formålet med vektingskravet er å gjøre evalueringen forutberegnelig og etterprøvbar, og å begrense muligheten for at oppdragsgiver tilpasser evalueringen etter tilbudsåpning. Prissetting av kvalitet ivaretar begge disse hensynene: leverandørene vet i forkant at en kvalitetsforbedring på kriterium X maksimalt kan gi et fradrag på for eksempel 1,5 millioner kroner, og de kan dermed beregne om det lønner seg å investere i høyere kvalitet fremfor å senke prisen.
Oppdragsgivers modellfrihet
Det rettslige utgangspunktet er at oppdragsgiver står fritt til å velge evalueringsmodell. KOFA har ved flere anledninger uttalt at valg av evalueringsmodell ligger innenfor oppdragsgivers frie skjønn og bare i liten grad kan overprøves rettslig, jf. blant annet KOFA 2017/114. Denne friheten gjelder så vel poengmodeller som monetære modeller. Valget mellom de to er altså et innkjøpsfaglig spørsmål, ikke et rettslig krav.
Det innebærer at det ikke er noe rettslig krav om å bruke prissetting av kvalitet. DFØs anbefaling er en metodefaglig anbefaling, ikke en forskriftsforpliktelse. Oppdragsgiver kan fullt ut lovlig fortsette å bruke poengmodeller. Det DFØ selv presiserer i sin veileder, er at «selv om DFØ anbefaler modellen om å prissette kvalitet, er det naturligvis mulig å fortsatt bruke poengmodeller, og veiledningen omtaler også bruk av poengmodeller».
Resultatkravet gjelder uansett modell
Uavhengig av om oppdragsgiver velger poengmodell eller monetær modell, gjelder det samme resultatkravet: sammenstillingen av pris og kvalitet må være egnet til å identifisere tilbudet med det beste forholdet mellom pris og kvalitet. Det er et krav som følger av LOA § 4 og de grunnleggende prinsippene om likebehandling, forutberegnelighet og etterprøvbarhet. Modellen må fange opp relevante forskjeller på en saklig og proporsjonal måte. KOFA 2018/238 illustrerer den ytre grensen: der ble en modell underkjent fordi den var «ikke egnet til å utpeke tilbudet med det beste forholdet mellom pris og kvalitet».
Hvordan betalingsvillighet fastsettes
Kjernen i prissetting av kvalitet er at oppdragsgiver må ta eksplisitt stilling til sin betalingsvillighet – det vil si hva det er verdt, i kroner, å oppnå høyere kvalitet på hvert enkelt kriterium. Dette er både modellens største styrke og dens største utfordring.
Hva er betalingsvillighet?
Betalingsvillighet i denne sammenhengen betyr: Hvor mye ekstra er oppdragsgiver villig til å betale for en definert kvalitetsforbedring fremfor alternativet? Det er en verdivurdering som skal gjøres før konkurransen utlyses, og som skal reflektere organisasjonens reelle prioriteringer.
For eksempel: Dersom oppdragsgiver kjøper en renholdstjeneste og ett av kvalitetskriteriene er responstid ved akuttoppdrag, må oppdragsgiver spørre seg: Hva er det verdt for oss at responstiden er 30 minutter i stedet for 60 minutter? Er svaret 200 000 kroner over kontraktsperioden? 500 000 kroner? 50 000 kroner? Svaret er ikke objektivt – det er en bevisst prioritering av oppdragsgiverens behov, satt opp mot kostnaden.
DFØ understreker i sin veileder om poengmodeller at «oppdragsgiver må velge en poengskala som er finmasket nok til å gi et korrekt uttrykk for oppdragsgivers betalingsvillighet for ulike kvalitative egenskaper». Men i en poengmodell forblir denne betalingsvilligheten ofte implisitt – den er innbakt i samspillet mellom poengskala, vektingsprosent og prisformel, uten at noen har regnet ut hva den faktisk utgjør i kroner. Det er dette prissetting av kvalitet tvinger frem: en eksplisitt, tallsatt betalingsvillighet.
Fremgangsmåte for å fastsette betalingsvillighet
Oppdragsgiver bør gjennomgå følgende steg:
Steg 1: Identifiser kvalitetsdimensjonene. For hvert tildelingskriterium, definer hva som utgjør svak, akseptabel og fremragende kvalitet. Bruk kravspesifikasjonen som utgangspunkt: minstekravene definerer bunnen, og tildelingskriteriene skal fange opp merverdi utover dette.
Steg 2: Vurder den faktiske verdien av kvalitetsforskjellene. Still spørsmålet: Hva koster det organisasjonen dersom vi får et tilbud med gjennomsnittlig kvalitet i stedet for best mulig kvalitet? Kostnadene kan være direkte (høyere driftskostnader, flere feil, mer oppfølging) eller indirekte (dårligere tjenestekvalitet for brukerne, høyere risiko). Dersom kvalitetsforskjellen ikke har noen identifiserbar verdi, bør man vurdere om kriteriet i det hele tatt bør være et tildelingskriterium.
Steg 3: Sett maksimalt fratrekk per kriterium. Det maksimale fratrekket bør tilsvare den øvre grensen for hva oppdragsgiver faktisk er villig til å betale for kvalitetsforbedringen. Sett fratrekket for høyt, og kvalitet vil dominere evalueringen langt utover det oppdragsgiver egentlig ønsker. Sett det for lavt, og kvalitetskriteriet blir meningsløst – pris vil alltid avgjøre.
Steg 4: Kontroller summen av alle fratrekk. Den samlede summen av maksimale fratrekk på tvers av alle kvalitetskriterier bestemmer det effektive forholdet mellom pris og kvalitet. Dersom estimert kontraktsverdi er 10 millioner og samlede maksimale fratrekk er 3,5 millioner, betyr det at kvalitet kan påvirke evalueringen tilsvarende 35 prosent av kontraktsverdien. Dette er ikke det samme som tradisjonell prosentvekting, men det gir en intuitiv indikasjon på kvalitetens betydning.
Steg 5: Test med realistiske tilbudsscenarier. Før publisering, simuler evalueringen med ulike kombinasjoner av pris og kvalitet. Still spørsmål som: Vinner et tilbud med middels kvalitet og lav pris over et tilbud med høy kvalitet og høy pris? Er det resultatet vi ønsker? Gir modellen mening dersom prisforskjellene er store? Dersom prisforskjellene er små?
DFØs veileder om evalueringsmetodikk for klima- og miljøhensyn beskriver en variant der oppdragsgiver bruker lineær interpolasjon for å beregne det nøyaktige fratrekket i kroner for kvantitative kriterier (som CO₂-utslipp). Her kan oppdragsgiver «selv bestemme hvor mange kg CO₂e som skal tilsvare ett poengs forskjell» og «samkjøre evalueringsmodellen slik at poengutslagene svarer til betalingsvilligheten for x kg CO₂e». Denne tilnærmingen – der en fysisk enhet (kg, timer, dager) kobles direkte til en kroneverdi – er særlig egnet for kvantitative kvalitetskriterier der det finnes en meningsfull skala.
Betalingsvillighet ved usikkerhet om prisnivå
Dersom oppdragsgiver er usikker på hvilket prisnivå markedet vil levere, kan det være vanskelig å fastsette absolutte kroneverdier for fratrekk. DFØ adresserer dette i veilederen: «Dersom det er stor usikkerhet rundt hvilke priser som kan forventes, kan det være hensiktsmessig å beregne maksimalt prisfratrekk på grunnlag av de innkomne pristilbudene. Dette kan gjøres ved at de maksimale mulige prisfradragene på de ulike kvalitetskriteriene beregnes på grunnlag av en snittpris fra tilbudene etter en forhåndsbestemt faktor.»
Denne varianten bevarer modellens transparens – leverandørene vet på forhånd formelen for fratrekket – men flytter det faktiske kronetallet til etter tilbudsåpning. Det er en mellomløsning: oppdragsgiver beholder den eksplisitte betalingsvilligheten (uttrykt som andel av snittpris), men unngår å måtte treffe et nøyaktig estimat av absolutt prisnivå.
Nordiske metodekilder
DFØ (Norge)
DFØs anbefaling av prissetting av kvalitet bygger på flere argumenter. For det første eliminerer modellen behovet for normalisering av kvalitetspoeng – et tema som har skapt betydelig rettspraksis og usikkerhet. I KOFA sak 2021/1000 (stornemndsavgjørelse) slo nemnda fast at det ikke kan oppstilles en plikt til å normalisere, og advarte mot at normalisering kan føre til at «små kvalitetsforskjeller får uforholdsmessig stor betydning i den samlede bedømmelsen». DFØ knytter dette direkte til modellvalget: «DFØ anbefaler nå primært evalueringsmodellen prissetting av kvalitet, hvor normalisering uansett ikke vil være en aktuell problemstilling.»
For det andre mener DFØ at modellen gir oppdragsgiver bedre kontroll over forholdet mellom pris og kvalitet. Oppdragsgiver uttrykker sin betalingsvillighet direkte i kroner, og slipper den indirekte mekanismen med poengskalaer og vektingsprosenter der samspillet mellom ulike konverteringsformler kan gi utilsiktede utslag. I sin veileder om poengmodeller presiserer DFØ at «oppdragsgiver bør ha fokus på å uttrykke sin betalingsvillighet gjennom poengforskjeller» – et råd som er lettere å følge i en monetær modell der betalingsvilligheten er måleenheten selv.
Konkurrensverket (Sverige)
Konkurrensverkets uppdragsforskningsrapport 2004:1 av Lunander og Andersson («Metoder vid utvärdering av pris och kvalitet i offentlig upphandling») gjennomgikk systematisk evalueringsmodeller brukt i svensk offentlig anskaffelse. Rapporten analyserte svakheter ved relative poengmodeller og drøftet monetære alternativer.
I uppdragsforskningsrapport 2009:10 av Bergman og Lundberg («Att utvärdera anbud – Utvärderingsmodeller i teori och praktik») ble analysen videreført med sterkere vekt på de teoretiske og praktiske problemene med relative modeller. Upphandlingsmyndigheten i Sverige har senere oppsummert funnene slik i sin Frågeportal: «Upphandlingsutredningen anser att relativa anbudsutvärderingsmodeller inte bör tillämpas, dels för att de tenderar att osynliggöra de svåra avvägningarna mellan till exempel kvalitet och pris som myndigheterna ofta ställs inför, dels för att de är oförutsägbara och möjliga att manipulera.» Lunanders rapport fra 2009 (uppdragsforskningsrapport 2009:12, «En logisk fälla – Relativ poängsättning av pris vid anbudsutvärdering i offentlig upphandling») beskrev i detalj de matematiske svakhetene ved relativ poengsetting av pris – svakheter som en monetær modell i prinsippet unngår.
Det er verdt å merke seg at den svenske kritikken av relative modeller ikke i seg selv er et argument for prissetting av kvalitet, men mot de relative poengmodellene som prissetting av kvalitet erstatter. Overgangen fra relativ til absolutt modell kan skje innenfor poengparadigmet også (gjennom absolutte poengskalaer), men den monetære modellen er det mest radikale uttrykket for dette skiftet.
KFST (Danmark)
Konkurrence- og Forbrugerstyrelsen i Danmark har utgitt en praktisk veiledning om evalueringsmodeller som beskriver prismodeller i detalj. I prismodeller omregnes kvalitetspoeng til kronebeløb som vektes sammen med tilbudsprisene. KFST understreker at oppdragsgiver må sikre at «vægtningen opretholdes i forholdet imellem pris og kvalitet i evalueringen» – det vil si at det ikke oppstår skjult vektforskyvning. Veiledningen påpeker at vektingen av pris og kvalitet i en prismodell avhenger av flere parametere som oppdragsgiver aktivt må kontrollere, herunder prisspredningen i markedet og størrelsen på de maksimale kvalitetsfradragene.
Hvordan modellen slår ut i praksis – et gjennomarbeidet eksempel
La oss anta at en kommune anskaffer en treårig rammeavtale for vedlikehold av kommunale bygg. Estimert kontraktsverdi er 15 millioner kroner. Kommunen har to kvalitetskriterier:
- Kompetanse i nøkkelpersonell – maksimalt fratrekk: 1 500 000 kr (10 % av estimert verdi)
- Metodebeskrivelse for forebyggende vedlikehold – maksimalt fratrekk: 2 250 000 kr (15 % av estimert verdi)
Tre leverandører leverer tilbud:
| Leverandør | Tilbudspris | Fratrekk kompetanse | Fratrekk metode | Evaluert pris |
|---|---|---|---|---|
| A | 14 200 000 | 1 200 000 | 1 800 000 | 11 200 000 |
| B | 13 500 000 | 600 000 | 900 000 | 12 000 000 |
| C | 15 100 000 | 1 500 000 | 2 250 000 | 11 350 000 |
Leverandør A vinner med evaluert pris 11 200 000, til tross for å ha den nest laveste tilbudsprisen. Leverandør B er billigst, men kvalitetsfratrekkene er så moderate at den evaluerte prisen likevel er høyest. Leverandør C har den høyeste tilbudsprisen, men full kvalitetsuttelling – og ender likevel på andreplass.
Modellen gjør avveiningen transparent: Leverandør A slår B fordi kvalitetsforskjellen (1 500 000 kroner i samlet fratrekk mer enn B) er større enn prisforskjellen (700 000 kroner dyrere enn B). Leverandør A slår C fordi prisfordelen (900 000 kroner billigere) er større enn kvalitetsulempen (750 000 kroner lavere fratrekk). Disse avveiningene kan forklares direkte i kroner, uten å gå veien om abstrakte poeng.
Kontrakten inngås til faktisk tilbudspris – i dette tilfellet 14 200 000 kroner. De fiktive fratrekkene har ingen virkning utover evalueringen.
Modellens forhold til tradisjonell prosentvekting
Et naturlig spørsmål er: Hvis jeg setter maksimalt fratrekk til 35 prosent av kontraktsverdien, er det da det samme som å vekte kvalitet 35 prosent?
Svaret er nei, ikke i tradisjonell forstand. I en poengmodell med 65/35-vekting mellom pris og kvalitet, er det sammenstillingen av to poengskalaer som bestemmer utfallet, og den effektive vekten avhenger av poengspredningen på begge skalaer. I en monetær modell avhenger kvalitetens innflytelse av faktisk tildelte fratrekk i forhold til faktisk prisspredning. Dersom alle tilbud ligger tett i pris men spredt i kvalitet, vil kvalitet dominere – uansett hva de maksimale fratrekkene er. Dersom tilbudene ligger tett i kvalitet men spredt i pris, vil pris dominere.
Dette er ikke en svakhet ved modellen – det er en refleksjon av virkeligheten. Dersom kvalitetsforskjellene faktisk er små, bør pris dominere. Og omvendt. Modellen reagerer på de faktiske forskjellene i markedet, heller enn å tvinge dem inn i forhåndsbestemte prosentvise båser.
Men det betyr også at oppdragsgiver må forstå at den «vekten» man oppgir (uttrykt som andel av estimert verdi), bare er en ramme for kvalitetens potensielle innflytelse, ikke en garanti for dens faktiske innflytelse. Denne nyanseforskjellen bør kommuniseres tydelig i konkurransegrunnlaget.
Kritiske innvendinger mot prissetting av kvalitet
Prissetting av kvalitet er ikke uten utfordringer. Det er viktig at oppdragsgiver er kjent med innvendingene og vurderer om modellen passer for den konkrete anskaffelsen.
Innvending 1: Krav til markedskunnskap
Den kanskje viktigste praktiske innvendingen er at modellen krever at oppdragsgiver faktisk kan sette en meningsfull kroneverdi på kvalitetsforskjeller. For anskaffelser der kvalitetsdimensjonene er veldefinerte og verdien av forbedringer er relativt lett å tallfeste – typisk tekniske leveranser, driftsanskaffelser, eller situasjoner der kvalitetsforskjeller har direkte kostnadsmessige konsekvenser – er dette overkommelig.
Men for anskaffelser der kvalitetsdimensjonene er myke og vanskelige å verdsette i kroner – for eksempel kreativ rådgivning, organisasjonsutvikling eller komplekse konsulenttjenester – kan det være svært krevende å fastsette betalingsvilligheten med den presisjonen modellen forutsetter. Innkjøpskontorets gjennomgang av DFØs anbefaling fremhever dette poenget: «en pristilnærming stiller mye større krav til forundersøkelsene dine. En ting er å anslå verdien på anskaffelsen og sette inn et fradrag på ca. 50 % av kroneverdien for å gi deg omtrent 50/50-fordeling mellom pris og kvalitet. En annen ting er å treffe godt ved flere tildelingskriterier.»
Når modellen opererer med flere kriterier og flere underkriterier, blir det mange tallverdier å fastsette og holde styr på. Dersom oppdragsgiver bommer vesentlig på betalingsvilligheten – for eksempel ved å sette fratrekket for kompetanse til 2 millioner kroner når den reelle verdien av kompetanseforskjellen bare er verdt noen hundre tusen – vil modellen systematisk overvekte kvalitet. Feilen er i prinsippet den samme som å sette feil vektingsprosent i en poengmodell, men den er mer synlig fordi den er uttrykt i kroner.
DFØs vedlegg om evalueringsmetodikk anerkjenner dette implisitt ved å peke på at oppdragsgiver med «svært god kjennskap til markedet» kan benytte absolutte skalaer, mens oppdragsgiver som er usikker, kan bruke relative tilnærminger. For den monetære modellen betyr dette at oppdragsgiver som er usikker på kroneverdien, bør vurdere å bruke en prosentbasert variant (fratrekk beregnet som andel av gjennomsnittspris) fremfor absolutte beløp, eller alternativt vurdere om en poengmodell med absolutt skala er enklere å kalibrere riktig.
Innvending 2: Kompleksitet med mange underkriterier
Når anskaffelsen har mange underkriterier – og kanskje underunderkriterier – skal hvert av dem ha et fastsatt maksimalt fratrekk i kroner. Summen av alle fratrekk skal reflektere den totale betalingsvilligheten for kvalitet, og fordelingen mellom kriteriene skal reflektere den relative betydningen av hvert kvalitetselement. Dersom det er tre hovedkriterier med to underkriterier hver, har oppdragsgiver i praksis seks separate kroneverdier å bestemme seg for.
Sammenlignet med en poengmodell der oppdragsgiver setter prosentvekter og bruker en felles poengskala, er dette ikke nødvendigvis mer komplekst – det er bare en annen type kompleksitet. I poengmodellen er kompleksiteten skjult i samspillet mellom poengskala, prisformel og vektingsprosenter. I den monetære modellen er den eksplisitt i form av kroneverdier. Mange innkjøpere vil oppleve det som krevende å gå fra «kvalitet vektes 30 prosent» til «kvalitet er verdt inntil 4,5 millioner kroner», selv om de to utsagnene i mange tilfeller uttrykker det samme.
Innvending 3: Risiko for kunstig presisjon
En kroneverdi kan gi inntrykk av presisjon som ikke er reell. Å fastsette at «optimal responstid er verdt 340 000 kroner» impliserer en nøyaktighet i verdivurderingen som sjelden finnes. I en poengmodell kan oppdragsgiver i det minste skjule seg bak poeng og prosenter – noe som paradoksalt nok kan gi en mer ærlig refleksjon av den underliggende usikkerheten.
Denne innvendingen er reell, men den kan snus: Nettopp fordi kroneverdier føles presise, tvinger de oppdragsgiver til å tenke grundigere gjennom verdivurderingen. En oppdragsgiver som ikke kan begrunne hvorfor fratrekket er 340 000 kroner og ikke 200 000 eller 500 000, har sannsynligvis heller ikke en meningsfull formening om kvalitetens verdi – og da er evalueringen sårbar uansett modellvalg.
Innvending 4: Uvanlig for leverandørene
I en overgangsfase vil mange leverandører og innkjøpere være mer komfortable med poengmodeller fordi det er den modellen de kjenner. Behovet for opplæring og veiledning bør ikke undervurderes. Modellen er imidlertid ikke ny – den har vært brukt internasjonalt i lang tid, og erfaringene fra Danmark og det arbeidet DFØ og nordiske fagmiljøer har gjort, gir et godt kunnskapsgrunnlag.
Innvending 5: Skjønnsutøvelsen endres ikke
Det er viktig å forstå at prissetting av kvalitet ikke løser det grunnleggende skjønnsproblemet i evalueringen. Oppdragsgiver må fortsatt vurdere om et tilbud har «god», «middels» eller «svak» kvalitet – og deretter bestemme hvilken andel av det maksimale fratrekket dette skal utløse. Vurderingen er like skjønnsmessig som i en poengmodell. Det som endres, er ikke skjønnets karakter, men dets konsekvens: i stedet for å gi 7 eller 8 poeng, gir oppdragsgiver et fratrekk på 1 200 000 eller 1 400 000 kroner. Leverandøren kan direkte lese av hva forskjellen betyr i kroner, noe som forbedrer etterprøvbarheten.
Sammenligning: Når passer hvilken modell?
Valget mellom poengmodell og monetær modell er ikke et spørsmål om rett og galt, men om hvilken modell som gir best resultat for den konkrete anskaffelsen. Noen tommelfingerregler:
Prissetting av kvalitet egner seg best når:
- Oppdragsgiver har god markedskunnskap og kan sette meningsfulle kroneverdier på kvalitetsforskjeller.
- Kvalitetskriteriene er relativt få og veldefinerte.
- Det er viktig å unngå normaliseringsproblematikk.
- Oppdragsgiver ønsker at forholdet mellom pris og kvalitet skal være direkte lesbart.
- Anskaffelsen har høy verdi og det er tid til grundig forberedelse.
Poengmodeller egner seg best (eller er enklere å bruke) når:
- Kvalitetsdimensjonene er mange, myke og vanskelige å verdsette i kroner.
- Oppdragsgiver har begrenset markedskunnskap og er usikker på prisnivå.
- Organisasjonen har lang erfaring med poengmodeller og kort tid til omstilling.
- Anskaffelsen er av lavere verdi og enklere karakter.
Begge modeller er lovlige. KOFA har akseptert begge typer, og det er intet rettslig krav som tilsier at den ene er å foretrekke fremfor den andre. Det avgjørende er at modellen er egnet til å identifisere tilbudet med best forhold mellom pris og kvalitet, at den er kommunisert i konkurransegrunnlaget på en forutberegnelig måte, og at den gjennomføres konsistent.
Hybridmodellen
DFØs veileder nevner en mellomvariant – ofte kalt hybridmodellen – der pris evalueres i kroner og kvalitet evalueres med poeng, men der sammenstillingen skjer ved at poengene konverteres til en kroneverdi gjennom en forhåndsbestemt konverteringsfaktor. I KOFA sak 2016/179 ble bruk av hybridmodellen akseptert, men som DFØ bemerker, er det begrenset KOFA- eller rettspraksis rundt bruk av hybridmodellen. Modellen representerer et kompromiss som kan passe der oppdragsgiver ønsker fordelene ved monetær sammenstilling, men foretrekker å gjøre selve kvalitetsvurderingen i poengformat.
Konsekvensanalyse: Test modellen før publisering
Uansett om oppdragsgiver velger poengmodell eller monetær modell, er det avgjørende å teste hvordan modellen slår ut før konkurransegrunnlaget publiseres. For prissetting av kvalitet er dette ekstra viktig, fordi fratrekkenes kroneverdier direkte bestemmer utfallet.
Konsekvensanalysen bør omfatte minst tre scenarier:
- Jevnt marked (like priser, ulik kvalitet): Dersom tilbudsprisene ligger tett, bør kvalitetsforskjellene bli utslagsgivende. Test at fratrekkene er store nok til å differensiere mellom tilbudene.
- Spredd marked (ulike priser, lik kvalitet): Dersom kvaliteten er jevn, bør laveste pris vinne. Test at fratrekkene ikke er så store at et middels kvalitetstilbud med høy pris kan slå et svakt kvalitetstilbud med lav pris – med mindre det er intendert.
- Ekstremtilbud: Test hva som skjer dersom én leverandør tilbyr svært lav pris og svak kvalitet, eller svært høy pris og fremragende kvalitet. Er resultatet i tråd med oppdragsgivers faktiske betalingsvillighet?
DFØs veileder om evalueringsmetodikk anbefaler bruk av praktiske verktøy, herunder regneark med lineær interpolasjon, for å beregne nøyaktige fratrekk og kontrollere utfall.
Vanlige feil
- Fratrekkene settes vilkårlig. Oppdragsgiver bruker «runde tall» uten å ha vurdert den faktiske verdien av kvalitetsforskjellene. Resultatet er en modell som gir tilfeldig vekting.
- Summen av fratrekk er urealistisk høy eller lav. Dersom samlede maksimale fratrekk utgjør 70 prosent av estimert verdi, vil kvalitet dominere nesten uansett. Dersom de utgjør 5 prosent, er kvalitetskriteriene i praksis meningsløse.
- Kvalitetsevalueringen gjøres med kjennskap til priser. DFØs veileder anbefaler eksplisitt at kvalitetsevalueringen gjøres uten kjennskap til tilbudsprisene. Dersom evaluererne vet at leverandør A er dyrest, kan dette – bevisst eller ubevisst – påvirke kvalitetsvurderingen.
- Fratrekk gis binært (alt eller ingenting). Modellen er designet for nyansert vurdering. Dersom oppdragsgiver i praksis bare gir null eller fullt fratrekk, mister man fordelene med den gradvise skalaen.
- Manglende kommunikasjon av modellen. Modellen må beskrives tilstrekkelig i konkurransegrunnlaget. Leverandørene må vite hva de maksimale fratrekkene er, hvordan de er fordelt mellom kriterier, og hva som er beregningsgrunnlaget (estimert verdi, snittpris, fast beløp).
- Normalisering anvendes i kombinasjon med monetær modell. DFØ er eksplisitt på at normalisering ikke er aktuelt ved prissetting av kvalitet. Dersom noen i evalueringsteamet foreslår å normalisere fratrekkene i etterkant, er det et tegn på at modellen ikke er forstått.
Kontrollspørsmål før publisering
- Har vi fastsatt maksimalt fratrekk for hvert kvalitetskriterium, og er det kommunisert i konkurransegrunnlaget?
- Gjenspeiler fratrekkene vår reelle betalingsvillighet – kan vi forsvare hvert beløp overfor en kontrollinstans?
- Er beregningsgrunnlaget for fratrekkene klart (estimert verdi, fast beløp, andel av snittpris)?
- Har vi testet modellen med minst tre realistiske tilbudsscenarier?
- Har vi planlagt at kvalitetsevalueringen gjøres uten kjennskap til tilbudsprisene?
- Er det tydelig at den evaluerte prisen kun brukes til sammenligning, og at faktisk tilbudspris gjelder ved kontraktsinngåelse?
- Dersom vi har flere underkriterier: er fordelingen av fratrekk mellom dem gjennomtenkt og konsistent med den overordnede prioriteringen?
- Har vi vurdert om anskaffelsens karakter tilsier at en poengmodell likevel er mer hensiktsmessig?
Kontrollspørsmål før evaluering
- Evaluerer vi kvalitet uten kjennskap til tilbudspriser?
- Bruker vi hele spennet av mulige fratrekk, eller gir vi i praksis bare «alt» eller «ingenting»?
- Er fratrekkene vi gir konsistent begrunnet – kan vi forklare hvorfor leverandør A får 800 000 og leverandør B får 600 000 i fratrekk på samme kriterium?
- Har vi kontrollert at summen av evaluert pris for hvert tilbud er korrekt beregnet?
- Gir den endelige rangeringen mening sett fra oppdragsgiverens faktiske behov – eller avdekker den at fratrekkene var feilkalibrert?
3.8 Robusthet, taktisk prising og kontroll før publisering
Den viktigste kvalitetssikringen av en evalueringsmodell skjer før konkurransegrunnlaget publiseres. Etter tilbudsfristens utløp er handlingsrommet smalt: oppdragsgiver kan ikke endre evalueringsmetoden, kan ikke justere vekting, og kan ikke innføre nye beregningsforutsetninger uten å bryte forutberegnelighetskravet. KOFA har i en rekke saker vist at det som fremstår som en evalueringsfeil, i virkeligheten er en designfeil som ble bakt inn i modellen lenge før tilbudene ble åpnet. Saken om Fylkesmannen i Rogaland (KOFA 2003/128) er et tidlig eksempel: et prisintervall som ikke var kommunisert i konkurransedokumentene medførte at en prisforskjell på rundt 30 prosent mellom tilbudene ble utjevnet i poengsettingen. Feilen oppsto i designfasen, men konsekvensen rammet i evalueringsfasen – da det var for sent å reparere.
Denne seksjonen handler om tre ting: hvordan oppdragsgiver tester modellen med realistiske tilbud før publisering, hvordan taktisk prising oppstår og kan motvirkes gjennom modelldesign, og hvilke kontrollpunkter som bør gjennomgås før kunngjøring og før endelig evaluering.
Problemet i praksis
De fleste oppdragsgivere bruker mye tid på å formulere tildelingskriterier og relativt lite tid på å teste hvordan kriteriene faktisk vil fungere når tilbud kommer inn. Resultatet er at modellens svakheter først oppdages når det er for sent å gjøre noe med dem. Typiske situasjoner er:
- Formell vekting avviker fra reell vekting. Oppdragsgiver annonserer 40 prosent pris og 60 prosent kvalitet, men valget av prisformel og kvalitetsskala gjør at pris i praksis avgjør nesten alene – eller omvendt.
- Utliggere forstyrrer rangeringen. Én leverandør med svært lav pris eller svært høy kvalitet endrer poengfordelingen mellom alle øvrige leverandører, særlig i relative modeller.
- Taktisk prising belønnes. Prismatrisen har poster med ulik vekting, og en leverandør som kjenner forbruksmønsteret kan prise taktisk lavt på tungt vektede poster og hente inn margin på lette poster.
- Kvalitetspoengene differensierer ikke. Mange underkriterier med liten spennvidde gir alle tilbydere nesten lik score, slik at kvalitetskriteriet i praksis blir irrelevant – utvanningseffekten.
Alle disse problemene kan avdekkes med en enkel test før publisering. At oppdragsgiver ikke gjennomfører en slik test, er ikke et regelverksbrudd i seg selv, men det øker risikoen for at modellen viser seg å være i strid med kravet i FOA § 18-1 om å identifisere det økonomisk mest fordelaktige tilbudet, eller at modellen krenker forutberegnelighets- og likebehandlingskravene i LOA § 4.
Den rettslige rammen for modelltesting
Det finnes ingen eksplisitt bestemmelse i forskrift om offentlige anskaffelser som pålegger oppdragsgiver å teste evalueringsmodellen før publisering. Plikten utledes indirekte fra de grunnleggende prinsippene:
Forutberegnelighet (LOA § 4). Leverandørene skal kunne forutse hvordan tilbudene vil bli evaluert. Dersom modellen gir utslag som avviker vesentlig fra det en rimelig oppmerksom tilbyder ville forventet, foreligger et forutberegnelighetsbrudd. Testen er om en «rimelig opplyst og normalt påpasselig tilbyder» hadde grunn til å forvente det resultatet modellen gir (formulering brukt blant annet i KOFA 2022/167 med videre henvisning til KOFA 2018/232 avsnitt 26).
Egnethetskravet (FOA § 18-1). Evalueringsmodellen skal være egnet til å identifisere det økonomisk mest fordelaktige tilbudet. KOFA 2025/1780 (Balsfjord) og KOFA-saken om Statens vegvesens rammeavtale for landmåling (der Terratec priset timepriser til mellom null og ni kroner og kompenserte med oppmøtepriser opp til 99 999 kroner per dag) viser at en modell som lar taktisk prising overtrumfe reelle prisforskjeller, ikke er egnet til å identifisere det beste tilbudet.
Etterprøvbarhet (LOA § 4). Oppdragsgivers valg skal kunne etterprøves. Dersom modellen produserer resultater som ikke kan forklares rasjonelt, svikter også etterprøvbarheten. En forhåndstest gir dokumentasjon for at oppdragsgiver bevisst har vurdert og akseptert modellens virkemåte.
Vektingskravet. Oppgitt vekting må respekteres – ikke bare formelt, men reelt. KOFA 2011/201 er den sentrale avgjørelsen: nemnda kontrollerte matematisk at metodekombinasjonen ikke forskjøv vektforholdet. Dersom klager kan dokumentere at forskyvning har skjedd, er bruddet konstatert. Oppdragsgiver som tester modellen på forhånd, kan avdekke slik forskyvning før den materialiserer seg.
EU-kommisjonens veileder om offentlige anskaffelser inkluderer uttrykkelig at oppdragsgiver bør gjennomføre «provomgångar för att testa urvals- och tilldelningskriterierna» som del av forberedelsene. Den danske Konkurrence- og Forbrugerstyrelsen anbefaler tilsvarende i sin praktiske veiledning om evalueringsmodeller at ordregiver tester modellen med fiktive eksempler for å sikre at modellen i praksis imøtekommer den valgte vektningen. DFØs veileder om evaluering av tilbud formulerer det som en designanbefaling: «Test modellen med realistiske verdier FØR publisering. Stemmer reell vekting med formell? Hvis ikke: endre.»
Samlet gir dette et bilde der testing ikke er et formelt lovkrav med egen bestemmelse, men der manglende testing øker risikoen for brudd på krav som er formelle – og der testing aktivt anbefales av alle nordiske fagmyndigheter.
Hvordan teste modellen med realistiske tilbud
Grunnideen
Testen er enkel i prinsippet: konstruer tre til fem realistiske tilbudsscenarier, legg dem inn i evalueringsmodellen, og kontroller at resultatet gir mening. «Gir mening» betyr konkret tre ting:
- Rangeringen gjenspeiler de forskjellene oppdragsgiver faktisk ønsker å premiere.
- Den reelle vektingen (målt i faktisk poengutslag) samsvarer med den formelle (oppgitte) vektingen.
- Modellen er robust mot ekstremverdier og taktisk tilpasning.
Steg for steg
Steg 1: Definer realistiske tilbudsscenarier. Bruk erfaringsdata fra tidligere anskaffelser, markedsundersøkelser eller innspill fra fagpersoner. Lag minst tre scenarier:
- Scenario A: Et typisk «midt på treet»-tilbud med gjennomsnittlig pris og gjennomsnittlig kvalitet.
- Scenario B: Et lavpristilbud med akseptabel, men ikke fremragende kvalitet.
- Scenario C: Et høykvalitetstilbud med høyere pris.
- Scenario D (valgfritt): En utligger – enten svært lav pris eller svært høy kvalitet, for å teste modellens robusthet.
- Scenario E (valgfritt): Et taktisk tilpasset tilbud, der leverandøren bevisst utnytter en identifisert ubalanse i prismatrisen.
Steg 2: Beregn poeng for hvert scenario. Legg scenariene inn i regnearket med den valgte prisformelen og kvalitetsskalaen. Beregn totalpoeng med oppgitt vekting.
Steg 3: Kontroller reell vekting. Sammenlign poengspredningen på priskriteriet med poengspredningen på kvalitetskriteriet. Hvis oppgitt vekting er 40/60 (pris/kvalitet), bør kvalitetsforskjeller ha 1,5 ganger så stor innvirkning på totalresultatet som tilsvarende prisforskjeller. En enkel test er å simulere hva som skjer dersom ett tilbud forbedrer seg ett poeng på kvalitet sammenlignet med ett poeng på pris: gir dette tilsvarende utslag justert for vekt? Dersom ikke, er den reelle vektingen forskjøvet.
Steg 4: Test med ekstremverdier. Legg inn en utligger – for eksempel en leverandør som tilbyr pris til halvparten av de andre, eller en leverandør som scorer maksimalt på kvalitet men har svært høy pris. Kontroller:
- Endrer utliggeren rangeringen mellom de øvrige tilbyderne? I relative modeller (lineær, forholdsmessig) vil svaret ofte være ja, fordi alle priser måles relativt til laveste pris.
- Får utliggeren en uforholdsmessig fordel eller ulempe? I den lineære modellen kan en utligger med lav pris gi alle andre negativ score på pris.
- Ville resultatet bestå en fornuftighetskontroll dersom noen utenfra så på det?
Steg 5: Kontroller taktisk sårbarhet. Gå gjennom prismatrisen og identifiser poster der leverandøren kan sette lav pris uten reell kostnad (fordi volumet er lite) men med stor poengeffekt (fordi vektingen er høy). Konstruer et tilbud som utnytter denne ubalansen, og kontroller om det vinner konkurransen til tross for å være dyrere totalt sett.
Steg 6: Dokumenter testen. Lagre regnearket med scenariene, beregningene og konklusjonene. Dersom testen avdekker svakheter, dokumenter hvilke justeringer som gjøres. Dette gir sporbarhet og beskytter oppdragsgiver dersom modellvalget senere utfordres.
Praktisk eksempel
Oppdragsgiver planlegger en anskaffelse med to tildelingskriterier: pris (40 prosent) og kvalitet (60 prosent). Pris evalueres med lineær modell (beste pris = 10 poeng, øvrige trekkes proporsjonalt). Kvalitet evalueres skjønnsmessig på skala 1–10.
Scenario uten test: Oppdragsgiver publiserer og mottar fire tilbud:
| Tilbyder | Pris (kr) | Prispoeng | Kvalitetspoeng | Vektet total |
|---|---|---|---|---|
| A | 1 000 000 | 10,0 | 7 | 8,2 |
| B | 1 100 000 | 9,0 | 8 | 8,4 |
| C | 1 200 000 | 8,0 | 9 | 8,6 |
| D | 500 000 | 10,0 | 5 | 7,0 |
Her fungerer modellen tilsynelatende. Men hva skjer dersom vi endrer tilbyder D's pris til 500 000? Med lineær modell blir prispoengene:
| Tilbyder | Pris (kr) | Prispoeng (lineær) | Kvalitetspoeng | Vektet total |
|---|---|---|---|---|
| A | 1 000 000 | 0,0 | 7 | 4,2 |
| B | 1 100 000 | -2,0 | 8 | 4,0 |
| C | 1 200 000 | -4,0 | 9 | 3,8 |
| D | 500 000 | 10,0 | 5 | 7,0 |
Nå vinner D med lav kvalitet og lav pris, og rangeringen mellom A, B og C er invertert sammenlignet med scenariet uten D. Utliggeren har ikke bare vunnet selv – den har endret rekkefølgen mellom de andre. Det er dette som kalles IIA-problemet (Independence of Irrelevant Alternatives): tilbud som ikke vinner, påvirker hvem av de andre som vinner. Konkurrensverkets uppdragsforskning 2009:12 av Anders Lunander viser at alle relative modeller er sårbare for dette problemet. DFØs veileder om evaluering av tilbud beskriver det samme: «Et tilbud som har lavest pris, men likevel ikke når opp i konkurransen grunnet dårlig nivå på de kvalitative kriteriene, kan likevel få helt avgjørende betydning for rangeringen av de øvrige tilbudene.»
Løsning: Oppdragsgiver som oppdager denne sårbarheten i forhåndstesten, kan vurdere å bytte til en absolutt modell (prissetting av kvalitet) der poengene omgjøres til kronebeløp, eller hybridmodellen som Oslo kommune utviklet, som gir en lineær kurve opp til et knekkpunkt og deretter forholdsmessig – og som DFØ beskriver i sin veileder som et alternativ der det forventes store prisforskjeller. KOFA aksepterte bruk av hybridmodellen i sak 2016/179.
Følsomhet for utliggere, små prisforskjeller og store kvalitetssprang
Utliggere i prismodellen
Utliggere – tilbud som avviker markant fra de øvrige – er et gjennomgående problem i relative modeller. Problemet er todelt:
For det første kan utliggere komprimere poengskalaen for de øvrige tilbudene. I den forholdsmessige modellen (poeng = 10 × laveste pris / tilbudets pris) vil en utligger med svært lav pris gi de øvrige tilbudene nesten like score, fordi forskjellen mellom dem blir ubetydelig i forhold til avstanden ned til utliggeren. DFØs utkast til veileder fra 2021 beskriver dette: «Metoden fører vidare til større poengutslag i intervallet nært opp til den lågaste prisen, og små poengutslag ved høgare tilbodsprisar.»
For det andre kan utliggere i den lineære modellen gi negativ score. Dersom forskjellen mellom laveste og høyeste pris er mer enn 100 prosent, vil den dyreste leverandøren få minus. KOFA 2015/60 slo fast at negativ score på priskriteriet ikke er ulovlig i seg selv – det avgjørende er om modellen er egnet til å premiere relevante forskjeller mellom tilbudene. Men negativ score kan gi utslag som er vanskelige å forklare for leverandørene, og det kan i praksis gi pris en langt høyere reell vekt enn oppgitt.
Praktisk test: Legg inn en utligger som er 50 prosent billigere enn nest billigste. Beregn poeng for alle tilbud. Kontroller om rangeringen mellom de øvrige tilbudene er rimelig.
Små prisforskjeller
I anskaffelser der prisene ligger tett – for eksempel innenfor 5–10 prosent av hverandre – kan prispoengene gi svært liten spredning. Dersom kvalitetsevalueringen har større spredning, vil kvalitet dominere selv om pris formelt har høyere vekting. Det er ikke nødvendigvis feil – det kan reflektere at markedet er modent og priskonkurransen reell – men oppdragsgiver bør være bevisst det. Et konkret kontrolltall: beregn poengspredningen (høyeste minus laveste prispoeng) og sammenlign med poengspredningen på kvalitet. Dersom kvalitetsspredningen er for eksempel tre ganger så stor som prisspredningen, men pris har dobbel vekting av kvalitet, er det et signal om at den reelle vektingen avviker fra den formelle.
Store kvalitetssprang
Tilsvarende problem oppstår i kvalitetsevalueringen dersom ett tilbud har markant høyere kvalitet enn de øvrige. I en modell med normalisering (der beste tilbud settes til 10 og øvrige justeres proporsjonalt) vil dette kvalitetsspranget blåses opp. KOFA behandlet normalisering i stornemndavgjørelsen i sak 2021/1000 og advarte mot nettopp dette:
> «I flere tilfeller vil en slik normalisering tvert imot kunne gi uønskede og uriktige utslag, særlig i tilfeller hvor det kvalitativt beste tilbudet har relativt lav kvalitet. Da kan det bli mange kvalitetspoeng å fordele på et lite kvalitetsintervall. Det kan føre til at poengdifferansene blir for store, noe som igjen kan medføre at små kvalitetsforskjeller får uforholdsmessig stor betydning i den samlede bedømmelsen av tildelingskriteriene.»
DFØ anbefaler nå primært evalueringsmodellen prissetting av kvalitet, der normalisering uansett ikke er aktuelt. Dersom oppdragsgiver likevel bruker en poengmodell, anbefaler DFØ å la være å normalisere, fordi normalisering vil gi et feilaktig bilde av oppdragsgivers betalingsvillighet.
Kontrollspørsmål for følsomhet: Før publisering bør oppdragsgiver kunne svare ja på følgende:
- Har jeg testet modellen med en prisutligger (50 prosent lavere enn forventet)?
- Har jeg testet modellen med tilbud som ligger svært tett i pris?
- Har jeg kontrollert at poengspredningen på pris og kvalitet gir den reelle vektingen jeg ønsker?
- Har jeg vurdert om normalisering er nødvendig – og om den i så fall kan gi uønskede utslag?
Taktisk prising: problemet og oppdragsgivers verktøykasse
Hva er taktisk prising?
Taktisk prising innebærer at leverandøren optimerer sine priser mot evalueringsmodellen snarere enn mot de reelle kostnadene. En leverandør som setter lav pris på poster med høy evalueringsvekt og høy pris på poster med lav evalueringsvekt, kan vinne konkurransen selv om den totale prisen er høyere enn konkurrentenes. Taktisk prising er lovlig. Rt. 2003 s. 1531 (Veidekke) slo tidlig fast at leverandører har rett til å innrette sine tilbud etter konkurransegrunnlaget. KOFA 2025/1780 (Balsfjord) bekreftet det samme. Problemet er aldri leverandøren – det er alltid modellen. Oppdragsgiver som inviterer til taktisk prising gjennom modelldesignet, kan ikke straffe leverandøren for å ta imot invitasjonen.
Typiske ubalanser som inviterer til taktisk prising
Prismatriseubalanser. Evalueringen vekter enkeltposter annerledes enn det reelle forbruket tilsier. Eksempel: Statens vegvesen hadde en rammeavtale for landmåling der timepris var vektet 55 prosent og oppmøtepris bare 15 prosent. Terratec priset timepriser til mellom null og ni kroner og kompenserte med oppmøtepriser på mellom 10 000 og 99 999 kroner. Resultatet var at Terratec fikk 10 av 10 på timepris, mens alle fem øvrige tilbydere fikk null. Vegvesenets egne priseksempler – basert på realistiske oppdrag – bekreftet at Terratec sannsynligvis ikke var den billigste i virkeligheten. KOFA fant at modellen ikke var egnet til å identifisere det beste tilbudet – brudd på FOA § 18-1.
Nullprising. Leverandøren setter pris til null kroner på enkeltposter. Upphandlingsmyndigheten i Sverige har drøftet dette og peker på at det er svårt for opphandlande myndigheter å motvirke nullpriser gjennom å angi en lägsta tillåten miniminivå, fordi leverandører har rett til konkurrensfrihet og dermed rätten att konkurrera med pris. DFØs verktøykasse anbefaler at nullprising bare bør medføre avvisning dersom det foreligger fare for gjennomføring av kontrakten – et krav om «reelle priser» er for tvetydig til å håndheves effektivt.
Ubalanse mellom evaluert og ikke-evaluert. Poster som ikke inngår i evalueringen, men som likevel er del av kontraktsprisen, gir leverandøren mulighet til å hente inn margin på poster der evalueringen ikke ser. Tilsvarende: opsjoner som evalueres til 100 prosent av sin verdi inviterer til nullprising av opsjonen, fordi leverandøren vet at opsjonen kanskje ikke utløses.
Frontloading. Leverandøren legger høye kostnader tidlig i kontrakten og lave kostnader sent. Dersom evalueringen ikke neddiskonterer til nåverdi, vil dette ikke fanges opp.
Kantsortiment. I rammeavtaler med bredt sortiment kan leverandøren prise de mest etterspurte varene lavt og kantsortimentet høyt. Dersom evalueringen bare måler et utvalg av priser, faller kantsortimentet utenfor.
Forsvarsstrategier
DFØ og kursmaterialet for FOA Pro presenterer en samlet verktøykasse. De viktigste tiltakene, sortert etter type ubalanse:
| Ubalanse | Forsvarstiltak |
|---|---|
| Prismatriseubalanser | Handlekurver med vekting basert på reelt forbruk |
| Nullprising | Avvisning bare ved fare for gjennomføring |
| Evaluert vs. ikke-evaluert | Evaluer alt med økonomisk betydning, med riktig vekt |
| Kantsortiment | Bind kantsortiment til påslag på direkte priser, med kontroll |
| Frontloading | Neddiskontering til nåverdi, opplyst i konkurransegrunnlaget |
| Opsjonsubalanser | Sannsynlighetsvektet opsjonsverdi i evalueringen |
Den svenske Upphandlingsmyndigheten anbefaler som alternativ tilnærming å dele opp kontrakten i delkontrakt slik at incitamentet til å kryss-subsidiere mellom prisposter reduseres. Ulempen er at samordningsfordeler kan gå tapt.
Partnersamverkan (det svenske samarbeidet for kollektivtrafikkopphandling) anbefaler at evalueringsmodellen – uansett modellvalg – testes gjennom ulike simuleringer før kunngjøring, nettopp for å motvirke osund strategisk prissetting.
En overordnet regel: Sett deg i leverandørens stol. Dersom du finner en ubalanse som kan utnyttes – fiks den før du publiserer. Leverandøren vil finne den uansett.
Stikkprøvekontroll som virkemiddel
KOFA 2008/191 aksepterte at oppdragsgiver aktivt designet evalueringsmodellen for å motvirke taktisk prising gjennom stikkprøvekontroll av priser. Forutsetningen var at utvalget var representativt og at leverandørene var informert om at slik kontroll kunne skje. Stikkprøvekontroll er særlig relevant i rammeavtaler med store sortimenter der det ikke er praktisk mulig å evaluere alle priser: oppdragsgiver opplyser i konkurransegrunnlaget at et representativt utvalg produkter vil bli evaluert, uten å spesifisere hvilke. Dermed kan leverandøren ikke prise akkurat de evaluerte produktene taktisk lavt og resten høyt.
Siste modelltest før evalueringen låses
Når tilbudene er lest, bør oppdragsgiver kontrollere at den modellen som ble fastsatt på forhånd faktisk er brukt slik den var ment. Dette er ikke et eget tema om begrunnelse eller innsyn. Det er en teknisk og faglig kvalitetssikring av evalueringsmodellen.
Kontrollen bør være kort og konkret:
- Er samme formel, skala og normaliseringsregel brukt for alle tilbud?
- Er faktiske tall i tilbudene lest riktig: datoer, volum, leveringsfrister, utslippstall, timepriser og påslag?
- Stemmer mellomregninger og totalpoeng med modellen?
- Gir rangeringen samme type utslag som forhåndstesten viste, eller avdekker tilbudene en modellsvakhet?
- Er tegn på taktisk prising håndtert gjennom modellen som var opplyst, og ikke gjennom etterfølgende improvisasjon?
KOFA 2017/81 viser den viktigste grensen: oppdragsgiver kan organisere evalueringsarbeidet etter tilbudsåpning, men kan ikke fastsette selve bedømmelsesmetoden etter at tilbudene er kjent. KOFA 2023/999 illustrerer at samme skala må brukes konsistent. KOFA 2024/366 minner om at feil i konkrete, kontrollerbare fakta kan være en evalueringsfeil. Poenget er dermed enkelt: kontroller beregningen og metodebruken, men ikke endre spillereglene.
Konsekvensanalyse: samme data, ulike metoder, ulike vinnere
Et særlig effektivt kontrolltiltak er å gjennomføre en konsekvensanalyse, der samme sett av tilbudsdata kjøres gjennom ulike evalueringsmodeller for å se om rangeringen endrer seg. Poenget er ikke å velge den modellen som gir «riktig» vinner – det finnes ingen objektiv fasit, som DFØ påpeker i sin veileder om evalueringsmetodikk: «Ideelt sett skulle det fantes et vektet poengtall som var 'korrekt' for det enkelte tilbudet i enhver anskaffelse. Det finnes dessverre ikke en slik fasit, fordi evalueringen er en konkret vurdering, hvor målet er å måle pris- og kvalitetsforskjeller opp mot hverandre.» Poenget er å forstå hvor sensitiv rangeringen er for metodevalg, og å ta et informert valg basert på den forståelsen.
Praktisk gjennomføring: Lag et regneark med de realistiske scenariene fra forhåndstesten. Beregn totalpoeng med minst to eller tre ulike metoder:
- Lineær prismodell + skjønnsmessig kvalitetspoeng (poengmodell)
- Forholdsmessig prismodell + skjønnsmessig kvalitetspoeng (poengmodell)
- Prissetting av kvalitet (absolutt verdsetting i kroner)
Sammenlign rangeringene. Dersom rangeringen er stabil uavhengig av metode, er modellen robust – det spiller liten rolle hvilken metode som velges. Dersom rangeringen endrer seg, er det et signal om at metodevalget har reell betydning, og oppdragsgiver bør velge metoden som best gjenspeiler de forskjellene som faktisk er viktige.
DFØ har laget et verktøy i Excel for å beregne konsekvensene av ulike prismodeller (lineær, forholdsmessig, hybridmodell) med reelle pristilbud. Konkurrence- og Forbrugerstyrelsen i Danmark har tilsvarende utviklet en «Modeltester» tilgjengelig på kfst.dk/udbud, som lar ordregiver teste poengmodeller mot de fastsatte vektprosentene.
Vanlige feil
Feil 1: Ingen forhåndstest. Den hyppigste feilen er rett og slett at det ikke gjøres noen test. Oppdragsgiver designer modellen i ord, men aldri i tall. Resultatet er at modellens matematiske egenskaper – forholdet mellom prisspredning og kvalitetsspredning, følsomheten for utliggere, ubalansen mellom evaluerte og ikke-evaluerte poster – aldri avdekkes. En time med regneark kan spare en KOFA-klage og avlysning.
Feil 2: Test med urealistiske tilbud. Å teste med tilbud der alle har nøyaktig lik pris eller nøyaktig lik kvalitet avdekker ikke de problemene som oppstår i virkeligheten. Testscenarioene må gjenspeile den variasjonen man faktisk forventer i markedet.
Feil 3: Formell vekting forveksles med reell vekting. Oppdragsgiver konstaterer at modellen har 40/60 vekting og slår seg til ro med det, uten å kontrollere at poengspredningen faktisk reflekterer denne vektingen. Formell vekting er en illusjon dersom den ikke understøttes av reell poengdifferensiering.
Feil 4: Underkriteriene utvanner differensieringen. Syv eller flere underkriterier med lik vekting betyr at hvert enkelt underkriterium knapt differensierer. En forskjell på ett poeng på ett av syv underkriterier med 60 prosent vekting gir bare 0,86 prosentpoeng i totalresultatet (1 × 1/7 × 0,6 / 10). Utvanningseffekten er en av de mest undervurderte designfeilene.
Feil 5: Taktisk sårbarhet ignoreres. Oppdragsgiver identifiserer ikke at prismatrisen har poster med ulik vekting-til-volum-ratio, og oppdager først etter tilbudsåpning at én leverandør har utnyttet ubalansen. Da er det for sent.
Feil 6: Evalueringsmetoden fastsettes etter tilbudsåpning. KOFA 2017/81 viser at dette er et alvorlig brudd som typisk utløser avlysningsplikt. Dersom oppdragsgiver under forhåndstesten ikke har bestemt seg for metode, men ønsker å se tilbudene først, må i det minste den valgte modellen ikke publiseres i kunngjøringen. DFØ nevner at verktøyet for relative poengmodeller «kan brukes (…) som en del av evalueringen av innleverte tilbud hvor man ikke har valgt hvilken poengmodell som skal brukes. Dette forutsetter at informasjon om evalueringsmetodikk/modell ikke er publisert i kunngjøringen.» Men i praksis er dette risikabelt: dersom leverandørene ikke vet hvordan prisen evalueres, svekkes forutberegneligheten.
Feil 7: Evaluering av kvalitet uten kontraktsforpliktelse. Et kvalitetskriterium som evalueres uten at det som loves i tilbudet også kontraktsfestes, er «tomme poeng». Fosen-Linjen-saken er den overordnede referansen for at kriterier uten etterprøvbarhet i kontraktsperioden er problematiske. Partnersamverkan poengterer det samme: «Genom att tydligt knyta ihop utlovade åtaganden (…) med kontraktsvillkor och uppföljning säkras också att utlovade åtaganden faktiskt upprätthålls.»
Sjekkliste før kunngjøring
Denne sjekklisten bør gjennomgås av den som eier evalueringsmodellen – enten det er innkjøper, prosjektleder eller innkjøpsrådgiver – før konkurransegrunnlaget sendes til publisering. Alle spørsmål bør besvares med ja:
- Er arkitekturen gjennomtenkt? Færre, tyngre kriterier er bedre enn mange lette. Har hvert kriterium reell evne til å differensiere mellom tilbudene?
- Passer metodene til kriteriene? Er evalueringsmetoden for hvert kriterium egnet til å fange opp de forskjellene som faktisk betyr noe? Er metoden testet med ekstremverdier?
- Stemmer reell vekting med formell vekting? Er modellen testet med realistiske tilbud, og gir poengspredningen faktisk den vektingen som er oppgitt? Hvis ikke: er modellen justert?
- Er prismodellen eksplisitt? Kan leverandøren beregne sin prispoeng dersom den kjenner alle tilbudspriser? Er formelen beskrevet i konkurransegrunnlaget?
- Er normaliseringsmetoden beskrevet? Dersom normalisering skal brukes: er metoden og begrunnelsen opplyst på forhånd? (KOFA 2024/1458 aksepterte at normaliseringsmetoden var opplyst; KOFA 2023/999 underkjente normalisering som ble innført i etterkant.)
- Er tildelingsmodellen valgt bevisst? Er det tatt et aktivt valg mellom poengmodell og prissetting av kvalitet (prisfradrag/prispåslag)? Er begrunnelsen for valget dokumentert?
- Er ubalanser for taktisk prising fjernet? Er prismatrisen gjennomgått for poster der evaluert vekt avviker fra reell økonomisk betydning? Er opsjoner sannsynlighetsvektet? Er kantsortiment bundet til direkte priser?
- Er dokumentasjonskravene knyttet til evalueringsmodellen? Vet leverandøren hva som må dokumenteres for hvert kriterium, og er det som premieres knyttet til en kontraktsforpliktelse?
- Passerer forutberegnelighetstesten? Kan en rimelig oppmerksom tilbyder forstå hva som evalueres, hvordan det evalueres, og hva som skal til for å score høyt?
- Følges regelverket? Er FOA § 18-1 (tildelingskriterier med tilknytning til leveransen), LOA § 4 (likebehandling, forutberegnelighet, etterprøvbarhet) og kravet om vekting oppfylt?
Oppsummering
Tre prinsipper bærer hele denne seksjonen:
Test modellen. En time med regneark kan spare en KOFA-klage og avlysning. Lag tre til fem realistiske tilbudsscenarier, beregn poeng, kontroller reell vekting, test med utliggere, og identifiser taktisk sårbarhet. Dokumenter testen.
Designet styrer atferden. Taktisk prising er alltid lovlig. Inviterer du til det gjennom en ubalansert prismatrise, kan du ikke straffe leverandøren. Fjern invitasjonen. Evaluer alt med økonomisk betydning, vekt etter reelt forbruk, og bind tilbudet til kontraktsforpliktelser.
Formell vekting er en illusjon. Den reelle vektingen styres av poengspredning og metodevalg. Oppdragsgiver som annonserer 40/60 men bruker en prismodell som gir ti ganger større spredning enn kvalitetsmodellen, har i virkeligheten 90/10. Test med tall, ikke bare med ord.