Statistikk

Tall kan temmes! SSB derimot…

Er glasset halvfullt eller halvtomt? Én ting er hva tallene faktisk sier, noe annet kan være hva fortolkerne vektlegger. Men i dagens utgave av SSBs eget magasin, Samfunnsspeilet, presenteres vi for to interessante artikler: Den ene forteller om fenomenet tall som kan skjule sannheten og den andre beviser fenomenet.

Rita Karlsen, HRS

I dag kunne jeg virkelig kose meg med siste utgave av Samfunnsspeilet, særlig på grunn av den interessante og morsomme artikkelen Tall kan temmes! Når tallene har noe å skjule av Jan Erik Kristiansen. Men smilet stivnet da jeg begynte på neste artikkel: ”Halvparten av kvinnene er i jobb” av Kristian Rose Tronstad.

Vi har flere ganger rapportert om innvandrerkvinner og jobb ut fra SSBs tall, og i den siste statistikken lot jeg meg opprøre over hvor mange hentebruder som ikke er i arbeid. Det opprører ikke SSB. Man kan nesten si tvert om: Det er til tider fascinerende hvordan SSB klarer å produsere ”egnede” statistiske analyser. Helt tilsynelatende. Jeg har endog stilt spørsmål ved om SSB bedriver uetisk forskning, uten at jeg tror noen medier griper fatt i det. For om tallene kan skjule sannheten, så krever de sin tålmodige sjel for å avdekke det – og den sjela tror jeg ikke vi finner i hektiske medieredaksjoner.

Desto morsommere er at en slik ”avsløring” kommer fra SSB selv, noe som er udelt positivt. Men jeg registrerer også at artikkelforfatteren (klokelig?) holder seg unna innvandrings- og integreringsstatistikk. Jan Erik Kristiansen illustrerer fenomenet med at tall kan skjule sannheten ved å ta for seg ulike temaer, slik som drikkevaner, kinobesøk, kjønnsfordeling blant studenter, fullføringsgrad i videregående opplæring og likelønn. Han skriver:

Tallene lyver ikke, men de kan av og til skjule sannheten. Ikke sjelden finner vi bare små eller ingen endringer eller forskjeller når vi studerer utviklingen av et fenomen over tid eller sammenlikner ulike grupper. Men dette er ofte bare tilsynelatende. Om vi går «bak» totaltallene eller gjennomsnittet, finner vi ofte store endringer eller forskjeller. Helheten varierer mindre enn delene.

Da må jeg bare minne om SSBs Lars Østbys repeterende formaning: Tallene viser at integreringen går godt.

Kristiansens første eksempel er knyttet til drikkevaner. Tallene forteller at forbruket av alkoholfrie drikkevarer som melk, brus, mineralvann og juice, har vært nokså konstant siden 1958. Det økte noe i begynnelsen av perioden, men har siden sunket til nesten samme nivå. Men poenget er at under denne tilsynelatende stabiliteten skjuler det seg store endringer i våre drikkevaner. Vi lar oss ikke overraske: vi drikker betydelig mindre melk, helmelken er nesten forsvunnet fra frokostbordet og erstattet med juice, i tillegg til at vi drikker betydelig mer mineralvann og brus. ”Stabiliteten” har med andre ord forrykket seg.

Samme fenomen gjør seg gjeldende med kinobesøk. Fra starten på 1990-tallet og frem til i dag har antallet kinobesøk vært relativt stabilt. Hvem ville trodd det, når vi i samme periode har hatt en eksplosjonsartet utvikling hva gjelder ulike bokser som spyr ut filmer og spill? Men vi har likevel ”rett”: Kinobesøket er stabilt fordi hvem som går på kino har endret seg: Barn fortsetter som før, mens det er kommer flere eldre kinogjengere til. De mellom 16-24 år finner du knapt på kino.

Kristiansen forklarer det som følgende (mine uthevinger):

Vi kan altså si at det som framstår som en tilsynelatende stabil utvikling, viser ofte en annen tendens når vi tar med en tredje variabel, slik som kjønn, alder eller bosted.

Og omvendt: Forskjeller blir ofte borte eller endret når vi tar andre variabler med i analysen. Vi har tidligere sett hvordan summariske (enkle) rater kan være bedrageriske og skjule store forskjeller, for eksempel mellom land eller mellom menn og kvinner, på grunn av forskjeller i alderstrukturen. Her skal vi se på noen flere eksempler.

Tilsynelatende helt enkelt – og logisk. Vi tror derfor at vi raskt vil avsløre et slikt bedrag. Men så enkelt er det dessverre ikke.

Kristiansen griper fatt i ”Simpsons paradoks”. Berkeley universitet i California ble i 1973 beskyldt for å diskriminere kvinnelige søkere ved opptak (langt flere menn enn kvinner ble tatt opp som studenter). For enkelhets skyld antar Kristiansen at universitetet har 700 mannlige og 500 kvinnelige søkere. Det tilsier at 70 prosent mannlige søkere ble tatt opp, mot bare 56 prosent av kvinnene. For enkelhets skyld antar Kristiansen videre at universitet bare har to institutter: et sosiologisk og et juridisk. Kvinnene søker seg i større grad enn menn til det juridiske instituttet, som igjen har færre studieplasser og en lavere andel opptatte studenter. Når vi så beregner opptaket for menn og kvinner separat for de to studieretningene, finner vi at kvinner oftere enn menn blir opptatt ved begge instituttene. What?

Nå ble det ikke fullt så enkelt lenger, og langt mindre logisk. Dog skjønner vi fenomenet ved å tenke oss om to ganger – men vi, jeg, innrømmer at hadde tallene blitt fremsatt ferdig analysert, hadde jeg kjøpt begge ”forklaringene”. Kristiansen forklarer at overnevnte er et eksempel på et mer generelt fenomen, som innebærer at en sammenheng eller forskjell ofte forsvinner eller reverseres når flere grupper slås sammen (aggregeres). Eller motsatt: at en forskjell først kommer til syne når vi studerer ulike undergrupper.

Samme fenomen finner vi i statistikk over fullførte utdanninger i videregående opplæring og annen videregående utdanning. Det viser at for skoleåret 2008/09 var det en litt større andel menn enn kvinner som fullførte slik utdanning. Annen statistikk viser at kvinner har langt mindre frafall underveis i videregående opplæring enn menn, og vi vet også at kvinner gjennomgående får bedre karakterer. Uff da. Der var vi igjen; tall som tilsynelatende går den veien en måtte ønske. Hvordan henger så dette sammen?

Kristiansen forklarer: tallene omfatter to typer utdanning, videregående opplæring og fag- og svenneprøver. Beregner vi fullføringsandeler separat for disse to hovedtypene får vi følgende: I videregående opplæring er det klart flere kvinner som fullfører, mens det for fag- og svenneprøver ikke er noen forskjell. Bildet blir således det motsatte av førsteinntrykket; kvinner fullfører oftere enn menn.

Forklaringen på dette tilsynelatende paradokset ligger i to forhold: nemlig at fag- og svenneprøver som er dominert av menn, har en langt høyere fullføringsandel enn videregående opplæring som er dominert av kvinner. Samtidig er det langt flere elever som avslutter videregående opplæring, enn som tar fag- og svenneprøver. Totaltallene for menn og kvinner i tabellen ovenfor (se artikkelen, min anm.) kan betraktes som veide gjennomsnitt for de to typene utdanninger. For mennenes del veier da avlagte fag- og svenneprøver (med langt høyere fullføringsgrad) tyngst, mens det er omvendt for kvinnene. Langt de fleste kvinner tar videregående opplæring, og det er færre som fullfører.

Når vi på denne måten «kontrollerer for» eller tar hensyn til type utdanning, får vi altså et helt annet bilde av kjønnsforskjellene enn om vi bare ser på forskjellene mellom menn og kvinner totalt. Igjen et eksempel på at det å gå bak tallene kan være både nødvendig og fruktbart.

Da må jeg bare igjen minne om SSBs Lars Østbys repeterende formaning: Tallene viser at integreringen går godt. Og legge til Kristiansens ord: å gå bak tallene kan være både nødvendig og fruktbart.

Deretter tar Kristiansen for seg et annet fenomen – den om at ”alle er bedre enn gjennomsnittet”, og eksemplifiserer med vitsen (å, var det en vits?…) at alle menn tror at de er en bedre sjåfør enn gjennomsnittet. Hvilket selvsagt er en umulighet: Når noen er bedre enn gjennomsnittet, må også noen være dårligere. Men likevel; noen ganger kan det tilsynelatende virke som om alle kan være bedre enn gjennomsnittet. Her kommer eksemplet knyttet til spørsmålet om likelønn.

For å belyse dette beregner man gjerne kvinners månedslønn som en prosentandel av menns lønn. Om man regner om deltidsansattes lønn til det den ville vært hvis de arbeidet heltid (heltidsekvivalenter), så utgjør kvinners lønn i dag omtrent 85 prosent av menns lønn. 85 prosent er dermed på en måte et gjennomsnitt for alle kvinner (og menn) med ulik arbeidstid og i ulike næringer, yrker og stillinger (se figur 5).

Men om vi så ser på kvinners månedslønn som andel av menns for heltids- og deltidsansatte hver for seg, finner vi at både heltidsansatte og særlig deltidsansatte kommer bedre ut enn gjennomsnittet, idet deres lønn utgjør henholdsvis 87 og 98 prosent av heltids- og deltidsansatte menns lønn. Altså: Alle kvinner – både heltids- og deltidsansatte – kommer bedre ut enn gjennomsnittet! Hvordan er dette mulig?

Svaret er at prosenten for alle kvinner (85 prosent) ikke er et gjennomsnitt av prosenten for deltidsansatte og heltidsansatte, men et gjennomsnitt for alle ansatte. De to gruppene – heltidsansatte og deltidsansatte – har imidlertid svært ulik størrelse og sammensetning. Blant de heltidsansatte er flertallet menn, mens kvinner utgjør langt de fleste deltidsansatte. Siden deltidsansatte tjener mindre enn heltidsansatte, også når vi regner om til heltidsekvivalenter, vil deltidsansatte kvinners lønn veie mye tyngre enn deltidsansatte menns når vi beregner gjennomsnittet for alle.

Sagt på en annen måte: Når vi kontrollerer for (tar hensyn til) arbeidstid, blir noe av lønnsforskjellene borte.

Det er vel akkurat denne form for kontroller vi som oftest tror er uført av et profesjonelt statistikk- og anlayseproduserende byrå som SSB. For hvorfor produsere statistikker som kanskje skjuler mer av sannheten enn hva som kommer frem? Akkurat sistnevnte har jeg vel tidligere ”svart på”, men nå skulle jeg ønske at artikkelforfatteren kunne laget en egen artikkel bare om innvandrings- og integreringstall. Det hadde vært interessant – med Ceteris paribus i front:

Dette latinske uttrykket kan oversettes med «under ellers like forhold» og er på en måte uttrykk for statistikkens forsøk på å gjøre tallene så sammenliknbare som mulig, som når vi kontrollerer for alderstrukturen ved beregning av dødelighetsrater for menn og kvinner. På samme måte justerer vi for befolkningsstørrelse når vi sammenlikner biltettheten eller kriminaliteten over tid eller i to land.

Hvis vi igjen bruker lønnsforskjellene mellom kvinner og menn som eksempel, er kvinners månedslønn i gjennomsnitt om lag 85 prosent av menns. Som vi så ovenfor, ble forskjellene mindre når vi så på heltids- og deltidsansatte hver for seg (kontrollerer for arbeidstid).

På samme måte vil forskjellen bli mindre om vi tar hensyn til andre forhold, som utdanningslengde, at kvinner og menn er ansatt i ulike stillinger, yrker og bransjer/næringer og den ulike fordelingen på privat og offentlig sektor. Om vi tar hensyn til alle disse faktorene, vil sannsynligvis lønnsgapet reduseres noe.

I Sverige publiseres statistikk som viser kvinners månedslønn som prosent av menns når man standardiserer for alder, utdanning, arbeidstid, sektor og yrke, og prosentandelen øker da fra 84 til 92 (Statistiska centralbyrån: På tal om kvinnor och män 2008).

Det er noe med å gå bak tallene. Det hadde også vært utrolig kjekt om noen som virkelig er tallknusere hadde gjort det. For hva ville slike analyser gitt knyttet til for eksempel befolkningsfremskrivinger, ekteskapsstatistikk, overfallskriminalitet, trygdeforbruk, utdanningsstatistikk, arbeidstilknytning?

Med dette som bakteppet gir en av de andre artiklene i samme tidsskrift, Halvparten av kvinnene er i jobb, en ”annen mening”. Det er særlig aldersgruppen (15 – 74 år) som skurrer. Er dette en ”naturlig” aldersgruppe når vi vurderer aktivitet i arbeidslivet? Og deretter; hvor er kategorien referansepersonen er norskfødt med en norskfødt og en utenlandskfødt forelder? Som kjent er henteekteskap et velkjent fenomen blant noen innvandrergrupper, langt mer velkjent enn at to norskfødte med innvandrerforeldre gifter seg. Sistnevnte vil få barn som betegnes som såkalt tredjegenerasjon (og det er det få av), men hva med de forannevnte; er de 2 ½ – generasjon eller norske eller hva? Hvor er de i statistikken? Og har nå botid så stor betydning for ett og alt? Hvordan forklare at botid (som ikke er det samme som født og oppvokst her) ikke synes å være så utslagsgivende i ekteskapsstatistikken hva gjelder de aktuelle gruppene? Dessuten; hvordan kan vi i det hele tatt vurdere botid når vi ikke har rutiner for kontroll med hvor folk oppholder seg? Og ville det ikke være vel så ”naturlig” å vurdere sysselsetting opp mot trygder som opp mot botid? Sorry, SSB, ”som vanlig” henfalt jeg til ikke å stole helt på analysene…