Datadrevne Beslutninger: Den Digitale Transformation

af Per Holst - Senior Engineer
| Læsetid: minutter

Mange har en forhåbning og forventning om, at de beslutninger, der træffes, er baseret på fakta og giver de bedst mulige løsninger. Nogle gange er det ikke muligt at fremskaffe de data – enten i det hele taget eller indenfor en overskuelig fremtid. Dette gælder både i krig og fred og for såvel efterretningstjenester som forretningsfolk.

I den digitale verden har vi flere elementer, der kan drages til fordel i forbindelse med at få data til at danne grundlag for nogle beslutninger.

  1. Vi logger mange data i logfiler og databaser
  2. Vi kan ændre på vores applikationer til at logge nye data
  3. Vi kan ændre på vores applikationer, så anvendere af disse applikationer leverer data uden at vi skal generere spørgeskemaer. Dette anvendes til f.eks. A/B testing

Det betyder blot at det er nemmere at tilgå data for digitale løsninger. Man kan sagtens opsamle data for den virkelige verden og benytte samme tilgang til at træffe beslutninger.

Vi vil forsøge at gøre opmærksom på nogle af muligheder og udfordringer, der er ved at gå en data drevet vej. Tag os med på turen, vi stiller gerne spørgsmål som udfordrer konventioner og opfattelse.

Ingen data dreven tilgang uden data. Data kan trækkes fra databaser, logfiler, sagssystemer, operativsystemer, og flere andre steder.

Data og eksisterende kilder

Data kan undersøges i de eksisterende kilder, hvor de formentlig viser et ukendt billede for applikationsudviklere, men et kendt billede for brugere af systemerne.

Hver gang et system designes, så er der mindst to holdninger til, hvordan det skal anvendes. Det mest basale billede er: Hvilken vej skal en toiletrulle hænge?

Nogle gange observeres en fejlbrug, og man forsøger at udbedre det ved at skilte hvilket ikke altid går efter planen.

Men sådanne skilte kan tolkes på to måder, og man har ikke afhjulpet det egentlige problem, måske begrænset det. Har man ud af data forstået et nyt brugsbillede som kan optimeres? Bør man skifte retning, som f.eks. Instagram gjorde, da de opdagede at Burbn lå for tæt på Foursquare, men at slutbrugerne lagde vægt på billede deling. Instagram.

Nye datakilder

Savner man data for at kunne træffe en beslutning, så må man designe en løsning for dette og få det implementeret således at man kan få opsamlet de data på en anvendelig facon. Har man flere tredjepartskilder, der skal gøre dette, er det tvingende nødvendigt, at man er enige om standarden.

Skal data f.eks. angives med en nøgle (JSON og XML), eller er positionsbaseret tilstrækkeligt (CSV og fixed width). Det skal også indikeres, når data skifter format eller der er ændringer i dele af rapporteringen. På den måde har man et anker at særbehandle data med. Elementer af Teledatasagen skyldes, at der i nogle tilfælde blev vendt om på længde- og breddegrad. Teledatasagen side 40-42.

Det ufuldstændige billede

Uagtet hvor meget data, der er til rådighed, så er det et ufuldstændigt billede af verden og den kommende tid. Nogle gange er billedet ubevidst skævvredet, hvilket er væsentligt at holde for øje og kontrollere andre gange skal man kikke på negativet til billedet frem for selve billedet. Dette er berømmet i ”Survivorship bias”  hvor man i første omgang tager højde for, hvor flyene er blevet ramt, men ikke i det ufuldstændige billede, at flyene, der måles på, alle er kommet tilbage, og at den stokastiske model forventer at flyene er blevet ramt nogenlunde jævnt.

Opstiller man data på en anden form – f.eks. i tabel så får man ikke det samme billede, så ikke blot data men også visualiseringen af data er afgørende for at lave bedre data drevne beslutninger.

Desire paths/cow paths

Desire paths eller cow paths er de trampespor, som folk træder ved siden af den anlagte sti, fordi det er en kortere eller mere optimal rute for en del. På samme vis kan der være digitale desire paths – om end disse kan være sværere at opdage fordi IT-applikationer er konforme til deres egne standarder.

Selv om data kan fremstå som tydelige indikationer af, hvad folk gør så er det ikke sikkert, at man skal gøre den del nemmere. Man skal tænke på helheden, og hvis stien f.eks. er at videresende en opgave til en robot e-mail, så kunne man måske allerede tidligere opsnappe nogle kriterier og sende e-mailen uden menneskelig indblanding.

Er stien i stedet at gå frem og tilbage mellem sider, så kan det give mening at optimere dette flow ved f.eks. at tilføje en ”næste” knap eller tilføje informationerne fra den ene side som en del af den anden.

Synes man, at f.eks. 1-click ordering er smart, så skal man være opmærksom på evt. patenter. Amazons patent udløb 12. september 2017 – efter 20 år.

Hvorfor købes der aldrig fra enheder med en bestemt skærmopløsning?

Selvom en webshop kører fortrinligt, kan det betale sig at undersøge sine data for huller i implementationen, f.eks. om der også er køb fra tablets og mobiltelefoner. Jeg ved ikke, om det er fra en virkelig sag eller en anekdote, men historien forlyder, at nogen fik kigget på deres besøgende statistikker og fandt ud af, at de mistede nogle besøgende i den sidste del af købsfasen.

Efter at have omskrevet data til andele pr. skærmopløsning viste det sig, at ingen personer med enheder, der havde en bestemt skærmopløsning, afsluttede et køb. Efter nærmere undersøgelse viste det sig, at selve købsknappen ikke var synlig netop for den opløsning. Det kan betale sig jævnligt at vurdere sine løsninger baseret på den feedback, data kan give.

Forudindtaget - bias

Bevidst eller ubevidst kan enten vi eller vores data være forudindtaget, og med mængden af mulige bias, er det intet under, hvis vi er ubevidste om det.

Vi har allerede kort berørt survivorship bias, det kan også dreje sig om at det kun er folk der er tilhængere af chefens holdninger, der tilkendegiver dette, og man får derfor en slagside i sine resultater.

Sampling bias – hvor vi enten ikke har en tilfældig stikprøve eller stikprøven ikke gør det muligt at vælge et fuldt spektrum, e.g. ”Hvad synes du? Godt eller sublimt”. Det kan ligge i måden data bliver indsamlet. Hvis man f.eks. har en app til at registrere huller i vejene så er anvenderne personer med kørekort, bil, smartphone, og appen installeret. Dette er hyppigt unge personer fra rigere områder, som med deres data indrapportering kun afdækker deres nabolag og frekventerede ruter  – her vil en visualisering og undren over det ufuldstændige billede forhåbentlig vække skepsis.

Confirmation bias – hvor man kun ser de ting, der bekræfter ens synspunkt.

Selection bias – hvor målgruppen, der deltager, er skævvredet, det kan f.eks. være kun at spørge de personer, der er kommet igennem købsprocessen, om det var en god oplevelse. Dem, der stadig sidder fast i processen, kommer ikke til at give deres besyv med. ”Nu sidder vi alle godt sagde katten, den sad på flæsket.” Dette er specielt udbredt i spørgeskema data, f.eks. forms i ServiceNow

Historisk bias – Sådan har vi altid gjort, og det er der ikke noget galt i.

Availability bias – De anvendte data afspejler en ufuldstændig model.

Outlier bias – data har det med at mere eller mindre passe ind i en af de forskellige modeller, men der er altid noget, der falder udenfor. I første omgang kan man vælge at fjerne disse for at koncentrere sig om massen. Sidenhen kan man fjerne den tilpassede model og kikke på negativet som er de outliers, der er.

Da stegt flæsk blev udråbt som nationalret i 2014 var der en stor efterspørgsel på stegeflæsk, og det blev fejret i de forskellige supermarkeder. Året efter, hvor der ikke var samme omtale, havde indkøbsalgoritmerne tilpasset sig, hvilket betød, at man i en del forretninger måtte nedsætte prisen betydeligt for at få gjort indhug i beholdningen. The hidden biases in big data

”Black Friday” er også blevet et outlier fænomen, hvor der pludseligt kommer en ekstra belastning på forsendelseshåndtering, men den er så tilbagevendende.

Irrationalitet

Mennesker er irrationelle, det har bl.a. Dan Ariely vist os flere gange. Nogle gange skal den irrationalitet anvendes til trods for at data siger noget andet. F.eks. den synliggjorte gratis opgradering af abonnementet får flere folk til at vælge det dyreste abonnement frem for hvis sammenligningspunktet ikke havde været der. Som i artiklen: Are You a Predictably Irrational Decision Maker?

En sammenligning af abonnementer og hvordan man bliver påvirket

Pizzamenuer

Ikke på helt samme niveau som ovenstående, men det kan alligevel virke fjollet, at liste små 30 varianter af pizzaer, og have muligheden for at folk selv sammensætter deres topping ud fra måske 10 forskellige.

Har man 10 forskellige toppings, så kan de kombineres, hvor man vælger mellem 0 og 5 toppings, på 638 forskellige måder – og flere hvis man tillader at 2 eller flere toppings er den samme. Så man er nødt til at vise noget inspiration og standard – især for nye kunder.

Hvis man i stedet går hårdt til værks med en data drevet tilgang, så vil man måske fjerne de 20% i denne omgang og 20% i næste omgang baseret på salgstal. Til sidst har man kun en pizzatype, der kan vælges, som ingen måske ville have valgt.

Det er væsentligt at have personer for øje, især når man laver en digital løsning.

Gaming the system

"When a measure becomes a target, it ceases to be a good measure" – Goodhart’s law

Data kan hjælpe til at give et overblik over, f.eks. hvor mange sager, der bliver lukket i et sagshåndteringssystem. Sætter man en metrik op om, at det er godt at få lukket sager hurtigt, så bliver en sådan beslutning som regel mødt med hurtigere sagslukning, men potentielt flere sager, fordi det underliggende problem ikke blev løst. Systemet blev gamet.

Det gør det også mindre attraktivt at håndtere besværlige sager og sjældent får man gladere kunder af ikke at få løst problemerne første gang man henvender sig.

Hvordan griber vi det an

Stil klare mål: Skal vi lave eksplorativ undersøgelse og se, hvilke data der er tilgængelige som måske kan give indblik i hverdagen? Skal vi se, om vi kan hjælpe med at sætte dataindsamling op, så vi kan arbejde henimod en bedre løsning?

Kan vi ændre i applikationskoden? Kan vi anvende f.eks. Dynatrace til at hjælpe med at spore webbrugeres færden?

Data evaluering

Data evaluering er som regel et eksplorativt foretagende, hvor en del af følgende spørgsmål finder svar. Hvilken kvalitet har data? Kan vi bruge data råt eller skal de vaskes og adapteres? Hvor meget data? Hvilke formater? GDPR? Kan data bruges fra kilden eller skal data eksporteres? Datahastighed og data gyldighed. Hvilke fordelinger passer på data? Kardinalitet, kvantitative, kvalitative Indikerer Benford’s law at der er noget andet, der bør undersøges?

Gentag

Det er sjældent at man løser et problem på den mest optimale måde – især hvis man har ufuldstændige data til at starte med. Derfor er det væsentlig at man vurderer det udkomme, der foreligger, lægger nye planer, sætter nye mål, og gentager processen. Dette gælder også A/B testing, når der kommer nye standarder og nye brugsmønstre.

En gængs metode hedder Hill Climbing, som er trinvise forbedringer mod en bedre løsning. Man er ikke sikker på, at det er den allerbedste løsning, og man kan eksperimentere med nogle helt andre indstillinger for at finde nye udgangspunkter.

Visualiser

Brug gerne flere forskellige metoder til at visualisere data. Nogle visualiseringer gør det nemt at se at man har ufuldstændige data, andre at man har mange outliers. K-means clustering kan give et indblik i forretningens grupperede data – men skal man fjerne nogle elementer eller er de irrationelle decoys, der er nødvendige for bedre salgstal for andre grupper?

Kort kan være passende. Bykort til hullede veje, verdenskort til internationale løsninger. Hvor skal vi placere næste data center for at være tæt på kunderne?

Hvilke mål ønsker I, at vi skal hjælpe jer med at opnå? Hvordan kan vi komme dertil gennem data? Tag os med på rejsen – sammen når vi længere. Kontakt os på +45 61 77 70 70 eller på mail: rasmus.halvor@soprasteria.com

Kontakt os

Search