Sådan starter du med data

Kredit: https://www.flickr.com/photos/gleonhard/31254136671/in/photostream/

Vi har alle hørt lyden bide.

”Verdens mest værdifulde ressource er ikke længere olie, men data” - The Economist

Måske. Men hvis data er som olie, ligner datatilstanden hos mange organisationer dette:

Deepwater Horizon olieudslip

Utallige datastrømme, der går tabt til datahavet. Spørg enhver dataforsker, og de vil fortælle dig, at det sværeste ved datavidenskab er at indsamle de rigtige data. Så hvordan starter vi?

1. Stil de rigtige spørgsmål

Det er både spildt og tidskrævende at indsamle data for dem. Vi er nødt til at finde ud af vores målinger, der skal være baseret på virksomhedens mål. Hvad er de bedst sælgende produkter? Hvor forlader brugere flertrinsprocessen? Hvor mange aktive brugere har vi? Mange organisationer præsenterer målinger for deres interessenter baseret på ting, som de er i stand til at måle (f.eks. Indtægter), ikke nødvendigvis hvad der bedst passer til deres virksomhedsretning.

Når vi ved, hvad vi prøver at måle, kan vi bestemme, hvor vi skal begynde at lede efter dataene, og planlægge trin for at begynde at indsamle de relevante data.

2. Giv en datadrevet kultur

Når en organisation vokser til en bestemt størrelse, kan de ikke længere kun stole på "magefølelse". Beslutninger skal baseres på data, og disse data skal være tilgængelige på alle niveauer.

Kan medarbejdere få adgang til dataene og metrikkerne, eller ligger de bag på de omliggende lag af sikkerhed og bureaukrati? Medarbejderne skal have beføjelse til at udføre dataundersøgelse på datasæt (som skal anonymiseres og sikres for at respektere privatlivets fred). En intern platform for selvbetjeningsanalyse er ideel til dette. Dette arbejde skal være åbent og gennemsigtigt. Det er vigtigt at placere arbejdet på et instrumentbræt og dele det hele.

Organisationer skal yde støtte, opmuntring og ressourcer til denne type arbejde. Det betyder tid og penge, men en datadrevet kultur vil imidlertid fremme mere informeret beslutningstagning.

3. Ansæt dataingeniører

Det er en almindelig mangel for organisationer at ansætte dataforskere og ikke dataingeniører. Dataforskere er absolut kritiske, de kan finde mønstre i data, forudsige resultater og skrive modeller, der kan lære at forbedre sig selv. Forbehold er, at det hele afhænger af kvalitetsdata. Data, der kun kan hentes gennem big data-infrastruktur, ETL og programmering af automatiserede arbejdsgange. Dette er typisk dataingeniørens rolle. Giv arbejdet til de mennesker, der er kvalificerede til det, og endnu vigtigere, glæde at gøre det.

4. Start lille og billig

Det kan være meget fristende at hoppe på big data-hype-toget, oprette et data science-team, købe enterprise analytics-software og bruge en stor mængde penge med meget lidt at vise til det. Der er meget, der kan gøres, før man foretager en stor investering. Her er nogle af de værktøjer, som enhver organisation kan bruge:

  • Javascript analytics libs såsom Mixpanel eller Amplitude. Det er gratis op til et vist antal månedlige brugere.
  • Luftstrøm til automatisk styring af arbejdsgange. Oprettet af Airbnb og inkuberet hos Apache Software Foundation, det er open source og en de facto standard for dataingeniører.
  • Dashboards, diagrammer og dataudforskning med Superset (også af Apache). Metabase er også et godt alternativ, og begge er open source.
  • Databricks community-udgave og Kaggle. Begge kan bruges til datavidenskabelige processer på skyen og gratis.
  • Amazon Web Services S3. Ikke gratis men inkluderet her, for med de teknologier, der udvikles i dag, er det ikke altid nødvendigt at have et datavarehus. Opbevaring er billig, og tjenester som Databricks, MongoDB-datasø, AWS Athena betyder, at du kan læse direkte fra din datasø.

Disse ideer vil give et godt fundament for en organisation til at begynde at indsamle de rigtige data og realisere deres værdi.