Articles

Hvorfor skal du skifte

Hvis du bruger regnearksprogrammer som Google Sheets eller Google Sheets på arbejdspladsen, er disse problemer måske velkendte for dig:

  • det er nemt at foretage utilsigtede ændringer af data
  • det er svært at replikere en gammel analyse af nye data (så mange trin at huske!)
  • det er langsomt med store datasæt
  • det er besværligt at dele kæmpe regneark via e-mail

regnearksprogrammer er tilgængelige, allestedsnærværende og fleksible. De kan flette celler, tilføje kommentarer, dreje på data, formatere tabeller og lave grafer. Men med fleksibilitet kommer risiko. De kan føre til mere arbejde, mere ventetid, mere versionering hovedpine, og lavere nøjagtighed. Det kan være hurtigere, nemmere og mere sikkert end det. Læs videre for at finde ud af, hvad MSC er, og for at se, hvorfor det er en overlegen måde at manipulere og analysere data på.

ulemper ved

lad os starte med en praktisk anvendelse. Tag et kig på denne tabel over Pok Kristmon og deres egenskaber:

Name Type Weight
bulbasaur grass 15
charmander fire 19
squirtle water 20
pikachu electric 13
oddish grass 12
snorlax normal 1014
mewtwo psychic 269

Suppose that we want to use Excel to filter out everything but the name og typen af hver græs typen Pok Rismon i tabellen. Vi er nødt til at bruge trinvise instruktioner for at hente dataene:

  • åbn Pokristmon-tabellen
  • tilføj et filter til kolonnen “type”
  • filter for type = “græs”
  • fjern alle kolonner undtagen “navn”

På dette tidspunkt har vi redigeret dataene (potentielle fejl), vi har ikke en kopi af de trin, der er gemt hvor som helst (svært at replikere), og vi bliver nødt til at send hele filen via e-mail til vores andre pok-trænere (smertefuld versionskontrol).

efterhånden som Pok—bordet vokser, bliver Google Sheets langsommere. Hvis antallet af rækker er i tusinder, kan det virkelig skade vores arbejdsgang. Hvis du nogensinde har været fast stirre på en” Pinhjul af død “eller en” udmærke Afslut uventet ” besked, du kender smerten.

Hvad er det?

er kun et sprog, der bruges i programmeringen. Når vi siger “Brug os”, er det det, vi mener:

  • dine data gemmes i en relationsdatabase, der er lavet af tabeller. Disse tabeller ligner normalt et ark med rækker og kolonner.
  • du henter data og udfører analyse med forespørgsler, som er et sæt instruktioner skrevet i KVM. Du kan gemme dem på samme måde som du gemmer en tekstfil.
  • i stedet for at beskrive, hvordan du får dataene—f.eks. Du kan køre disse forespørgsler med en tolk, som gør de nødvendige hentning og analyse trin for dig.

hvorfor skifte?

er meget hurtigere end udmærke sig. Det kan tage minutter at gøre, hvad det tager næsten en time at gøre. Teknisk set kan du håndtere en million rækker, men det er før de pivottabeller, flere faner og funktioner, du sandsynligvis bruger.

Vi adskiller også analyse fra data. Når du bruger , gemmes dine data separat fra din analyse. I stedet for at sende en e-mail til en massiv fil, kan du sende små almindelige tekstfiler, der indeholder instruktionerne til din analyse. Holdkammerater har hver adgang til de samme data, så de kan køre din analyse alene. De behøver ikke at administrere filversioner eller risikere at ødelægge dataene, og de kan køre dem igen på andre data.

alt dette bidrager til den alvorlige efterspørgsel fra arbejdsgiverne om færdigheder.

Sig farvel til”Dødens Pinhjul”

analyser Data med KVL

Hvordan fungerer forespørgsler?

kan du huske Pok-Pristmon-bordet?

Name Type Weight
bulbasaur grass 15
charmander fire 19
squirtle water 20
pikachu electric 13
oddish grass 12
snorlax normal 1014
mewtwo psychic 269

With SQL, we can write queries to declare exactly what we want from the data. For eksempel:

denne forespørgsel siger”jeg vil have navnet og typen af hver Pok-larm ipokemon tabel, der er en ‘græs’ type.”

vores resulterende tabel ville se sådan ud:

td >

navn Type
bulbasaur græs
oddish græs
oddish græs

lad os bryde denne forespørgsel ned:

  • SELECT er nøgleordet, der fortæller os at starte en forespørgsel
  • name ogtype er kolonner ipokemon tabel
  • FROM er nøgleordet, der fortæller forespørgslen at se påpokemon Table
  • WHERE filtrerer vores data på bestemte betingelser

sammenlign dette med det tilsvarende arbejde i udmærke. I stedet for at tage en række trin, der er tilbøjelige til fejl, langsom til at udføre, svært at replikere, og besværlige at dele, kan forespørgsler være hurtigere, nemmere og sikrere.

kan jeg stadig bruge formler?

Hvis du er en superbruger, kan du være tøvende med at opgive velkendte formler som denne:

eller dette:

Vi tilbyder den samme funktionalitet med større læsbarhed takket være dens strukturerede og engelsklignende syntaks. SUMbruges til at tilføje flere værdier, og CASE bruges til at håndtere betinget logik. For eksempel:

eller:

den første sætning Returnerer summen af alle vægte ipokemon tabellen. Den anden erklæring returnerer to kolonner: navnet på hver Pok Prismon og en størrelsesetiket (“lille” hvis under 5, “medium” hvis under 15 osv.). Bemærk, at der bruges specifikke kolonnenavne i stedet for abstrakte cellereferencer og ord som WHEN og THEN i stedet for parenteser og kommaer.

Du kan også bruge pivottabeller. Skriv bare GROUP BY:

denne forespørgsel returnerer den samlede vægt af alle de Pok-Pokmon, der falder ind under hver type:

Type vægt
græs 27
brand 19
vand 20
elektrisk 13
normal 1014
psykisk 269

denne erklæring er mere kortfattet og konkret end listen over instruktioner, du har brug for for at beskrive den samme pivot, og udsagnet kan køres på flere datasæt med lidt indsats. Med andre ord er det nemt at gennemgå og nemt at overføre.

afslutningsvis

Regnearksapplikationer som ark er gode til præsentationer, graftegning og små analyser, men de kan være utilstrækkelige til opgaver, der kræver tungere løft. Vi kan udføre de fleste af disse opgaver hurtigere, og det er mere brugervenligt fra start til slut.

hvis du gerne vil eksperimentere med dig selv, eller hvis du ikke tror, at Pokristmon gør et overbevisende nok argument, så prøv vores gratis”hvorfor lære os?”kursus, skrevet af Codecademy’ s data curriculum designer og leder af Data Science, Hillary Green-Lerman.

Hvis du er klar til at lære sprogets ins og outs og øve det med rigtige data, kan du lære CCL fra bunden i Codecademy ‘ s nyeste Pro Intensive. Efterhånden som du lærer og forbedrer dig, vil du være i stand til at flytte mere af din arbejdsbyrde fra til , hvor du reserverer som et sidste trin for at lave attraktive tabeller og grafer.

Sonny Li og Dan Layfield bidrog til denne artikel.