I 2008 lancerede Google sin service Google Flu Trends, der gjorde Google i stand til at forudsige influenza-udbrud flere uger før nationale sundhedsmyndigheder var i stand til at identificere samme udbrud. Google Flu Trends er et eksempel på, hvordan data science kan bruges til at få værdifulde indsigter fra data, der kan danne baggrund for politisk handling.
Data science er en videnskab såvel som en kunst, hvor formålet er at ekstrahere viden og indsigter fra data. Processen består både i at hente, transformere, visualisere og analysere data – ofte med redskaber, som ikke indgår i den almindelige politologiske værktøjskasse. Formålet med kurset er at klæde de studerende på til selv at give sig i kast med nogle af de metoder og værktøjer, som er nybrud i politologien, fx i forbindelse med et speciale.
Centrale emner i kurset vil være:
- Hente data: Skaffe data fra alsidige datakilder såsom med scraping og API’er
- Præ-processering: Gøre data tidy og klar til analyse ved transformation af data
- Visualisering: Præsentere data på en intuitiv og appetitvækkende facon
- Statistisk læring: Klassificere og forudsige om data ved brug af især superviseret maskinlæring, såsom Random Forest og Gradient Boosted Trees
Kurset vil indeholde en blanding af teori og redskaber, og den tekniske del af kurset vil foregå i R.
Teorien vil blandt andet omfatte forskelle mellem kausalestimation og prædiktion, centrale koncepter i maskinlæring samt refleksioner om data science, herunder hvorfor Google har valgt at nedlægge Google Flu Trends. En del af eksemplerne i kurset vil tage udgangspunkt i mit eget speciale, hvor jeg anvendte maskinlæring til at forudsige og målrette tiltag imod uddannelsesfrafald på Professionshøjskolen Metropol.
Redskaberne i kurset vil blandt andet være centrale R-pakker såsom dplyr, ggplot2 og magrittr. I kurset stiftes også bekendtskab med at hente data ved at benytte API’er.
Kurset kan både stå alene og supplere kurset Videregående kvantitative metoder i studiet af politisk adfærd.
Seminarets litteratur er angivet i lektionsplanen ovenfor. Kolonnen Litteratur angiver det obligatoriske pensum, hvor særligt to titler står entralt:
- R4DS: Wickam, H. & Grolemund, G. (2016). R for Data Science. O’Reilly Media.
- ISL: James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An introduction to statistical learning (Vol. 112). New York: Springer.
Undervisningsmaterialet består derudover af online-ressourcer fra DataCamp, som stilles til rådighed i faget. Herunder følger et overblik.
- Introduction to R*
- Introduction to the Tidyverse
- Cleaning data in R*
- Data Manipulation in R with dplyr*
- Joining Data in R with dplyr*
- Intermediate R*
- Working with Web Data in R
- Sentiment Analysis in R: The Tidy Way
- Data Visualization in R*
- Working with Geospatial Data in R
- Supervised Learning in R: Classification
- Supervised Learning in R: Regression
- Machine Learning Toolbox*
- Unsupervised Learning in R*
- Exploratory Data Analysis*
- Importing data in R (part 1)*
- Importing data in R (part 2)*
- Importing and Cleaning Data in R*
- Introduction to Git for Data Science
- Intermediate R - practice*
- Writing functions in R*
- Text Mining: Bag of Words*
- String Manipulation in R with stringr
- Data Visualization with ggplot2 (part 1)*
- Data Visualization with ggplot2 (part 2)*
- Data Visualization with ggplot2 (part 3)*
- Spatial Statistics in R
- Introduction to Data*
- Exploratory Data Analysis in R: Case Study*
- Regression in R*
- Foundations of Inference*
- Reporting with R Markdown*
* kurserne markeret med stjerne udgør de 23 kurser i DataCamp's eget career track "Data Scientist with R"
Seminarets målsætning er at klæde den studerende på til at kunne:
- Importere, håndtere, transformere og visualisere data i R
- Forklare væsensforskellene mellem kausalestimation og prædiktion
- Formulere og designe et prædiktionsproblem
- Analysere et selvvalgt politologisk emne ved anvendelse af fagets metoder
- Reflektere over fordele og ulemper ved fagets metoder
Det forudsættes, at man har gennemført de obligatoriske metodekurser på bacheloruddannelsen i statskundskab, eller tilsvarende.
Det er ikke en forudsætning at have kendskab til R i forvejen, men det er en forudsætning at have mod på at arbejde i R.
Faget undervises af cand.scient.pol Jesper Svejgaard Jensen.
Undervisningen består af holdundervisning, hvor pensum bliver gennemgået. Indholdet i undervisningen vil både blive formidlet med slides samt eksempler i R.
Sker via selvbetjeningen på KUnet.
Point
- 7,5 ECTS
Prøveform
- Eksamen består af en selvstændig seminaropgave i form af en kvantitativ analyse af data. Opgaven kan være en ny problemstilling eller et replikationsstudium med afsæt i et eksisterende studium.
Krav til indstilling til eksamen
- En betingelse for at bestå seminarer er, at den studerende har deltaget aktivt i seminaret, dels gennem tilstedeværelse i minimum 75% af undervisningen og dels gennem aktiv deltagelse
Bedømmelsesform og censur
- Opgaven bedømmes på 7-trinsskalaen uden ekstern censur
- 28/05-18: Frist for aflevering af seminaropgave (1. afleveringsfrist)
- 05/06-18: Frist for 1. genindlevering af seminaropgave (2. afleveringsfrist)
- 11/06-18: Frist for 2. genindlevering af seminaropgave (3. afleveringsfrist)
Karakter | Beskrivelse |
---|---|
12 | Karakteren 12 gives for den fremragende præstation, dvs. hvor den studerende med ingen eller få og uvæsentlige mangler og på selvstændig og overbevisende måde er i stand til at indfri målbeskrivelsen for udbuddet. |
07 | Karakteren 7 gives for den gode præstation, dvs. hvor den studerende, om end med adskillige mangler, på sikker vis er i stand til at indfri målbeskrivelsen for udbuddet. |
02 | Karakteren 02 gives for den tilstrækkelige præstation, dvs. den minimalt acceptable præstation, hvor den studerende kun usikkert, mangelfuldt og/eller uselvstændigt er i stand til at indfri målbeskrivelsen for udbuddet. |
28 timers holdundervisning.