Grundläggande textanalys
Poäng: 7,5 hp
Kursplan: 5LN443
Teachers: Marie Dubremetz,
Eva Pettersson
Nyheter
- M&E: Evaluation on Studentportalen opens the 19th of May and will be closed the 5th of June (2016-05-18)
- Errata: XML lecture on Wednesday 4 of may, not 11th. Wednesday 11th of may 13h-14h you are welcome for individual support.
- Marie: Lab 1, VG Part: Updated. Added exercise on R&D for lemma.
- Marie: For those who are interested here is the original article published by Porter in Stemming (2016-04-06)
- Marie: Note: Some slides (Begining by 'Uppsala 2015') are not updated yet. (2016-04-06)
- Marie: Choose which article you want to present before the 21rd April (we discuss it at the lab) (2016-03-30) -> Choose article before 29th of April and Email it to Eva.
Schema
Datum | Tid | Sal | Innehåll | Litteratur | |
---|---|---|---|---|---|
F1 |
30/3 |
13-15 |
Turing |
Introduktion (MD) |
|
F2 |
31/3 |
10-12 |
Turing |
Textsegmentering (MD) |
Mikheev |
F3 |
6/4 |
13-15 |
Turing |
Automata + Morfologisk analys (MD) |
J&M 2 + 3 |
L4 |
7/4 |
10-12 |
Chomsky |
Lab 1 |
|
F5 |
13/4 |
13-15 |
Turing |
N-gram-modeller (MD) |
J&M 4 |
F6 |
14/4 |
10-12 |
Turing |
Ordklasstaggning (MD) |
J&M 5 |
F7 |
20/4 |
13-15 |
Turing |
Markov-modeller (MD) | J&M 6 |
L8 |
21/4 |
10-12 |
Chomsky |
Lab 2 |
|
F9 |
27/4 |
13-15 |
Turing |
Språkgranskning 1 (EP) |
DB&M |
F10 |
28/4 |
10-12 |
Turing |
Språkgranskning 2 (EP) |
Knutsson, Birn |
L11 |
2/5 and 9/5 |
10-11 |
9-2039 |
Individual support for Lab 3 |
|
F12 |
11/5 4/5 | 13-15 |
Turing |
Textanalys med XML + Correction Lab 1 (MD) | Myer |
F12b |
11/5 | 13-14 |
9-2041 |
Invidual support (MD) | Myer |
S13 |
12/5 |
10-12 |
Turing |
Redovisningar | |
S15 |
18/5 |
13-15 |
Turing |
Redovisningar |
|
F16 |
19/5 |
10-12 |
Turing |
Correction Lab 2 |
OBS: Chomsky = 9-2043, Turing = 9-2042
Innehåll
Kursen behandlar metoder för grundläggande textanalys upp till ordnivå, inklusive tokenisering, meningssegmentering, morfologisk analys och ordklasstaggning. Kursen tar också upp språkgranskning med tonvikt på stavningskontroll.Examination
Kursen examineras genom inlämingsuppgifter med både praktiska och teoretiska uppgifter samt ett muntligt och skriftligt referat. För betyget godkänt (G) krävs godkänt på samtliga uppgifter. För betyget väl godkänt (VG) krävs väl godkänt på minst två inlämningsuppgifter samt det skriftliga referatet.
Inlämingsuppgifter
Referat
Referatuppgiften består i att sammanfatta en vetenskaplig artikel muntligt på 5-10 minuter och skriftligt på 1-2 sidor. Artikeln väljs bland de förslag som finns under litteratur nedan. Det skriftliga referatet skickas som PDF till eva.pettersson@lingfil.uu.se . Mer info info på: http://stp.lingfil.uu.se/~evapet/Undervisning/textanalys16/referat.html
Litteratur
Gemensam litteratur:- Birn = Juhani Birn. 2000. Detecting Grammar Errors with Lingsoft's Swedish Grammar Checker. Proceedings of the Twelfth Nordic Conference in Computational Linguistics (NoDaLiDa), 28-40.
- DB&M = Markus Dickinson, Chris Brew and Detmar Meurers. 2013. Language and Computers. Wiley-Blackwell. 2013. Kapitel 2. [webbsida]
- J&M = Daniel Jurafsky and James H. Martin. 2009. Speech and Language Processing. Second Edition. Pearson Prentice-Hall. [webbsida]
- Knutsson = Ola Knutsson. 2001. Automatisk språkgranskning av svensk text. Licentiatavhandling, KTH. Kapitel 2: Utgångspunkter och angrepssätt för automatisk språkgranskning. Kapitel 3: Granskas regelspråk
- Mikheev = Andrei Mikheev. 2003. Text Segmentation. The Oxford Handbook of Computational Linguistics, 201-218
- Myer = Tom Myer. 2005. A Really, Really, Really Good Introduction to XML. Chapter 1. Excerpt from No Nonsense XML Web Development with PHP.
- Se där.