10.23695/b417-1j26

URL

Metadata

Sen-Lex Dataset

Alfter David, Lindström Tiedemann Therese, Volodina Elena,
Sen*Lex är en orlista med produktivt och receptivt ordförråd for svenska som andraspråk. Listan baserar sig på två korpusar: SweLL-piloten, som innehåller uppsatser från andraspråkselever, och COCTAILL, som innehåller texter från kursböckerna som används för undervisning av svenska på kurser i svenska som andraspråk. Båda korpusar var manuellt annoterade med CEFR/GERS nivåerna. Dessa nivåer är projicerade till varje ord som observerats i texter av samma nivå. Listan är, således, inte preskriptiv, utan i högsta grad deskriptiv. Varje ord i listan innehåller lingvistisk information som delvis var automatisk annoterad, med vissa kategorier som har kontrollerats mauellt. De angivna frekvenserna kommer också från de två källkorpusarna: COCTAILL och SweLL-pilot, se artiklarna här: Elena Volodina, Ildikó Pilán, Stian Rødven Eide and Hannes Heidarsson 2014. You get what you annotate: a pedagogically annotated corpus of coursebooks for Swedish as a Second Language. Proceedings of the third workshop on NLP for computer-assisted language learning. NEALT

Citation