NoDaLiDa 2021, Reykjavik, Iceland

Accepted papers

ID	Authors	Title	Type
2	Mark Anderson and Carlos Gómez-Rodríguez	What Taggers Fail to Learn, Parsers Need the Most	Short
5	Amalie Brogaard Pauli, Maria Barrett, Ophélie Lacroix and Rasmus Hvingelby	DaNLP: An open-source toolkit for Danish Natural Language Processing	Demo
6	Mika Hämäläinen, Niko Partanen, Jack Rueter and Khalid Alnajjar	Neural Morphology Dataset and Models for Multiple Languages, from the Large to the Endangered	Long
7	Yuri Bizzoni and Ekaterina Lapshinova-Koltunski	Measuring Translationese across Levels of Expertise: Are Professionals more Surprising than Students?	Long
9	Hemant Kumar Kathania, Sudarsana Reddy Kadiri, Paavo Alku and Mikko Kurimo	Spectral modification for recognition of children’s speech undermismatched conditions	Long
10	Tuomas Kaseva, Hemant Kumar Kathania, Aku Rouhe and Mikko Kurimo	Speaker Verification Experiments for Adults and Children using a shared embedding spaces	Long
13	Kristian Nørgaard Jensen, Mike Zhang and Barbara Plank	De-identification of Privacy-related Entities in Job Postings	Long
14	Lifeng Han, Gareth Jones, Alan Smeaton and Paolo Bolzoni	Chinese Character Decomposition for Neural MT with Multi-Word Expressions	Short
17	Katrin Ortmann	Chunking Historical German	Long
21	Chaojun Wang, Christian Hardmeier and Rico Sennrich	Exploring the Importance of Source Text in Automatic Post-Editing for Context-Aware Machine Translation	Short
22	Evelina Rennes and Arne Jönsson	Synonym Replacement based on a Study of Basic-level Nouns in Swedish Texts of Different Complexity	Long
23	Hanna Berg and Hercules Dalianis	HB Deid - HB De-identification tool demonstrator	Demo
24	Synnøve Bråthen, Wilhelm Wie and Hercules Dalianis	Creating and Evaluating a Synthetic Norwegian Clinical Corpus for De-Identification	Long
25	Mila Grancharova and Hercules Dalianis	Applying and Sharing pre-trained BERT-models for Named Entity Recognition and Classification in Swedish Electronic Patient Records	Long
27	Quan Duong, Mika Hämäläinen and Simon Hengchen	An Unsupervised method for OCR Post-Correction and Spelling Normalisation for Finnish	Long
29	Tobias Norlund and Agnes Stenbom	Building a Swedish Open-Domain Conversational Language Model	Short
30	Aarne Talman, Marianna Apidianaki, Stergios Chatzikyriakidis and Jörg Tiedemann	NLI Data Sanity Check: Assessing the Effect of Data Corruption on Model Performance	Long
32	Timo Johner, Abhik Jana and Chris Biemann	Error Analysis of using BART for Multi-Document Summarization: A Study for English and German Language	Short
35	Magnus Sahlgren, Fredrik Carlsson, Fredrik Olsson and Love Börjeson	It’s Basically the Same Language Anyway: the Case for a Nordic Language Model	Short
36	Antonia Karamolegkou and Sara Stymne	Investigation of Transfer Languages for Parsing Latin: Italic Branch vs. Hellenic Branch	Short
38	Leon Strømberg-Derczynski, Manuel Ciosici, Rebekah Baglini, Morten H. Christiansen, Jacob Aarup Dalsgaard, Riccardo Fusaroli, Peter Juel Henrichsen, Rasmus Hvingelby, Andreas Kirkedal, Alex Speed Kjeldsen, Claus Ladefoged, Finn Årup Nielsen, Jens Madsen, Malte Lau Petersen, Jonathan Hvithamar Rystrøm and Daniel Varab	The Danish Gigaword Corpus	Short
40	Steinþór Steingrímsson, Hrafn Loftsson and Andy Way	CombAlign: a Tool for Obtaining High-Quality Word Alignments	Long
41	Sampo Pyysalo, Jenna Kanerva, Antti Virtanen and Filip Ginter	WikiBERT Models: Deep Transfer Learning for Many Languages	Long
42	Per E Kummervold, Javier De la Rosa, Freddy Wetjen and Svein Arne Brygfjeld	Operationalizing a National Digital Library: The Case for a Norwegian Transformer Model	Long
43	Jarkko Lagus and Arto Klami	Learning to Lemmatize in the Word Representation Space	Long
44	Yvonne Adesam and Aleksandrs Berdicevskis	Part-of-speech tagging of Swedish texts in the neural era	Long
45	Jeppe Nørregaard and Leon Derczynski	DanFEVER: claim verification dataset for Danish	Short
47	Simon Hengchen and Nina Tahmasebi	SuperSim: a test set for word similarity and relatedness in Swedish	Long
48	Jenna Kanerva, Filip Ginter, Li-Hsin Chang, Iiro Rastas, Valtteri Skantsi, Hanna-Mari Kupari, Jemina Kilpeläinen, Jenna Saarni, Maija Sevón and Otto Tarkka	Finnish Paraphrase Corpus	Long
49	Eetu Sjöblom, Mathias Creutz and Teemu Vahtola	Grammatical Error Generation Based on Translated Fragments	Short
50	Helga Svala Sigurðardóttir, Anna Björk Nikulásdóttir and Jón Guðnason	Creating Data in Icelandic for Text Normalization	Short
52	Hjalti Daníelsson, Jón Hilmar Jónsson, Þórður Arnar Árnason, Alec Shaw, Einar Freyr Sigurðsson and Steinþór Steingrímsson	The Icelandic Word Web: A language technology-focused redesign of a lexicosemantic database	Short
53	Manfred Klenner and Anne Göhring	Getting Hold of Villains and other Rogues	Short
55	Lovisa Hagström and Richard Johansson	Knowledge Distillation for Swedish NER models: A Search for Performance and Efficiency	Long
64	Atli Sigurgeirsson, Þorsteinn Gunnarsson, Gunnar Örnólfsson, Eydís Magnúsdóttir, Ragnheiður Þórhallsdóttir, Stefán Jónsson and Jón Guðnason	Talrómur: A large Icelandic TTS corpus	Short
67	Abdul Aziz Alkathiri, Lodovico Giaretta, Sarunas Girdzijauskas and Magnus Sahlgren	Decentralized Word2Vec Using Gossip Learning	Short
69	Sidsel Boldsen and Fredrik Wahlberg	Survey and reproduction of computational approaches to dating of historical texts	Long
70	Juho Leinonen, Sami Virpioja and Mikko Kurimo	Grapheme-Based Cross-Language Forced Alignment: Results with Nordic Languages	Short
71	Hasan Tanvir, Claudia Kittask, Sandra Eiche and Kairit Sirts	EstBERT: A Pretrained Language-Specific BERT for Estonian	Long
72	Petter Mæhlum, Jeremy Barnes, Robin Kurtz, Lilja Øvrelid and Erik Velldal	Negation in Norwegian: an annotated dataset	Long
74	Vinit Ravishankar, Andrey Kutuzov, Lilja Øvrelid and Erik Velldal Multilingual	ELMo and the Effects of Corpus Sampling	Short
76	Jeremy Barnes, Petter Mæhlum and Samia Touileb	NorDial: A Preliminary Corpus of Written Norwegian Dialect Use	Short
77	Hinrik Hafsteinsson and Anton Karl Ingason	Towards cross-lingual application of language-specific PoS tagging schemes	Short
78	Andrey Kutuzov, Jeremy Barnes, Erik Velldal, Lilja Øvrelid and Stephan Oepen	Large-Scale Contextualised Language Modelling for Norwegian	Long
79	Saga Hansson, Konstantinos Mavromatakis, Yvonne Adesam, Gerlof Bouma and Dana Dannélls	The Swedish Winogender Dataset	Short
80	Tim Isbister, Fredrik Carlsson and Magnus Sahlgren	Should we Stop Training More Monolingual Models, and Simply Use Machine Translation Instead?	Short
81	Leo Leppänen and Hannu Toivonen	A Baseline Document Planning Method for Automated Journalism	Long
82	Samuel Rönnqvist, Valtteri Skantsi, Miika Oinonen and Veronika Laippala	Multilingual and Zero-Shot is Closing in on Monolingual Web Register Classification	Long
83	Mikko Aulamo, Sami Virpioja, Yves Scherrer and Jörg Tiedemann	Boosting Neural Machine Translation from Finnish to Northern Sámi with Rule-Based Backtranslation	Short
85	Maali Tars, Andre Tättar and Mark Fišel	Extremely low-resource machine translation for closely related languages	Long
88	Prajit Dhar and Arianna Bisazza	Understanding Cross-Lingual Syntactic Transfer in Multilingual Recurrent Neural Networks	Long
89	Arild Brandrud Næss, Joakim Olsen and Pierre Lison	Assessing the Quality of Human-Generated Summaries with Weakly Supervised Learning	Long
91	Jouni Luoma, Li-Hsin Chang, Filip Ginter and Sampo Pyysalo	Fine-grained Named Entity Annotation for Finnish	Long
92	Elena Volodina, Yousuf Ali Mohammed and Therese Lindström Tiedemann	CoDeRooMor: A new dataset for non-inflectional morphology studies of Swedish	Long