Korpus- und Computerlinguistik
Der Lehrstuhl für Korpus- und Computerlinguistik betreibt methodologische Grundlagenforschung zur quantitativen Auswertung großer Textkorpora. Die entwickelten Algorithmen und Softwarewerkzeuge werden für Untersuchungen im Bereich der digitalen Geistes- und Sozialwissenschaftlichen wie auch für sprachtechnologische Anwendungen genutzt. Ein inhaltlicher Schwerpunkt liegt dabei auf Kookkurrenzphänomenen und der korpusbasierten Diskursanalyse.
Der Lehrstuhl hat eine eigene Homepage in englischer Sprache. Besuchen Sie uns!

Prof. Dr. Stephanie Evert
Wissenschaftliche Mitarbeiter

Dr.-Ing. Besim Kabashi, M.A.
Nathan Dykes, M.A.
Philipp Heinrich, M.Sc.
Anke Lutz
- MA-BM3: Building the Söd★mizer: Anwendungen der KI-basierten Textgenerierung
- Programmierung und Infrastrukturen I
Multimodal Constructional Space
(Drittmittelfinanzierte Gruppenförderung – Teilprojekt)Titel des Gesamtprojektes: GRK 2839: Die Konstruktionsgrammatische Galaxis
Laufzeit: 1. Oktober 2022 - 30. September 2027
Mittelgeber: DFG / Graduiertenkolleg (GRK)
URL: https://www.cxg.phil.fau.eu/about-the-rtg/about-the-rtg-projects/project-2/When it comes to human face-to-face communication, speakers make use of various modalities to deliver and interpret messages. This complex operation involves not only the verbal exchange of linguistic forms, but also the use of facial expressions, gestures, and prosody. In fact, a number of studies have shown that many gestures and linguistic forms systematically co-occur with one another (Cienki, 2015; Ningelgen & Auer, 2017; Ziem, 2017; Zima, 2017b). Following a cognitive/usage-based model, we know that language learners and users keep track of usage events, and that knowledge of language is constantly shaped and re-shaped with each instance of use (Bybee, 2010). One of the challenges of linguistic theory is therefore to account for these multimodal phenomena.
The main focus of this project is on modeling multimodality in a Construction Grammar (CxG) framework (Goldberg, 1995, 2006, 2019). Over the past few years, there have been several proposals that address these types of phenomena (Cienki, 2017; Herbst, 2020; Hoffmann, 2017; Mittelberg, 2017; Schoonjans, 2017; Turner, 2018; 2020a; 2020b; Uhrig, 2021; Ziem, 2017; Zima, 2017; Zima and Bergs 2017). Still, there are various theoretical and practical aspects yet to be addressed. Some of the discussion points that were brought up concern the theoretical status of multimodal constructions, whether the constructicon is multimodal, and whether a Multimodal Construction Grammar is needed.
In detail, this project is set to investigate three kinds of constructions where multimodal phenomena are observed, and use them as case studies to understand and suggest ways of modeling multimodality, following a CxG framework. These are cases whereby a linguistic form is observed to systematically and frequently co-occur with a gesture as in “I came this close to 🤏 winning the lottery”; a gesture that seemingly has a syntactic role in the utterance; and a gesture where no association is found with particular linguistic forms, but rather is a case of free combination such as air quotes (Uhrig, 2020). All of this will be done in the form of corpus-based studies. The data will be extracted from the large repository of audio-visual data NewsScape English Corpus, and analyzed using a variety of tools such as CQPweb, Red Hen Rapid Annotator, Elan, and Praat (Uhrig, 2021).
By the end of this project, we would like to suggest ways of delineating and modeling multimodal constructions in a CxG framework, account for the type of information that should be considered when describing constructions, which is not a trivial matter, and apply data science methods to multimodal communication research to identify and extract gestures from multimodal corpora, and to use statistical methods to analyze them.
Corpus Evidence for Delineating Constructions
(Drittmittelfinanzierte Gruppenförderung – Teilprojekt)Titel des Gesamtprojektes: GRK 2839: Die Konstruktionsgrammatische Galaxis
Laufzeit: 1. Oktober 2022 - 30. September 2027
Mittelgeber: DFG / Graduiertenkolleg (GRK)CxG and many other usage-based approaches agree that language consists of pre-fabricated form-meaning pairings of varying sizes (e.g. Goldberg 1995, Hunston & Francis 2000, Sinclair & Mauranen 2006, Wray 2008), which are called constructions in CxG. In contrast to approaches that understand language as a probabilistic system, such as lexical priming theory (Hoey 2005) or the EC-Model (Schmid 2020), constructions are usually conceptualised as discrete symbolic units or the “nodes of a symbolic network” (Diessel 2019: 249), possibly emerging from the generalisation of associational patterns or clusters of memory traces (e.g. Goldberg 2019). Prior research is typically focused on extensive linguistic analysis and discussion of a relatively small set of specific constructions (such as the English ditransitive or the let alone construction). Such studies have not been able to establish clear-cut criteria and diagnostics for determining at scale, i.e. with broad coverage, which form-meaning pairings should be considered as constructions and which elements (lexical items, restricted or open slots, and grammatical features) should be included in a given construction. While it is evident in a usage-based approach that there can be no dichotomic distinction of constructions vs. non-constructions4 and that “constructionhood” is a matter of degree, binary decisions on an inventory of constructions still have to be made for the purposes of linguistic analysis and the systematic compilation of a broadcoverage reference constructicon.
First efforts to build such a reference constructicon have been started for different languages, including English (Perek & Patten 2019) and German (Ziem et al. 2019). They build on existing lexical resources such as FrameNet (Perek & Patten 2019) and/or manual in-depth analysis of selected constructions5 (Ziem et al. 2019). Automatic identification of constructions has only been attempted by a small number of exploratory studies, based on word n-grams (Shibuya & Jensen 2015), hybrid n-grams of words and POS tags (Forsberg et al. 2014), or a combination of dependency-based co-occurrence with distributional clustering (Martí et al. 2019). All three studies focus on extracting and ranking construction candidates for manual inspection, but do not discuss identifying criteria or generate additional quantitative evidence for human annotators. Gries (2003) carries out a small feasibility study on finding prototypical instances of a given construction, but does not address the issue of construction identification.
This project explores how and to what extent quantitative data from large corpora can contribute to the task of delineating constructions, i.e. help researchers to assess the degree of “constructionhood” of a candidate construction (CxCand), develop systematic defining criteria for this assessment, and lay the groundwork for (semi-)automatic identification of constructions at scale. The project combines computational big data analysis of English and German corpora with constructicographic work (Lyngfelt et al. 2018), extending the collo-profile approach proposed by Herbst & Uhrig (2019: 177ff) for argument structure constructions. It addresses three central research questions: Q1: Does quantitative evidence from large corpora improve the manual identification of constructions and the development of defining criteria? Q2: What statistical measures are suitable as an operationalisation of such quantitative data, providing a basis for computing an index of “constructionhood” and for the automatic identification of constructions?
Q3: Can context-sensitive neural word and phrase embeddings be used as a corpus-based approximation of construction meaning?
The project starts by extracting large databases of CxCand from English and German Web corpora of more than 10 billion words, based on pre-defined syntactic patterns such as verb argument structure. The extraction relies on an existing HPC infrastructure for parsing large corpora at FAU. Widely-used criteria for determining “constructionhood” such as productivity, compositionality / idiomaticity and schematicity / lexical specificity (Ziem et al. 2019: 69f) are operationalised in terms of corpus frequency, productivity of slots, statistical association between lexical elements, morpho-syntactic preferences, context entropy, etc. They are computed from the CxCand database using state-of-the-art measures from methodological research carried out at FAU, which provide the basis for answering Q2. Following Herbst & Uhrig (2019), the meaning aspect of a CxCand is initially approximated by the collo-profiles of its open slots. A thorough constructicographic analysis of different sets of CxCand sheds light on Q1 (whether constructions can clearly be identified) and Q2 (which quantitative measures are most useful for this purpose). These sets include well-studied examples of constructions from the literature (used for validation of the approach), sets based on a syntactic pattern (such as mono-transitive verb argument structure), and sets based on a lexical item (in particular various prepositions, in collaboration with project #9). The most challenging and open-ended aspect of the project explores the use of context-sensitive word and phrase embeddings (e.g. Devlin et al. 2019) to operationalise the semantics of a CxCand, following the distributional hypothesis (Harris 1954) and recent proposals for a distributional CxG (DisCxG: Rambelli et al. 2019). If successful, i.e., if there is a positive answer to Q3, not only the form of a construction but also its meaning can be studied based on corpus evidence.Research questions Q1 and Q2 directly address GRQ CON1 (How do we identify constructions? Can they be seen as discrete units?) and GRQ CON2 (To what extent is constructional knowledge determined by collo-profiles? How can we measure the lexical specificity vs. productivity of constructions slots?). An important part of the constructicographic analysis is to delineate between a CxCand and related constructions, such as a generalisation of the CxCand or an overlapping combination of two constructions. In this way, the project also addresses GRQ NET1 (How can computational methods help reveal the network character of constructional space?).
The project will contribute a substantial number of entries to the RCnn, combining constructicographic descriptions with rich quantitative evidence. A suitable representation format for these entries will be developed in close collaboration with the PDR. The CxCand database constitutes a valuable resource for other projects working on English or German constructions; an extension to other languages is envisaged for the second phase of the RTG.
DFG-Projekt: Die Normalisierung rechtspopulistischer und neurechter Diskurse in Japan und Deutschland
(Drittmittelfinanzierte Gruppenförderung – Gesamtprojekt)Laufzeit: 1. April 2022 - 31. März 2025
Mittelgeber: Deutsche Forschungsgemeinschaft (DFG)Der Lehrstuhl Japanologie mit dem Schwerpunkt Japan derModerne und Gegenwart ist Teil des durch die DFG geförderten Projekts „Die Normalisierungrechtspopulistischer und neurechter Diskurse in Japan und Deutschland“ ,das interdisziplinär in Kooperation mit dem Lehrstuhl für Korpus- undComputerlinguistik durch die Philosophische Fakultät der FAU durchgeführt wird.
In diesem vergleichend angelegten Forschungsprojekt wird ausdiskursanalytischer Perspektive verschiedene Instanzen des politischenPopulismus als „schlanke Ideologie“ (Mudde/Kaltwasser) in ihrer jeweiligenideologischen Nähe zu neurechten Diskursen in Japan und Deutschland.Insbesondere analysiert werden die langfristigen Auswirkungen neurechterdiskursiver Strategien und rechtspopulistischer Politik auf die Alltagsspracheund das politische Diskursfeld mit den Methoden der Korpus- undComputerlinguistik sowie der korpusbasierten kritischen Diskursanalyse.
Tracking the infodemic: Conspiracy theories in the corona crisis
(Drittmittelfinanzierte Einzelförderung)Laufzeit: 1. April 2021 - 30. September 2022
Mittelgeber: Volkswagen StiftungWelche Kreise ziehen Verschwörungstheorien? Das Projekt untersucht diese Frage, indem wir mit Methoden der Korpuslinguistik den Gebrauch und die Verbreitung von Verschwörungstheorien anhand typischer Sprachmuster analysieren. Außerdem untersuchen wir die diskursiven Strategien, die Verschwörungstheorien mit rechtspopulistischen und extremistischen Diskursen gemeinsam haben. Ziel des Projekts ist es nicht nur, wichtige Einsichten in den Diskurs zur Corona-Pandemie zu gewinnen, sondern auch, die verwendeten Methoden weitgehend zu automatisieren, sodass sie eingesetzt werden können, um die Verbreitung anderer Verschwörungstheorien und Fehlinformationen zu untersuchen, etwa indem bestimmte Argumentationsmuster automatisch identifiziert werden.
Argumentrekonstruktion aus Politischen Debatten
(Drittmittelfinanzierte Einzelförderung)Laufzeit: 1. Januar 2021 - 31. Dezember 2023
Mittelgeber: DFG / Schwerpunktprogramm (SPP)
URL: https://www.linguistik.phil.fau.de/projects/rant/Politische Debatten liegen heutzutage zu großen Teilen in maschinenlesbarer Form vor – in der formellen Öffentlichkeit von Parlamentsdebatten ebenso wie in der Halböffentlichkeit sozialer Medien. Dies eröffnet die Möglichkeit, sich mit automatischen Textanalysemethoden einen breiten Überblick über die vorgebrachten Argumente zu verschaffen. Das Projekt RANT/RAND entwickelt im Rahmen des SPP RATIO (Robust Argumentation Machines) zu diesem Zweck einen kombinierten Ansatz, in den Methoden aus Logik und Korpuslinguistik einfließen. Da aufgrund der riesigen Menge verfügbarer Daten davon ausgegangen werden kann, dass alle wichtigen Argumente auch bei relativ niedriger Sensitivität gefunden werden, setzen unsere Verfahren auf hohe Genauigkeit (auf Kosten der Sensitivität). Dazu erstellen wir eine Liste von Logikmustern, die gängigen Argumentationsschemata entsprechen (z.B. Argumentum ad verecundiam) und im Wesentlichen als mit Platzhaltern versehene Formeln in speziellen Modallogiken betrachtet werden können. Jedes Logikmuster ist mit mehreren sprachlichen Realisierungen verknüpft, die in korpuslinguistischen Studien erarbeitet und gleichzeitig in Form von Suchanfragen operationalisiert werden. Unser Ansatz verbindet somit die Entwicklung automatischer Methoden zur Argumentextraktion mit neuen Erkenntnissen über linguistische Aspekte insbesondere der umgangssprachlichen politischen Argumentation. Die aktuell laufende erste Phase des Projekts konzentriert sich auf die Entwicklung und Evaluation von Logikmustern und korpuslinguistischen Suchanfragen für einzelne Argumente anhand einer Fallstudie auf einem großen englischsprachigen Twitter-Korpus. In der zweiten Projektphase werden wir die Robustheit unseres Ansatzes testen, indem wir weitere extsorten mit einbeziehen und insbesondere auch längere kohärente Texte wie Zeitungsartikel und Parlamentsdebatten analysieren. Zudem arbeiten wir in der zweiten Phase mit deutschsprachigen Texten, die mit korpuslinguistischen Suchanfragen wesentlich schwieriger zu erfassen sind (u.a. aufgrund diskontinuierlicher Konstituenten und eines deutlich kleineren Angebots qualitativ hochwertiger NLP-Werkzeuge). Ein weiterer entscheidender Schritt ist der Einsatz ähnlichkeitsbasierter Methoden, um aus den extrahierten Argumenten komplexe Schlussfolgerungen ziehen zu können. Dazu werden Platzhalter in den extrahierten Formeln mit speziell auf unsere Anforderungen zugeschnittenen Embedding-Vektoren ausgefüllt. Ferner werden wir unseren Ansatz auf die Extraktion von Argumentationsstrukturen, d.h. explizite und implizite Verweise zwischen Argumenten, ausdehnen. Ergänzend dazu werden wir die logische Struktur von Argumentation über Planung untersuchen und Querverbindungen zwischen Argumentation und zwischenmenschlichen Beziehungen herstellen (z.B. in Ad-hominem-Argumenten).Automatische Anonymisierung und Pseudonymisierung von Gerichtsurteilen
(Drittmittelfinanzierte Einzelförderung)Laufzeit: 1. April 2020 - 31. März 2022
Mittelgeber: Bayerisches Staatsministerium der Justiz (StMJ)Korpus- und Computerlinguistik interkulturell
(Drittmittelfinanzierte Einzelförderung)Laufzeit: 1. März 2020 - 31. August 2021
Mittelgeber: Bayerische Forschungsallianz (BayFOR)Rekonstruktion von Argumenten aus Noisy Text (SPP 1999: RATIO)
(Drittmittelfinanzierte Einzelförderung)Laufzeit: 1. Januar 2018 - 31. Dezember 2020
Mittelgeber: Deutsche Forschungsgemeinschaft (DFG)Soziale Medien spielen in der gesellschaftlichen Meinungsbildung eine wachsende Rolle. Gegenstand von RANT ist die Entwicklung von Methoden und Formalismen zur Extraktion, Repräsentation und Verarbeitung von Argumenten aus Texten geringer linguistischer Qualität, wie sie eben in Diskussionen auf sozialen Medien anzutreffen sind, anhand einer laufenden Fallstudie an einem großen Korpus von vor dem Referendum verbreiteten Twitter-Botschaften zum Thema Brexit. Wir werden eine korpuslinguistische Studie zur Identifikation wiederkehrender sprachlicher Argumentationsschemata durchführen und anhand dieser Schemata im Sinne eines High-Precision-Low-Recall-Ansatzes entsprechende Korpusanfragen zur Extraktion von Argumenten entwerfen. In der Tat erwarten wir, dass sich Argumentationsschemata unmittelbar mit logischen Schemata in einem dedizierten Formalismus in Verbindung bringen lassen und somit einzelne Argumente direkt als logische Formeln geparst werden können. Der zur Argumentrepräsentation verwendete Formalismus wird ein breites Spektrum an Modalitäten beinhalten, die in realen Texten auftretende sprachlich-semantische Phänomene wie Unsicherheit, Wirkung, Präferenz, Sentiment, Vagheit und Default-Implikation widerspiegeln. Wir werden einen solchen Formalismus als Familie von Instanzlogiken in der koalgebraischen Logik darstellen, die als generisches logisches Rahmenwerk vereinheitlichte semantische, deduktive und algorithmische Methoden für Modalitäten jenseits der üblichen relationalen Semantik zur Verfügung stellt; insbesondere werden wir Deduktionswerkzeuge für Argumentationslogiken auf bestehende generische koalgebraische Werkzeuge aufbauen. Die so entstehende logische Sprache zur Repräsentation einzelner Argumente wird ergänzt durch ein flexibles Rahmenwerk zur Repräsentation von Beziehungen zwischen Argumenten. Hierzu gehören sowohl in der Argumentationstheorie verbreitet betrachtete Relationen wie die Angriffs- und Unterstützungsrelationen sowie aus den Metadaten des Korpus gewonnene Beziehungen wie Zitation, Hashtags oder direkte Ansprache (per Erwähnung von Benutzernamen) als auch solche Beziehungen, die sich erst durch logische Schlussfolgerung aus dem Inhalt der Argumente ergeben. Insbesondere letztere Beziehungen stellen sich semantisch oft nicht als Relationen im engeren Sinne dar, sondern involvieren z.B. kontinuierliche Wahrheitswerte, Präferenzordnungen oder Wahrscheinlichkeiten und profitieren insofern von einer einheitlichen koalgebraischen Modellierung, die auch die semantische Grundlage der koalgebraischen bildet. Wir werden dementsprechend geeignete Verallgemeinerungen der für Dung's Argumentation Frameworks definierten Extensionssemantiken entwickeln und somit letztlich Begriffe wie „kohärenter Standpunkt“ oder „verbreitete Sichtweise“ formal einfangen; in Verbindung mit entsprechenden algorithmischen Methoden wird dies die automatisierte Extraktion umfassender argumentativer Positionen aus dem Korpus erlauben.
Komplexität literatischer Werke aus stilometrischer Sicht im Digital Humanities-Zentrum KALLIMACHOS
(Drittmittelfinanzierte Gruppenförderung – Teilprojekt)Titel des Gesamtprojektes: KALLIMACHOS – Zentrum für digitale Edition und quantitative Analyse an der Universität Würzburg
Laufzeit: 1. Oktober 2017 - 30. September 2019
Mittelgeber: BMBF / VerbundprojektIm Rahmen dieses Teilprojekts entwickelt der Lehrstuhl für Korpus- und Computerlinguistik robuste Maße für lexikalische Komplexität, erweitert den Komplexitätsbegriff über die gängige vocabulary richness hinaus und implementiert die Ergebnisse in einerfrei verfügbaren stilometrischen Toolbox.
Exploring the “Fukushima Effect”: Meinungsnetze und politische Willensbildung in der transnationalen algorithmischen Öffentlichkeit
(FAU Funds)Laufzeit: 1. Januar 2017 - 31. Dezember 2019
URL: https://www.linguistik.phil.fau.de/projects/efe/Die Digitalisierung der Gesellschaft und der Mediensysteme hat immense Auswirkungen auf (politische) Meinungsbildung und Diskurse. Dieses Projekt widmet sich der Untersuchung eines komplexen Phänomens, das im Zeitalter globalisierter Massenmedien und einer nationale Grenzen überschreitenden Konnektivität in den Sozialen Medien entstanden ist und von uns als transnationale algorithmische öffentlichkeit bezeichnet wird. Eine interdisziplinäre Kombination aus computerlinguistischen Verfahren, Netzwerkvisualisierung, interkultureller Hermeneutik und kommunikationswissenschaftlicher Inhaltsanalyse ermöglicht es uns, die diesem Phänomen zugrundeliegenden Prozesse zu analysieren und abzubilden. Thematisch befasst sich das Projekt mit der politisch aktuellen Diskussion zur Atomenergie und Energiewende nach Fukushima in Deutschland und Japan.
Effiziente Simulationsexperimente zur Parameteroptimierung speicherintensiver computerlinguistischer Lernverfahren
(Drittmittelfinanzierte Einzelförderung)Laufzeit: 1. Oktober 2016 - 30. September 2017
Mittelgeber: Bayerisches Staatsministerium für Bildung und Kultus, Wissenschaft und Kunst (ab 10/2013)Ziel des Projekts ist es, speicherintensive maschinelle Lernverfahren für den Einsatz auf HPC-Clustern zu optimieren, um Simulationsexperimente zur systematischen Parameteroptimierung der Verfahren durchführen zu können. Als prototypischer Anwendungsfall dienen Matrixfaktorisierungen und Deep Learning-Modelle in der distributionellen Semantik.
Reisekostenbeihilfe für Konferenzreise nach Portozoz
(Drittmittelfinanzierte Einzelförderung)Laufzeit: 1. August 2016 - 31. Oktober 2016
Mittelgeber: StiftungenMehrsprachigkeit und Migration
(Projekt aus Eigenmitteln)Laufzeit: seit 1. Januar 2016Englisches Konstruktikon
(Projekt aus Eigenmitteln)Laufzeit: seit 1. Januar 2016Korpuslinguistische Methoden und statistische Auswertungen im Digital Humanities-Zentrum KALLIMACHOS
(Drittmittelfinanzierte Gruppenförderung – Teilprojekt)Titel des Gesamtprojektes: KALLIMACHOS – Zentrum für digitale Edition und quantitative Analyse an der Universität Würzburg
Laufzeit: 1. Oktober 2014 - 30. September 2017
Mittelgeber: BMBF / Verbundprojekt
URL: http://www.kallimachos.de/In diesem Teilprojekt soll das Verständnis für die mathematischen Eigenschaften der literarischen Autorschaftsattribution mit stilometrischen Abstandsmaßen verbessert werden. Außerdem ist die Trennung von Autor-, Gattungs- und Epochensignal in stilometrischen Analysen von großem Interesse, da dies wiederum der Zuverlässigkeit einer automatischen Genreklassifikationen nutzen könnte. Darüber hinaus sollen zuverlässige statistische Methoden zur Signifikanzüberprüfung der festgestellten Entwicklungen ausgearbeitet, implementiert und erprobt werden.
Entwicklung einer Textclustering-Software für die Auswertung von Meinungsumfragen mit RogTCS
(Drittmittelfinanzierte Einzelförderung)Laufzeit: seit 3. Juni 2013
Mittelgeber: Industrie
URL: https://www.rogator.de/software/textanalysesoftware/Gegenstand des Projekts ist die Erprobung verschiedener computerlinguistischer Verfahren zur halbautomatischen Auswertung offener Fragen in Meinungsumfragen. Im Mittelpunkt stehen dabei die Identifikation wichtiger Themen (topic analysis), die Erkennung positiver, negativer und neutraler Bewertungen (polarity detection) sowie die Visualisierung der automatischen Auswertungen. Die eingesetzten Verfahren sind weitgehend sprachunabhängig und werden im Rahmen des Projekts auf deutsche und englische Textdaten angewendet.
