Jan Oliver Rüdiger, wissenschaftlicher Mitarbeiter am Leibniz-Institut für Deutsche Sprache (IDS) in Mannheim, hat sich der Entwicklung softwaregestützter Methoden für die Linguistik verschrieben.
Auf seiner Website finden Sie eine Zusammenstellung zahlreicher Korpora zur kostenlosen Nutzung:
- Briefe: Jean Paul
- CEHugeWebCorpus
- DTA-Korpus
- Deutsche politische Reden
- Deutscher Bundestag Drucksachen
- Deutscher Bundestag Plenarprotokolle
- EuroParl – Deutsche Reden
- HetWiK – Heterogene Widerstandskulturen
- KAMOKO
- kleineanfragen.de
- NottDeuYTSch
- One Million Posts Corpus
- OpenLegalData
- Referenzkorpus Altdeutsch (750‑1050)
- Referenzkorpus Frühneuhochdeutsch (1350–1650)
- Referenzkorpus Mittelhochdeutsch (1050–1350)
- Referenzkorpus Mittelniederdeutsch / Niederrheinisch (1200–1650)
- TextGrid – Digitale Bibliothek
- W2C – Web to Corpus
- Wahlprogramme zur Bundestagswahl 2021
- Wikipedia
Alle hier aufgeführten Korpora (insgesamt über 2 Mrd. Token) sind frei verfügbar und können kostenfrei zu nicht kommerziellen Zwecken genutzt werden (siehe Allgemein). Voraussetzung für die Nutzung ist ein bereits installierter CorpusExplorer (kostenfrei / OpenSource). Dieser erlaubt nicht nur die Analyse und Visualisierung der Korpusdaten, sondern sorgt auch dafür, dass Sie immer mit aktuellstem Korpusmaterial arbeiten (Korpus-Autoupdate).
An der Entwicklung des CorpusExpolorer war er auch beteiligt:
Diese Software ist OpenSource und wurde im Rahmen meines 2020 abgeschlossenen Promotionsprojekts (Universität Kassel): „CorpusExplorer – Eine Software zur korpuspragmatischen Analyse.“ entwickelt.
Der CorpusExplorer richtet sich an Korpuslinguist*innen und Text-/Data-Mining Interessierte. Die Software vereint über 50 interaktive Auswertungsmöglichkeiten unter einer nutzerfreundlichen Bedienoberfläche. Routineaufgaben wie z. B. Textakquise, Taggen oder die grafische Aufbereitung von Ergebnissen werden vollständig automatisiert. Die einfache Handhabung erleichtert den Einsatz in der universitären Lehre und führt zu schnellen sowie gehaltvollen Ergebnissen. Dabei ist der CorpusExplorer offen für viele Standards (XML, CSV, JSON, R, uvm.) und bietet die Möglichkeit, große Korpora mittels HPC (high-performance computing) auszuwerten.