619 Shares 8879 views

Was ist Corpus Linguistics?

Gerade vor ein paar Jahrzehnten die linguistische Forschung zu automatisieren, können Wissenschaftler nur träumen. Die Arbeit wurde von Hand gemacht werden, es eine große Anzahl von Studenten anzieht, gibt es eine hohe Wahrscheinlichkeit besteht, „sorglos“ Fehler, und was am wichtigsten ist – das alles dauerte eine lange, lange Zeit.

Mit der Entwicklung der Computertechnologie möglich geworden ist schneller Forschung über die Größenordnung zu führen, und heute einer der vielversprechendsten Richtungen in der Studie der Sprache ist eine Korpuslinguistik. Sein Hauptmerkmal ist die Verwendung von großen Mengen an Textinformationen, Informationen in eine einzige Datenbank, in besonderer Weise und nannte den markierten Körper.

Bis heute gibt es viele Gebäude mit unterschiedlichen Zwecken auf der Grundlage verschiedenen Sprachmaterials erstellt Spanning von mehreren Millionen auf zig Milliarden lexikalischer Einheiten. Diese Richtung wird als vielversprechende erkannt und demonstriert bedeutende Fortschritte im Hinblick auf die Anwendung und Forschungszwecke. Experten, der einen oder anderen Umgang mit der natürlichen Sprache, empfiehlt es sich vertraut zu machen mit dem Körper von Texten zumindest auf einer grundlegenden Ebene.

Geschichte der Korpuslinguistik

Die Bildung dieses Trends ist für die Schaffung der Vereinigten Staaten an dem Brown Körper in den frühen 60-er Jahren des letzten Jahrhunderts durch. Die Sammlung umfasst die Texte aller 1 Million Wortformen, und heute der Körper dieser Größe wäre völlig wettbewerbsfähig sein. Dies ist mit dem Tempo der Entwicklung der Computertechnologie vor allem, sowie der wachsenden Nachfrage nach neuen Forschungsressourcen.

In den 90er Jahren Korpuslinguistik in eine umfassende und unabhängige Disziplin entstanden, hat eine Sammlung von Texten für Dutzende von Sprachen erstellt und markiert. In dieser Zeit wurde erstellt, zum Beispiel der British National Corpus 100 Millionen Token.

Mit der Entwicklung dieses Bereichs der Linguistik, werden immer Textband mehr und mehr (und Milliarden von Wörterbuch-Einheiten erreichen), und das Layout wird immer vielfältiger. Bis heute kann der Internet Raum gefunden werden Kadaver geschriebener und gesprochener Sprache, mehrsprachig und lernorientierte künstlerische oder wissenschaftliche Literatur, sowie viele andere Arten.

Was ist das Gehäuse

Körpertypen in der Körper Linguistik können aus mehreren Gründen zur Verfügung gestellt werden. Intuitiv die Grundlage für die Klassifizierung kann eine Textsprache (Russisch, Deutsch) sein, der Zugriffsmodus (Open Source, geschlossen, kommerziell), das Genre des Ausgangsmaterials (Spiel-, Dokumentar-, akademisch, Journalismus).

Interessante Art und Weise erzeugt Materialien von gesprochener Sprache. Da die bewusste Aufnahme solcher Rede eine künstliche Umgebung für die Befragten zu schaffen, und das resultierende Material nicht „spontan“, modern Korpuslinguistik aufgerufen werden, um die anderen Weg gegangen. Ein Freiwilliger ist mit einem Mikrofon ausgestattet, und im Laufe des Tages eine Aufzeichnung aller Gespräche produziert, in denen es beteiligt ist. Menschen herum, natürlich, können nicht wissen, dass die Entwicklung der Wissenschaft im Laufe des täglichen Gesprächs beiträgt.

Später erhielt Datensatz in der Datenbank gespeichert und werden von gedrucktem Text-Transkript Art begleitet. Somit wird es möglich Markup ein oralen täglichen Sprach Gehäuse zu schaffen, benötigt.

Anwendung

Wo immer es möglich ist die Verwendung von Sprache, und vielleicht auch die Nutzung von Gebäuden Texten. Methoden, um den Rumpf in der Linguistik anzuwenden sein können:

  • Erstellen eines Programms Bestimmung der Schlüssel, ist weit verbreitet in Politik und Wirtschaft verwendet, um zu verfolgen positiven und negativen Reaktionen der Wähler und Kunden sind.
  • Verbindungsinformationssystem auf Wörterbücher und Übersetzer, ihre Leistung zu verbessern.
  • Eine Vielzahl von Forschungsaufgaben, die für das Verständnis der Spracheinheit, die Geschichte ihrer Entwicklung und Vorhersage von Veränderungen in naher Zukunft beitragen.
  • Entwicklung der Informationsbereitstellungssysteme auf der Basis der morphologischen, syntaktischen, semantischen und sonstige Funktionen.
  • Die Optimierung der verschiedenen Sprachsysteme und andere.

Nutzung von Gebäuden

ähnliche Ressource-Schnittstelle mit einer typischen Suchmaschine, und fordert den Benutzer auf ein Wort oder eine Wortkombination für die Informationsbasis zur Suche eingeben. Zusätzlich bildet die genaue Abfrage, um die erweiterte Version verwenden, die Textinformationen auf nahezu alle linguistischen Kriterien zu finden.

Suchbasis kann sein:

  • Zugehörigkeit zu einer bestimmten Gruppe von Teilen der Sprache;
  • grammatische Funktionen;
  • Semantik;
  • stilistische und emotionale Färbung.

Sie können auch Suchkriterien für eine Folge von Worten, zum Beispiel kombinieren, um alle Vorkommen des Verbs im Präsens, erste Person Singular, die nach der Präposition „in“ und das Substantiv im Akkusativ kommt zu finden. Die Lösung für eine so einfache Aufgabe nimmt der Benutzer ein paar Sekunden und erfordert nur wenige Mausklicks in den angegebenen Feldern.

Der Prozess des Erstellens

Die Suche selbst kann auf alle Teilkorpus durchgeführt werden und eine speziell ausgewählt, je nach den Bedürfnissen in ein bestimmtes Ziel zu erreichen:

  1. Der erste Schritt besteht darin, auf die Texte bilden die Grundlage für den Fall zu definieren. Aus praktischen Gründen ist es häufig journalistische, Nachrichten, Online-Kommentare verwendet. Das Forschungsprojekt ist die Verwendung einer Vielzahl von Pakettypen, aber der Text soll nach einem gemeinsamen Boden gewählt werden.
  2. Die sich ergebende Sammlung von Texten zur Vorbehandlung unterzogen, ist es die Korrektur von Fehlern, wenn überhaupt, zubereitet von bibliographischen und außersprachliche Beschreibung des Textes.
  3. Eliminiert alle Nicht-Text-Informationen: Löscht die Grafiken, Bilder, Tabellen.
  4. Ist eine Zuordnung von Token, die typischerweise Sprache sind, zur weiteren Verarbeitung.
  5. Schließlich ist es durch morphologische, syntaktische und andere Markierungen Vielzahl von Elementen erhalten wird.

Das Ergebnis aller von einer syntaktischen Struktur, die aus Transaktionen mit einer Vielzahl von darin verteilten Elementen, von denen jedem Teil der Sprache identifiziert, grammatikalischer und in einigen Fällen der semantischen Eigenschaften.

Schwierigkeiten bei der Schaffung von Gebäuden

Es ist wichtig zu verstehen, dass nicht genug ist, eine Reihe von Worten oder Sätzen für den Körper zusammen. Auf der einen Seite soll eine Sammlung von Texten ausgeglichen sein, das heißt, repräsentiert verschiedene Arten von Texten in einem bestimmten Verhältnis. Auf der anderen – der Inhalt des Gehäuses sollten in besonderer Weise angeordnet werden.

Das erste Problem durch eine Vereinbarung gelöst wird: zum Beispiel in der Sammlung umfasst 60% des literarischen Texte, 20% der Dokumentarfilme, wird ein bestimmte Prozentsatz eine schriftliche Darstellung der gesprochenen Sprache, Gesetze, wissenschaftlicher Arbeiten usw. perfekten Rezept ausgeglichene Körper heute existiert nicht gegeben …

Die zweite Frage, die inhaltliche Gestaltung betrifft, löst eine Herausforderung. Es gibt spezielle Programme und Algorithmen für die automatische Markierung von Texten, aber sie geben kein perfektes Ergebnis können Störungen verursachen und erfordern manuelle Nacharbeit. Chancen und Herausforderungen in Umgang mit diesem Problem sind ausführlich in einem Papier V. P. Zaharova der Korpuslinguistik beschrieben.

Text Markup wird auf mehreren Ebenen implementiert, die wir weiter unten Liste.

morphologischer Tagging

Schule, erinnern wir uns, dass es in der russischen Sprache, verschiedene Teile der Sprache sind, und jeder von ihnen hat seine eigenen Eigenschaften. Zum Beispiel hat das Verb Kategorien der Neigung und der Zeitpunkt, an dem kein Substantiv. Muttersprachler ohne zu zögern lehnt Substantive und Verben konjugieren, aber der Körper von 100 Millionen zu markieren. Tokens Handarbeit wird nicht funktionieren. Alle notwendigen Operationen können den Computer ausführen, aber dafür es gelehrt werden muss.

Morphologische Tagging, muss der Computer „verstehen“ jedes Wort als einen bestimmten Teil der Rede, die bestimmte grammatische Funktionen. Da die russische (und jede andere Sprache) eine Reihe von regelmäßigen Regeln arbeiten, ist es möglich, ein automatisches Verfahren für die morphologische Analyse zu bauen, für eine Reihe von Algorithmen im Auto zu investieren. Allerdings gibt es Ausnahmen von der Regel, sowie verschiedene erschwerenden Faktoren. Als Ergebnis ist Netto-Computeranalyse von heute bei weitem nicht ideal, und auch 4% Fehler ergeben einen Wert von 4 Millionen. Worte auf dem Körper von 100 Millionen. Einheiten, erfordern manuelle Nacharbeit.

Detaillierte Buch beschreibt das Problem Zaharova V. P. "Corpus Linguistics".

Annotation

Parsen oder Parsen – ein Verfahren, das die Beziehung von Worten in einem Satz bestimmt. eine Reihe von Algorithmen ist möglich, den Text von Subjekt, Prädikat, Ergänzungen, mehr Redewendungen zu bestimmen. Finden Sie heraus, welche Wörter sind die Hauptreihe, und die – abhängig ist, können wir effektiv Informationen aus dem Text extrahieren und die Maschine zu lehren, als Antwort auf eine Suchanfrage erteilen nur die Informationen, die uns interessant.

By the way, verwenden moderne Suchmaschinen diesen spezifische Zahlen zu geben, statt lange Texte in Reaktion auf relevante Fragen wie „wie viele Kalorien in einem Apfel“ oder „die Entfernung von Moskau nach St. Petersburg.“ Um jedoch zu verstehen, auch die Grundlagen des Prozesses durch die Notwendigkeit, beschrieb die „Einführung in das Corpus Linguistics“ oder andere grundlegende Tutorial zu konsultieren.

semantisches Markup

Die Semantik des Wortes – ist, in einfachen Worten, die Bedeutung. Weit verbreitet anwendbar Ansatz zur semantischen Analyse eines Wortes Zuschreibung Tags, was seine auf einen Satz von semantischen Kategorien und Unterkategorien gehören. Solche Informationen sind wertvoll für die Optimierung von Text Ton, automatische Zusammenfassung und andere Aufgaben Methoden der Korpuslinguistik Algorithmen analysiert.

Es gibt eine Reihe von „root“ des Baum, ein abstraktes Wort mit einer sehr breiten Semantik darstellen. Als ein Zweig des Baumknoten gebildet wird, mehr und mehr spezifischen lexikalische Elemente enthält. Zum Beispiel mit Begriffen wie „Mensch“ und „Tier“, das Wort „Kreatur“ kann in Verbindung gebracht werden. Das erste Wort wird auch weiterhin in verschiedenen Berufen, verzweigen sich, Verwandtschaftsbezeichnungen, Nationalität, und die zweite – auf Klassen und Arten von Tieren.

Die Verwendung von Information-Retrieval-Systemen

Einsatzgebiete von Korpuslinguistik decken vielfältige Tätigkeitsfelder. Gehäuse sind für die Vorbereitung und Korrektur von Wörterbuch verwendet, automatische Übersetzungssysteme erstellen, mit Anmerkungen versehen, Fakten abrufen, den Ton und die andere Textverarbeitung zu bestimmen.

Darüber hinaus sind solche Mittel in der Studie der Weltsprachen und Mechanismen des Funktionierens der Sprache im Allgemeinen aktiv genutzt. Der Zugriff auf große Mengen vorgefertigter Informationen ermöglicht eine schnelle und umfassende Studie über die Trends der Entwicklungssprachen und stabile Bildung Neologismen Sprachgeschwindigkeitsänderung Werte lexikalische Einheiten und andere.

Da die Arbeit mit so großen Datenmengen Automatisierung erfordert, heute gibt es eine enge Interaktion zwischen dem Computer und Korpuslinguistik.

Russian National Corpus

Dieser Fall (abgekürzt NKRYA) eine Anzahl von Teilkorpus, die Verwendung einer Ressource für eine Vielzahl von Aufgaben ermöglicht.

Die Materialien, die in der Datenbank sind NKRYA unterteilt:

  • In den Veröffentlichungen in den 90er Jahren Medien und 2000er Jahren im In- und Ausland;
  • Aufzeichnungs Sprache;
  • aktsentologicheski Texte markiert (das heißt, die Noten von Stress);
  • Dialekt Sprache;
  • Poesie;
  • Materialien mit syntaktischen und anderen Markierungen.

Das Informationssystem umfasst auch Teilkorpus mit parallelen Übersetzungen von Werken aus dem Russischen ins Englische, Deutsch, Französisch und viele andere Sprachen (und umgekehrt).

Auch in der Datenbank gibt es einen Abschnitt von historischen Texten, die die schriftlichen Rede in russischer Sprache in verschiedenen Perioden seiner Entwicklung. Es gibt auch eine Ausbildungseinrichtung, die für ausländische Bürger in die Beherrschung der russischen Sprache nützlich sein kann.

Russian National Corpus umfasst 400 Millionen lexikalische Einheiten, und in vielerlei Hinsicht vor einem bedeutenden Teil der europäischen Sprachen Körper.

Chancen

Tatsache für die Anerkennung dieses Trends ist die Verfügbarkeit von Laborkorpuslinguistik in russischen Universitäten viel versprechend, als auch ausländische. Mit dem Einsatz von und Forschung im Rahmen dieser Informationen und Suche Ressourcen erfordert die Entwicklung bestimmter Gebiete im Bereich der Hochtechnologien, Frage-Antwort-Systeme, aber es ist oben diskutiert.

Die Weiterentwicklung der Korpuslinguistik ist auf allen Ebenen vorhergesagt, von technischen Bereich und im Hinblick auf die Implementierung neuer Algorithmen, die die Prozesse der Suche und Verarbeitung von Informationen optimieren, Computer, mehr RAM und zum Verbraucher befähigen, weil die Benutzer immer mehr Möglichkeiten, diese Art von Ressource zu verwenden, in ihrer täglichen Leben und Werk.

Abschließend

In der Mitte des letzten Jahrhunderts im Jahr 2017 schien ferne Zukunft, wo Raumschiffe durch das Universum reisen und Roboter des ganze Arbeit für die Menschen. In der Tat ist die Wissenschaft vollgestopft mit „weißen Flecken“ und machten verzweifelte Versuche zu stören, die Fragen der Menschheit seit Jahrhunderten zu beantworten. Fragen der Sprache, die hier funktionieren besetzen einen Ehrenplatz, und Kabinett und Computerlinguistik können uns, sie zu beantworten helfen.

Die Verarbeitung von großen Datenmengen können Muster erkennen, die zuvor unzugänglich, Vorhersage der Entwicklung von spezifischen Sprachfunktionen nahezu in Echtzeit die Bildung von Wörtern zu verfolgen.

Auf der praktischen Ebene können die globalen Gehäuse zum Beispiel gesehen werden, als ein potenzielles Werkzeug, um die öffentliche Stimmung zu beurteilen – das Internet ist ein ständig aktualisierte täglich verschiedenen Texte von echten Nutzern: diese Kommentare und Bewertungen und Artikel, und viele andere Formen der Sprache.

Darüber hinaus mit Körpern arbeiten an der Entwicklung von der gleichen Hardware beiträgt, die in Information Retrieval beteiligt ist, sind wir mit dem Dienst „Google“ oder „Yandex“, maschinelle Übersetzung, elektronischen Wörterbücher vertraut.

Wir können getrost behaupten, dass die Korpuslinguistik nur die ersten Schritte macht, und in naher Zukunft wird blühen.