Ce este lingvistica corpus?

Cu câteva decenii în urmă, oamenii de știință au putut visa doar despre automatizarea cercetării lingvistice. Lucrarea a fost făcută manual, un număr mare de studenți au fost implicați în ea, a existat o probabilitate semnificativă de eroare "prin neatenție", și cel mai important - a luat totul mult, foarte mult timp.

Odată cu dezvoltarea tehnologiei computerelor, a devenit posibilă efectuarea de studii mai rapidă, iar astăzi una dintre cele mai promițătoare domenii în studiul limbajului este lingvistica corporală. Caracteristica sa principală este utilizarea unor cantități mari de informații textuale, combinate într-o singură bază de date, marcate și numite în mod special corpul.

Până în prezent, există numeroase clădiri create în scopuri diferite, pe baza diverselor materiale lingvistice, acoperind între milioane și zeci de miliarde de unități lexicale. Această direcție este recunoscută ca fiind promițătoare și demonstrează progrese semnificative în atingerea obiectivelor aplicate și de cercetare. Specialiștii care se confruntă într-un fel cu limbajul natural, este recomandat să vă familiarizați cu corpusul de texte, cel puțin la un nivel de bază.

Istoria lingvisticii corporale

Formarea acestei direcții este asociată cu crearea, în Statele Unite, a Corpului Brown la începutul anilor 1960 ai secolului trecut. Colecția de texte conținea doar 1 milion de formulare de cuvinte, iar astăzi un corp de această dimensiune ar fi complet necompetitiv. În mare măsură, acest lucru se datorează ritmului dezvoltării tehnologiilor informatice, precum și creșterii cererii de noi resurse de cercetare.

În anii `90, lingvistica corporală a fost formată într-o disciplină deplină și independentă, colecții de texte au fost compilate și etichetate pentru mai multe zeci de limbi. În această perioadă, de exemplu, Corpul Național Britanic a fost creat pentru 100 de milioane de utilizări.

corpus lingvistică

Odată cu dezvoltarea acestui domeniu de lingvistică, volume de text devin din ce în ce mai mult (și să ajungă la miliarde de unități de dicționar), iar aspectul este din ce în ce mai diversă. Până în prezent, spațiul de internet poate fi găsit carcase scrise și de limbă, multilingve și literatura artistică sau academică orientată spre învățare, precum și multe alte specii vorbite.

Care sunt cadavrele

Tipurile de cazuri din lingvistica cabinetului pot fi prezentate din mai multe motive. Intuitiv, baza pentru clasificarea poate fi o limbă de text (rusă, germană), modul de acces (open source, închis, comercial), genul materialului sursă (ficțiune, documentar, academic, jurnalism).

metodele de lingvistică corporală

O modalitate interesantă este generarea de materiale care să reprezinte vorbirea orală. Deoarece înregistrarea deliberată a unui astfel de discurs ar crea condiții artificiale pentru respondenți, iar materialul rezultat nu putea fi numit "spontan", lingvistica corporală modernă a luat o altă cale. Voluntarul este echipat cu un microfon, iar în timpul zilei sunt înregistrate toate conversațiile în care participă. Oamenii din jur, desigur, nu pot ști că, în timpul unei conversații în gospodărie, ei contribuie la dezvoltarea științei.

Ulterior, înregistrările audio primite sunt salvate în baza de date și sunt însoțite de text imprimat în funcție de tipul de transcriere. Astfel, devine posibilă marcarea necesară pentru a crea un corp de vorbire orală de zi cu zi.

cerere

În cazul în care este posibilă utilizarea limbii, este posibilă și utilizarea casetelor de text. Scopul aplicării metodelor corpului în lingvistică poate fi:

  • Stabiliți programe de determinare a tonurilor care sunt utilizate în mod activ în politică și afaceri pentru a urmări răspunsurile pozitive și negative ale alegătorilor și respectiv ale clienților.
  • Conectarea sistemului informatic la dicționare și traducători pentru a-și îmbunătăți performanțele.
  • O varietate de sarcini de cercetare care contribuie la înțelegerea structurii limbii, a istoriei dezvoltării sale și a predicțiilor schimbării sale în viitorul apropiat.
  • Dezvoltarea sistemelor de recuperare a informațiilor bazate pe caracteristici morfologice, sintactice, semantice și altele.
  • Optimizarea muncii diverselor lingvistice și altele.

Utilizarea carcaselor

Interfața de resurse este similară cu un motor de căutare tipic și îi solicită utilizatorului să introducă un cuvânt sau o combinație de cuvinte pentru a căuta în baza de date. Pe lângă formularul exact de cerere, puteți utiliza versiunea extinsă, care vă permite să găsiți informații text pentru aproape orice criterii lingvistice.

computerizată și lingvistică caz

Baza de căutare poate fi:

  • aparținând unui anumit grup de părți ale discursului;
  • semne gramaticale;
  • semantica;
  • stilistică și emoțională.

Puteți combina, de asemenea, criterii de căutare pentru o secvență de cuvinte, de exemplu, pentru a găsi toate aparițiile verbului în timpul prezent prima persoană, singular, care vine după prepoziția „în“ și substantivul în cazul acuzativ. Soluția unei astfel de sarcini simple durează câteva secunde pentru utilizator și necesită doar câteva clicuri în câmpurile specificate.

Procesul de creare

Căutarea în sine poate fi efectuată atât pe toate subcorturile, cât și pe una, aleasă în mod specific, în funcție de nevoia de a atinge un anumit scop:

  1. În primul rând, se determină care texte vor constitui baza cauzei. Din punct de vedere practic, materialele jurnalistice, materialele ziarelor, comentariile de pe Internet erau adesea folosite. O varietate de tipuri de dulapuri sunt utilizate în proiectele de cercetare, însă textele trebuie selectate în funcție de anumite motive comune.
  2. Setul de texte rezultat este supus preprocesării, erorile sunt corectate, dacă este cazul, este pregătită o descriere bibliografică și extra-lingvistică a textului.
  3. Toate informațiile non-text sunt șterse: grafică, imagini, tabele sunt șterse.
  4. Există o selecție de jetoane, care de obicei reprezintă cuvinte, pentru prelucrarea lor ulterioară.
  5. În cele din urmă, este realizată marcajul morfologic, sintactic și altul al setului de elemente care rezultă.

Rezultatul tuturor operațiunilor efectuate este o structură sintactică cu un set de elemente distribuite peste el, pentru fiecare dintre care o parte a discursului este definită, gramaticale și, în unele cazuri, trăsături semantice.

Dificultăți în crearea clădirilor

Este important să înțelegeți că nu este suficient să colectați o mulțime de cuvinte sau propoziții pentru a obține cazul. Pe de o parte, colecția de texte trebuie să fie echilibrată, adică să reprezinte diferite tipuri de texte în anumite proporții. Pe de altă parte, conținutul casetei trebuie să fie marcat în mod special.

zaharov corpus lingvistică

Prima problemă este rezolvată printr-un acord: de exemplu, în colecția cuprinde 60% din texte literare, 20% din documentare, un anumit procent este dat o reprezentare scrisă a limbii vorbite, legislație, lucrări științifice, etc perfectă reteta organism echilibrat astăzi nu există ...

A doua întrebare, referitoare la marcarea conținutului, este mai dificil de rezolvat. Există programe speciale și algoritmi utilizați pentru marcarea automată, dar nu dau un rezultat de 100%, pot provoca defecțiuni și pot necesita revizie manuală. Posibilitățile și problemele de rezolvare a acestei probleme sunt descrise în detaliu în lucrarea lui Zakharov privind lingvistica corporală.

Marcarea textului se face pe mai multe nivele, pe care le vom enumera mai jos.

Marcajul morfologic

Din banca școlii ne amintim că în limba rusă există diferite părți ale discursului, fiecare dintre ele având propriile particularități. De exemplu, verbul are categorii de dispoziție și de timp pe care substantivul nu le are. Vorbitorul nativ nu ezită să înclină substantivele și să conjugă verbele, dar munca manuală nu va funcționa pentru a marca cazul în 100 de milioane de cuvinte. Toate operațiile necesare pot fi efectuate de un calculator, totuși, pentru aceasta este necesară predarea.



Marcarea morfologică este necesară pentru ca computerul să "înțeleagă" fiecare cuvânt ca o anumită parte a discursului având anumite trăsături gramaticale. Deoarece o serie de reguli regulate operează în limba rusă (ca în orice altă limbă), este posibil să se construiască o procedură automată pentru analiza morfologică prin investirea unui număr de algoritmi în mașină. Cu toate acestea, există excepții de la reguli, precum și diferiți factori complicați. Ca rezultat, analiza computerizată pură astăzi este departe de a fi ideală și chiar 4% din erori dau 4 milioane de cuvinte pe caz la 100 milioane de unități, necesitând o revizuire manuală.

În detaliu această problemă este descrisă de Zakharov VP "Corpus linguistics".

Marcare sintactică

Parsarea sau parsarea este procedura care determină relația cuvintelor într-o propoziție. Cu ajutorul unui set de algoritmi, devine posibil să se definească în text subiectul, predicatul, adăugiri, diverse rotații de vorbire. Aflați ce cuvinte sunt secvența principală, și care - dependente, putem extrage în mod eficient informații din text și pentru a preda aparatul să emită ca răspuns la o solicitare de căutare numai informațiile noi interesante.

Laboratorul de lingvistică corporală în universitățile ruse

Apropo, motoarele de căutare moderne folosesc acest lucru pentru a da anumite numere în loc de texte lungi, ca răspuns la interogările relevante, cum ar fi „cât de multe calorii intr-un mar“ sau „distanța de la Moscova la Sankt Petersburg.“ Cu toate acestea, pentru a înțelege chiar și elementele esențiale ale procesului descris, va trebui să vă familiarizați cu "Introducerea în lingvistica Corpus" sau cu un alt ajutor didactic de bază.

Semantic Markup

Semantica unui cuvânt este, în termeni simpli, sensul său. O abordare pe scară largă aplicabilă în analiza semantică este atribuirea etichetelor verbale, reflectând apartenența la un set de categorii și subcategorii semantice. Astfel de informații sunt valoroase pentru optimizarea algoritmilor de analiză a tonului textului, a abstractizării automate și a altor sarcini utilizând metodele de lingvistică corporală.

Există o serie de "rădăcini" ale copacului, care sunt cuvinte abstracte, având o semantică foarte largă. Pe măsură ce acest ramificat copac, se formează noduri care conțin elemente lexicale din ce în ce mai specifice. De exemplu, cuvântul "ființă" poate fi asociat cu concepte precum "om" și "animal". Primul cuvânt va fi ramificat în continuare la diferite profesii, termeni de rudenie, naționalitate și al doilea - la clase și specii de animale.

Aplicarea sistemelor de recuperare a informațiilor

Domeniile de utilizare a lingvisticii corpusului acoperă o mare varietate de domenii de activitate. Cazurile sunt folosite pentru a compune și corecta dicționare, pentru a crea sisteme de traducere automată, pentru a extrage fapte, pentru a determina cheia și alte procese de text.

Corpul lingvistic tip corp

În plus, astfel de resurse sunt utilizate în mod activ în studiul limbilor lumii și al mecanismelor de funcționare a limbii ca întreg. Accesul la volume mari de informații de pre-pregătite facilitează studiu rapidă și cuprinzătoare a tendințelor de dezvoltare a limbilor, și schimbarea neologisme de formare a stabili viteza de vorbire valori unități lexicale și altele.

Deoarece lucrul cu volume atât de mari de date necesită automatizare, astăzi există o interacțiune strânsă între calculatorul și lingvistica corporală.

Cladirea nationala a limbii ruse

Această clădire (abreviată la NKRN) include o serie de subcorpi care permit utilizarea resursei pentru rezolvarea unei game largi de sarcini.

Materialele din baza NKRN sunt subdivizate:

  • privind publicarea în mass-media a anilor 90 și 2000, atât pe plan intern, cât și străin;
  • înregistrări de vorbire orală;
  • texte marcate accentuat (adică cu semne privind stresul);
  • dialect vorbire;
  • lucrări poetice;
  • materiale cu marcaj sintactic etc.

Sistemul informațional include și subcorpi cu traduceri paralele ale lucrărilor din rusă în engleză, germană, franceză și multe alte limbi (și înapoi).

De asemenea, în baza de date există o secțiune de texte istorice care reprezintă discurs scris în limba rusă în diferite perioade de dezvoltare. Există, de asemenea, o clădire educațională, care poate fi utilă cetățenilor străini pentru a stăpâni limba rusă.

Corpul Național al limbii ruse include 400 de milioane de unități lexicale și, în multe privințe, depășește o mare parte din clădirile lingvistice ale Europei.

perspective

Faptul că laboratoarele de lingvistică corporală din universitățile rusești, precum și cele străine, promit, este un fapt favorabil recunoașterii acestei direcții. Prin aplicarea și cercetarea în cadrul resurselor de informare și de căutare în cauză, este implicată dezvoltarea anumitor domenii în domeniul tehnologiilor de înaltă tehnologie, a sistemelor de întrebări-răspunsuri, dar acest lucru a fost discutat mai sus.

istoria corpusului lingvistic

Dezvoltarea în continuare a lingvisticii corpus este prezis la toate nivelurile, variind de la tehnic și în ceea ce privește punerea în aplicare a unor noi algoritmi care optimizează procesele de căutare și prelucrare a informațiilor, autorizând calculatoare, mai mult RAM, și pentru consumator, deoarece utilizatorii sunt tot mai multe modalități de a utiliza acest tip de resurse în lor de zi cu zi viata si munca.

În concluzie

La mijlocul secolului trecut, 2017 a fost un viitor îndepărtat, în care navele spațiale aruncă expansiunea universului, iar roboții fac toată munca pentru oameni. De fapt, știința abundă în "pete albe" și face încercări disperate de a răspunde la întrebările care au tulburat omenirea de secole. Întrebările despre funcționarea limbii ocupă aici un loc onorabil, iar lingvistica corpusculară și informatică ne poate ajuta să le răspundem.

Procesarea seturilor de date mari vă permite să detectați modele care nu sunt disponibile anterior, să preziceți dezvoltarea anumitor caracteristici lingvistice, să monitorizați formarea cuvintelor în timp real.

La nivel practic, cofretele globale pot fi văzute, de exemplu, ca un potențial instrument pentru a evalua starea de spirit publice - Internetul este o constant actualizată zilnic de bază diverse texte create de utilizatori reali: aceste comentarii și recenzii și articole, și multe altele forma de vorbire.

În plus, lucrează cu organisme contribuie la dezvoltarea același hardware, care sunt implicate în extragerea de informații, suntem familiarizați cu serviciul „Google“ sau „Yandex“, traducere mașină, dicționare electronice.

Se poate afirma cu încredere că lingvistica corporală nu face decât primii pași, iar în viitorul apropiat se va dezvolta rapid.

Distribuiți pe rețelele sociale:

înrudit
Reforma lingvistică a lui Karamzin. Esența, plusurile și minusurile reformei lingvistice a lui…Reforma lingvistică a lui Karamzin. Esența, plusurile și minusurile reformei lingvistice a lui…
Metode moderne de cercetare lingvisticăMetode moderne de cercetare lingvistică
Semantica este o știință fără de care este greu de învățat un limbaj incredibilSemantica este o știință fără de care este greu de învățat un limbaj incredibil
Sunt științele care studiază limbajul promițător?Sunt științele care studiază limbajul promițător?
Lingvistica este ... Principalele secțiuni ale lingvisticiiLingvistica este ... Principalele secțiuni ale lingvisticii
Lingvistica este o știință care studiază limbaLingvistica este o știință care studiază limba
Care este sistemul lingvistic și structura acestuia?Care este sistemul lingvistic și structura acestuia?
Universitatea de Lingvistică de Stat din Moscova (MSLU): hostel, facultăți, grade de trecereUniversitatea de Lingvistică de Stat din Moscova (MSLU): hostel, facultăți, grade de trecere
Informatica ca științăInformatica ca știință
Specialitatea "Lingvistică": unde și de cine să lucreze?Specialitatea "Lingvistică": unde și de cine să lucreze?
» » Ce este lingvistica corpus?