Ce este parsarea: scopul și logica
Parsarea a devenit deosebit de populară recent, însă ideea sa a apărut și este folosită de foarte mult timp. Manipularea unor cantități mari de date în care sursa nu este formalizată, iar algoritmul - strict fix sarcină, relevante și populare.
conținut
Ce este parsarea? Conceptul este asociat în mod obișnuit cu Internetul, dar automatizarea proceselor de procesare a informației are rădăcini în programarea locală. Prelucrarea informațiilor distribuite nu ar fi atât de eficientă dacă nu ar fi precedată de o perioadă lungă de teorie și practică a analizei textului.
Ideea generală de parsare
Programul de analiză poate fi executat în orice limbaj de programare. Sursa de date este:
- Internet;
- o listă specifică de resurse web;
- un gateway către rețeaua locală;
- bază de date;
- materialul scanat și multe altele.
Un instrument bun pentru rezolvarea problemelor este parsare programare server-side în PHP, XML, CSS, HTML, și alte formate de date similare sunt cele mai populare și sursele lor frecvente.
Rezultatul analizei, de exemplu:
- dinamica pieței valutare;
- cotații la bursă;
- date climatice;
- actualizări de software;
- știri și evenimente din lume și așa mai departe.
Sfera de aplicare definește și se umple cu o semnificație concretă a conceptului, permite înțelegerea a ceea ce este parsarea.
Efectul domeniului de activitate asupra algoritmului de analiză
Activitatea sistemelor informatice în domeniul schimburilor comerciale diferă semnificativ de activitatea sistemului de evidență a depozitelor. În primul caz există un spectru strict specific, rareori variabil de resurse și un algoritm fix pentru obținerea datelor necesare. În al doilea caz, trebuie să recunoașteți imagini, să convertiți informațiile grafice în text.
Este evident că o astfel de analiză este în aceste două cazuri. Este esențial diferit:
- prin înțelegerea originalului dat;
- prin algoritmul procesării acestuia.
Colectarea informațiilor privind clima nu poate fi ghidată de o gamă strict definită de surse. În acest domeniu, nu numai numărul de opțiuni pentru obținerea informațiilor inițiale variază, ci și variația probabilă a logicii de analiză.
Multe site-uri financiare sau resurse geografice (climă, vreme, previziuni) oferă vizitatorilor nu propriile pagini, ci posibilitatea de a descărca cantitatea actualizată de informații. Sarcina este de a analiza fișierul. Adesea nu este suficient să luați noi linii, care nu se aflau în descărcările anterioare.
Deseori, fișierul nou încărcat conține modificări în întregul conținut. Când scrieți programe eficiente de parsare, acest punct nu trebuie exclus în nici un caz în care domeniul de aplicare este static.
Analiza logicii parsării
În majoritatea cazurilor, ceea ce este parsarea este definit de programator. Acest lucru poate fi, de asemenea, influențat de client. Adesea, ideile și algoritmii dezvoltatorului, în special la nivel de companie - aceasta este o cunoaștere serioasă și un secret comercial al autorului.
Urmărind activitatea motoarelor de căutare, care, la un moment dat Pars întinderi ale internetului, care sunt în mod constant colectarea informatsiyu- specifica adunat, dorind să mențină arsenalul său de informații cu privire la nivelul modern și actualizat, îți dai seama că există întotdeauna o linie:
- sursă (interogare cheie);
- căutarea de ieșire (răspuns la o interogare).
Aceasta este o formulă de parsare clasică, sub care se află o fundație unică. Algoritmul de parsing este dificil de rezolvat, dar analizând agregatul cuvintelor cheie și comparând rezultatele rezultatelor căutării, puteți determina aplicarea adecvată a anumitor instrumente.
Principalul criteriu al oricărui proces de informare: corespondența sarcinii cu soluția obținută. O bună adăugare a soluției este relevanța acesteia. Nu fiecare resursă web informează pe paginile sale despre data actualizării informațiilor, dar dacă comparați rezultatele anterioare ale analizei cu cea curentă, puteți trage concluzii despre cât de mult actualizăm această resursă.
Dinamica granițelor de parsare
Ce este parsarea este destul de ușor de înțeles atunci când există un scop de a strânge informațiile necesare. Există criterii, există un spectru de surse de date și un obiectiv. Pot exista alte clarificări ale condițiilor problemei și ale ideilor despre soluția dorită.
Dacă utilizați PHP pe XML, CSS, HTML, atunci nu există nici o problemă. Aceste limbi de descriere a datelor sunt strict formale și cu aplicarea corectă a expresiilor regulate permit obținerea unui rezultat fiabil.
În cazul în care creatorul de resurse, care este analizat, schimbă structura paginii, adăugați o descriere sau tag-uri noi, atunci informațiile solicitate nu se încadrează deja sub expresia regulată scrisă, iar rezultatul va include probă inexacte.
Este posibil să extindeți limitele parsării pentru a capta mai multe informații, apoi să rafinați informațiile obținute sau să restrângeți limitele căutării și să obțineți un minim de informații. În primul caz, trebuie să mergeți la costurile suplimentare de filtrare a eșantionului rezultat, în cel de-al doilea caz, este ușor să pierdeți ceva important.
Cea mai bună soluție este formalizarea informațiilor țintă, nu numai în ceea ce privește conținutul așteptat și mediul etichetat, ci în contextul primului și al dinamicii celui de-al doilea. Acumularea experienței mediilor etichetate cu conținutul necesar, este posibil să se determine cu suficientă precizie limitele poziției dorite, să nu existe un eșantion mare de exces și să nu piardă semnificația.
- Programarea orientată pe obiecte
- MySQL este ceea ce și unde se aplică?
- Limbaj de programare Java
- Lista limbajelor de programare. Limbi de programare de nivel scăzut și înalt
- Parsarea: ce este și cum este creată
- Parser, ce este: ideea și mișcarea
- Interogarea SQL este ceea ce?
- Operațiuni eficiente la nivel de linie utilizând metoda split jаvascript
- "Sisteme intelectuale în sfera umanitară": conținutul disciplinei și domeniul aplicării…
- Teoria informațiilor
- Arhitectura client-server
- Programare dinamică, principii de bază
- Procese de informare și informare
- Care este gateway-ul implicit?
- Parserul este răspunsul la întrebarea corectă
- Expresii regulate ale Notepad: descriere, înlocuire și exemple
- Gateway-ul Internet este un satelit sigur pentru World Wide Web
- Sintaxă jаvascript parseInt: exemple de utilizare
- Semnificația și utilizarea vocii jаvascript
- Tipuri de date
- Cel mai ușor limbaj de programare pentru începători