Codificare Unicode: standard de codificare a caracterelor

Fiecare utilizator al Internetului, în încercarea de a-și configura una sau alta dintre funcțiile sale, a văzut cel puțin o dată pe afișaj scrisul cu litere latine

cuvântul "Unicode". Ce este, veți învăța citind acest articol.

Unicode ce este

definiție

Codificarea Unicode este un standard de codare a caracterelor. A fost propusă de organizația non-profit Unicode Inc. în 1991. Standardul este conceput pentru a combina cât mai multe tipuri de simboluri posibil într-un singur document. Pagina creată pe baza sa poate conține litere și hieroglife din diferite limbi (de la rusă la coreeană) și semne matematice. Toate caracterele din această codare sunt afișate fără probleme.

Motive pentru crearea

Odată, cu mult înainte de apariția sistemului Unicode, codificarea a fost aleasă pe baza preferințelor autorului documentului. Din acest motiv, de multe ori pentru a citi un document, a trebuit să utilizați tabele diferite. Uneori trebuia să se facă de mai multe ori, ceea ce complica semnificativ viața unui utilizator obișnuit. După cum sa menționat deja, soluția la această problemă în 1991 a fost propusă de organizația non-profit Unicode Inc., care a propus un nou tip de codificare a caracterelor. El a fost chemat să combine standardele morale învechite și diverse. Codificarea "Unicode", care a permis realizarea imaginilor de neimaginat la momentul respectiv: crearea unui instrument care să suporte un număr mare de caractere. Rezultatul a depășit multe așteptări - au apărut documente care conțineau atât text în limba engleză, cât și rusă, expresii latine și matematice.

Dar crearea unei singure codări a fost precedată de necesitatea de a rezolva o serie de probleme care au apărut din cauza diversității enorme de standarde care existau deja la acel moment. Cele mai frecvente sunt:

  • scrierile elfic, sau "karkozyabry";
  • set de caractere limitate;
  • problema conversiei de codare;
  • duplicarea fonturilor.

Standardul Unicode

O scurtă deviere istorică

Imaginați-vă că curtea este de 80 de ani. Tehnologia informatică nu este atât de răspândită și are o formă diferită de azi. În acel moment, fiecare sistem de operare este unic în felul său și este finalizat de fiecare entuziast pentru nevoi specifice. Nevoia de schimb de informații se transformă într-o revizuire suplimentară a tuturor lucrurilor din lume. Încercarea de a citi un document creat în alt sistem de operare afișează de multe ori un set de caractere incomprehensibil pe ecran și începe jocurile cu codificare. Nu este întotdeauna posibil să faceți acest lucru rapid și uneori documentul necesar poate fi deschis după șase luni sau chiar mai târziu. Persoanele care schimbă frecvent informații creează tabele de conversie pentru ele însele. Iar lucrul pe ele dezvăluie un detaliu interesant: trebuie să fie creați în două direcții: "de la mine la a ta" și înapoi. Asigurați-inversiune banală mașină de calcul nu poate, pentru el, în coloana din dreapta a sursei, iar stânga - rezultatul, dar nu și invers. Dacă vedeți necesitatea de a utiliza orice caractere speciale în document, au trebuit să fie adăugate mai întâi, și apoi altul, și pentru a explica partenerului ceea ce trebuie să facă pentru aceste personaje să nu devină o „păsărească.“ Și să nu uităm că pentru fiecare codificare trebuia să dezvoltăm sau să implementăm propriile fonturi, ceea ce a dus la crearea unui număr imens de duplicate în sistemul de operare.

Imaginați-vă în continuare că fonturile de pe pagina, veți vedea 10 bucăți de identice Times New Roman, cu o notă mică: pentru UTF-8, UTF-16, ANSI, UCS-2. Acum înțelegeți că dezvoltarea unui standard universal a fost o necesitate urgentă?

Codare Unicode

„Părinții fondatori ai creatorii“

Originile crearea de Unicode care urmează să fie găsite în 1987, când Joe Becker de la Xerox, împreună cu Lee Collins și Mark Davis de la Apple a inceput cercetarea în domeniul creației în practică a unui set caracter universal. În august 1988, Joe Becker a publicat un proiect de propunere pentru crearea unui sistem de codificare multilingvă internațional pe 16 biți.

Câteva luni mai târziu grup de lucru Unicode a fost extins pentru a include Ken Whistler și Mike Kernegana de la RLG, Glenn Wright a Sun Microsystems și alte câteva specialiști, care să permită finalizarea lucrărilor la formarea preliminară a unui standard de codificare comun.

Codare Unicode

Descrierea generală

Unicode se bazează pe conceptul de simbol. Această definiție este înțeleasă ca un fenomen abstract care există într-o formă specifică de scriere și realizat prin grafeme ("portretele" sale). Fiecare caracter este setat în Unicode printr-un cod unic care aparține unui bloc specific al standardului. De exemplu, grafemul B se află în alfabetul englez și rusesc, dar în Unicode corespunde 2 caractere diferite. Ele sunt transformate în litere mici, care este, fiecare dintre ele este descrisă de o cheie de bază de date, un set de proprietăți și un nume complet.

Avantajele Unicode



De la alți contemporani, codificarea lui Unicode se distinge printr-o rezervă uriașă de caractere pentru caracterele "criptare". Faptul că predecesorii săi au avut 8 biți, care este susținută de 28 de caractere, dar noul design a fost deja 216 de caractere, care a fost un uriaș pas înainte. Acest lucru a permis codarea aproape tuturor alfabetelor existente și distribuite.

Odată cu apariția Unicode, nu era nevoie să se utilizeze tabele de conversie: ca un singur standard, pur și simplu anula nevoia lor. În mod similar, ei au scufundat în uitare, și „păsărească“ - un standard unic le-a făcut imposibilă, precum și de regulă necesitatea de a crea fonturi duplicat.

Dezvoltare Unicode

Desigur, progresul nu se oprește și au trecut 25 de ani de la prima prezentare. Cu toate acestea, codificarea Unicode își menține cu încăpățânare poziția în lume. În multe privințe, acest lucru a fost posibil datorită faptului că a devenit ușor de implementat și sa extins, fiind recunoscut dezvoltatorii de software cu sursă de proprietate (plătite) și deschis.

codare unicode (standard de codificare a caracterelor)

În acest caz, să nu presupunem că astăzi avem aceeași codificare Unicode cu un sfert de secol în urmă. In acest moment, a fost înlocuit cu versiunea 5.h.h, iar numărul de simboluri codificate a crescut la 231. Pe posibilitatea folosirii unei marje mai mari mărci a refuzat să mențină în continuare suport pentru Unicode-16 (care codifică, în cazul în care valoarea maximă a numărului limitat al acestora 216). Din momentul apariției sale la versiunea 2.0.0, "Unicode-standard" a crescut numărul de caractere care l-au inclus, de aproape 2 ori. Creșterea oportunităților a continuat și în anii următori. La versiunea 4.0.0 a existat deja o necesitate de a crește standardul însuși, ceea ce sa făcut. Ca rezultat, Unicode a dobândit forma în care o cunoaștem astăzi.

Unicode ce este așa

Ce altceva există în Unicode?

În plus față de numărul uriaș și tot mai mare de personaje, Codarea "Unicode" a informațiilor de text are încă o caracteristică utilă. Vorbim despre așa-numita normalizare. În locul derulării întregului simbol al documentului după caracter și înlocuirea pictogramelor corespunzătoare din tabela de potrivire, se utilizează unul dintre algoritmii de normalizare existenți. Despre ce vorbim?

În loc să cheltuiți resursele informatice pentru verificarea regulată a aceluiași simbol, care poate fi similar în diferite alfabete, se utilizează un algoritm special. Vă permite să obțineți caractere similare într-un grafic separat al tabelului de căutare și să vă referiți la acestea deja și să nu verificați în mod repetat toate datele.

Există patru astfel de algoritmi dezvoltați și implementați. În fiecare dintre ele transformarea are loc în conformitate cu un principiu strict definit, care se deosebește de ceilalți, prin urmare, nu este posibil să numim una dintre ele cea mai eficientă. Fiecare a fost dezvoltată pentru nevoi specifice, a fost implementată și utilizată cu succes.

Codificarea textului Unicode

Răspândirea standardului

Pentru 25 de ani de istorie, codificarea Unicode a primit probabil cea mai mare distribuție în lume. În conformitate cu acest standard, programele și paginile web sunt de asemenea ajustate. Lățimea aplicației se poate spune prin faptul că, astăzi, Unicode utilizează mai mult de 60% din resursele de internet.

Acum știți când a apărut standardul "Unicode". Ce este, știți și veți putea aprecia întreaga valoare a invenției, realizată de un grup de specialiști de la Unicode Inc. cu mai mult de 25 de ani în urmă.

Distribuiți pe rețelele sociale:

înrudit
Detalii despre cum se despachetează un TARDetalii despre cum se despachetează un TAR
ASCII (cod standard american pentru schimbul de informații) - codificarea textului de bază pentru…ASCII (cod standard american pentru schimbul de informații) - codificarea textului de bază pentru…
ASCII, simboluri: descriere, tabel de cod și vizualizăriASCII, simboluri: descriere, tabel de cod și vizualizări
Codificarea este ... Sisteme semnate: informații de codificareCodificarea este ... Sisteme semnate: informații de codificare
Cu privire la modul de a pune citate-herringboneCu privire la modul de a pune citate-herringbone
Ce este codarea și decodificarea? Exemple. Metode de codare și decodificare a informațiilor…Ce este codarea și decodificarea? Exemple. Metode de codare și decodificare a informațiilor…
De ce codificarea binară este universală? Metode de programareDe ce codificarea binară este universală? Metode de programare
UTF-8 - codificare de caractereUTF-8 - codificare de caractere
Programare: Java. Tipuri de dateProgramare: Java. Tipuri de date
Htaccess (codare): setare, exemple de utilizareHtaccess (codare): setare, exemple de utilizare
» » Codificare Unicode: standard de codificare a caracterelor