Unikalna tabela znaków Unicode

10.05.2019

Unicode to międzynarodowy standard kodowania znaków, który umożliwia wyświetlanie tekstów jednolicie na dowolnym komputerze na świecie, niezależnie od używanego języka systemu.

Podstawy

Aby zrozumieć, do czego służy tabela znaków Unicode, najpierw przyjrzyjmy się mechanizmowi wyświetlania tekstu na ekranie monitora. Komputer, jak wiemy, przetwarza wszystkie informacje w formie cyfrowej i musi być wyświetlany w formie graficznej dla prawidłowej percepcji przez człowieka. Tak więc, abyśmy mogli przeczytać ten tekst, musimy rozwiązać co najmniej dwa problemy:

  • Zakoduj znaki do wydrukowania w formie cyfrowej.
  • Zapewnij systemowi operacyjnemu możliwość dopasowania formy cyfrowej do symboli wektorowych, innymi słowy znajdź właściwe litery.

Pierwsze kodowania

Przodek wszystkich kodowań jest uważany za amerykański ASCII. Opisał alfabet łaciński używany w języku angielskim znaki interpunkcyjne i Cyfry arabskie. Wykorzystano w nim 128 znaków, które stały się podstawą do dalszego rozwoju - używa ich nawet nowoczesna tablica symboli Unicode. Litery alfabetu łacińskiego od tego czasu zajmują pierwszą pozycję w każdym kodowaniu.

tablica znaków Unicode

W sumie ASCII pozwoliło na zapisanie 256 znaków, ale ponieważ pierwsze 128 było w alfabecie łacińskim, pozostałe 128 zaczęło być używane na całym świecie do tworzenia norm krajowych. Na przykład w Rosji stworzono na ich podstawie CP866 i KOI8-R. Takie warianty nazwano rozszerzonymi wersjami ASCII.

Strony kodowe i Crackdowns

Dalszy rozwój technologii i pojawienie się GUI doprowadziło to do utworzenia amerykańskiego Instytutu Normalizacji kodującego ANSI. Dla użytkowników rosyjskich, zwłaszcza z doświadczeniem, jego wersja nosi nazwę Windows 1251. Po raz pierwszy użyto w niej pojęcia "strona kodowa". Za pomocą stron kodowych zawierających symbole alfabetów narodowych, innych niż łaciński, ustalono "wzajemne zrozumienie" między komputerami używanymi w różnych krajach.

Jednak obecność dużej liczby różnych kodowań używanych dla jednego języka zaczęła powodować problemy. Były to tak zwane krakozyabry. Powstały one z niedopasowania oryginalnej strony kodowej, w której zostały utworzone wszelkie informacje, oraz strony kodowej używanej domyślnie na komputerze użytkownika końcowego.

tablica znaków Unicode

Jako przykład można przytoczyć powyższe kodowanie cyryliczne CP866 i KOI8-R. Litery w nich różniły się pozycjami kodowymi i zasadami umieszczania. W pierwszym uporządkowano je alfabetycznie, w drugim - arbitralnie. Możesz sobie wyobrazić, co działo się na oczach użytkownika, który próbował otworzyć taki tekst bez koniecznej strony kodowej lub jeśli został nieprawidłowo zinterpretowany przez komputer.

Utwórz Unicode

Rozprzestrzenianie się Internetu i powiązanych technologii, takich jak poczta elektroniczna, doprowadziło do tego, że w końcu sytuacja z wypaczeniem tekstów przestała pasować do wszystkich. Wiodące firmy informatyczne utworzyły konsorcjum Unicode ("Unicode Consortium"). Tablica postaci, przedstawiona im w 1991 roku pod nazwą UTF-32, pozwoliła przechowywać ponad miliard unikalnych postaci. To był najważniejszy krok na drodze do odszyfrowania tekstów.

Tablica liter w formacie Unicode

Jednak pierwsza uniwersalna tabela kodów znaków Unicode UTF-32 nie była powszechnie stosowana. Głównym powodem była nadmiarowość przechowywanych informacji. Szybko obliczono, że dla krajów, w których alfabet łaciński zakodowany przy użyciu nowego uniwersalnego stołu, tekst zajmie cztery razy więcej miejsca niż przy użyciu rozszerzonej tabeli ASCII.

Rozwój kodu Unicode

Poniższa tabela symboli Unicode UTF-16 rozwiązała ten problem. Kodowanie w nim przeprowadzono w połowie liczby bitów, ale jednocześnie zmniejszyła się liczba możliwych kombinacji. Zamiast miliardów znaków, pozwala to zaoszczędzić jedynie 65 536. Niemniej jednak udało się, że liczba ta, zgodnie z decyzją Konsorcjum, została określona jako podstawowa przestrzeń przechowywania znaków standardu Unicode.

Pomimo tego sukcesu UTF-16 nie pasował do wszystkich, ponieważ ilość przechowywanych i przesyłanych informacji była wciąż dwukrotnie wyższa. Uniwersalnym rozwiązaniem była UTF-8, tablica znaków Unicode o zmiennej długości. Można to nazwać przełomem w tej dziedzinie.

Tablica znaków Unicode w języku rosyjskim

Tak więc, wraz z wprowadzeniem dwóch ostatnich standardów, tablica symboli Unicode rozwiązała problem pojedynczej przestrzeni kodu dla wszystkich obecnie używanych czcionek.

Unicode dla języka rosyjskiego

Ze względu na zmienną długość kodu używanego do wyświetlania znaków, łacina jest kodowana w Unicode w taki sam sposób, jak w jego progenitoru ASCII, czyli w jednym bicie. W przypadku innych alfabetów obraz może wyglądać inaczej. Na przykład znaki alfabetu gruzińskiego są używane do kodowania trzech bajtów, a znaki alfabetu cyrylicy - dwa. Wszystko to jest możliwe w ramach korzystania ze standardu Unicode UTF-8 (tabela symboli). Język rosyjski lub cyrylica zajmuje 448 pozycji w ogólnej przestrzeni kodu podzielonej na pięć bloków.

tablica kodów znaków Unicode

Te pięć bloków zawiera główny alfabet cyrylicy i cerkiewno-słowiański, a także dodatkowe litery innych języków z cyrylicą. Liczba stanowisk jest przydzielana do wyświetlania starych form reprezentujących cyrylicy, a 22 pozycje z ogólnej liczby pozostają bezpłatne.

Aktualna wersja Unicode

Rozwiązaniem podstawowego zadania, jakim było standaryzacja czcionek i stworzenie dla nich jednej przestrzeni kodowej, konsorcjum nie zakończyło swojej pracy. Unicode stale się rozwija i rośnie. Najnowsza wersja tego standardu, 9.0, została wydana w 2016 roku. Zawierało sześć dodatkowych alfabetów i rozszerzyło listę standardowych znaków emoji.

Należy zauważyć, że w celu uproszczenia badań, nawet tzw martwe języki. Otrzymali to imię, ponieważ nie ma ludzi, dla których byliby krewnymi. Ta grupa obejmuje również języki, które sprowadzają się do naszych czasów tylko w formie pisemnych pomników.

Zasadniczo każdy może ubiegać się o dodanie znaków do nowej specyfikacji Unicode. To prawda, że ​​będzie musiał wypełnić przyzwoitą ilość dokumentów źródłowych i spędzić dużo czasu. Żywym tego przykładem jest historia programisty Terence'a Edena. W 2013 r. Złożył wniosek o włączenie do specyfikacji znaków związanych z oznaczeniem przycisków sterowania zasilaniem komputera. W dokumentacji technicznej były używane od połowy lat 70. ubiegłego wieku, ale dopóki nie pojawiła się specyfikacja 9.0, nie były one częścią Unicode.

Tabela symboli

Na każdym komputerze, niezależnie od używanego systemu operacyjnego, używana jest tabela symboli Unicode. Jak korzystać z tych tabel, gdzie je znaleźć i dlaczego mogą być przydatne dla przeciętnego użytkownika?

Tablica znaków Unicode, jak używać

W systemie Windows tabela symboli znajduje się w menu "Narzędzia". W rodzinie systemów operacyjnych Linux, zwykle można go znaleźć w podsekcji "Standard", aw MacOS w ustawieniach klawiatury. Głównym celem tej tabeli jest wprowadzanie znaków do dokumentów tekstowych, które nie znajdują się na klawiaturze.

Wniosek o takie stoły można znaleźć najszerszy: od wprowadzania symboli technicznych i ikon krajowych systemów monetarnych do pisania instrukcji praktycznego zastosowania kart tarota.

Podsumowując

Unicode jest używany wszędzie i wkroczył w nasze życie wraz z rozwojem Internetu i technologii mobilnych. Dzięki jego wykorzystaniu system komunikacji między grupami etnicznymi został znacznie uproszczony. Można powiedzieć, że wprowadzenie Unicode ma charakter orientacyjny, ale całkowicie niewyczuwalny na przykładzie wykorzystania technologii dla wspólnego dobra całej ludzkości.