Archive

Posts Tagged ‘Уникод’

Как да въведем който и да е знак от Уникод в текстов документ?

24 януари 2015 1 Коментар

Вероятно ви се е налагало да въведете някой по-рядко използван знак, който го няма на клавиатурата ви и ако използвате операционните системи Windows често сте прибягвали до употреба на програмата Character Map (Start -> Programs -> Accessories -> System Tools -> Character Map или Start -> Run… -> charmap.exe + [Enter]).

https://en.wikipedia.org/wiki/Character_Map

За съжаление, тази програма, като всяка друга, има своите недостатъци и ограничения и понякога не ни предлага нужната функционалност.

Представям ви безплатната програма BabelMap, която е направена с цел да се улесни намирането на името и копирането на който и да е знак, включен в стандарта Уникод, който съдържа почти всички писмени системи, познати ни днес (и много, които отдавна не се използват вече):
http://www.babelstone.co.uk/Software/BabelMap.html

Скрийншот от програмата BabelMap.

За показването на повече знаци при търсене с програмата е нужно да имате инсталиран шрифт, който да поддържа дадената писменост или части от нея. Такива шрифтове за множество писмености могат да се изтеглят безплатно от Интернет (къде легално, къде недотам легално…). Просто търсене с любимата ви уебтърсачка за „free font download [име на писмеността или езика, който я използва]“ ще ви даде набор от най-популярните уебсайтове за изтегляне на шрифтове.

Един много добър безплатен набор от шрифтове за древни и съвременни езици е този: http://users.teilar.gr/~g1951d/.

Google също разработват един набор от шрифтове, който се стреми да покрие възможно най-много писмености — шрифтът се нарича „Noto“: https://bg.wikipedia.org/wiki/Noto_(шрифт)
https://www.google.com/get/noto/#/

Друга програма, подобна на BabelMap, е Unibook:
http://www.unicode.org/unibook/

За ползващите дистрибуции на ГНУ/Линукс (GNU/Linux) мога да предложа популярните програми: GNOME Character Map (за работната среда GNOME, както и за други работни среди за ГНУ/Линукс) и KCharSelect (за KDE):

https://wiki.gnome.org/Apps/Gucharmap
https://en.wikipedia.org/wiki/GNOME_Character_Map

https://docs.kde.org/stable/en/kdeutils/kcharselect/.

Mac OS X+ би трябвало също да има вградена програма, която да е еквивалент на Character Map за Windows. Просто потърсете с търсачки за целта…

Има и онлайн уебсайтове, които предлагат подобна функционалност:
http://unicode-table.com/en/
http://unicodelookup.com/
и редица други…

Уебсайтът на консорциума „Уникод“ е най-авторитетен по отношение на най-новите версии на стандарта Уникод: http://unicode.org/charts/.

Има и специални уебсайтове за въвеждане на фонетичните знаци от международната фонетична азбука (МФА, IPA, International phonetic alphabet), като отново са ви нужни дадени шрифтове, за да се показват знаците правилно:
http://www.i2speak.com/
https://github.com/westonruter/ipa-chart/
http://westonruter.github.io/ipa-chart/keyboard/
Подробна информация за МФА има в Уикипедия и специализираните книги по въпроса.

Надявам се тази публикация да ви е била полезна! Приятно използване на програмите!

П.П. За показване на по-екзотичните знаци с уеббраузъри и текстови редактори е нужно в настройките им да са зададени определени шрифтове, които да заменят тези, които са дадени за използване от CSS кода на даден уебсайт, както и самите зададени шрифтове да поддържат нужните знаци.

Също така е важно да спомена, че за правилно показване и запис и последващо четене на документи, е силно препоръчително да ги записвате с кодировка Уникод (най-често UTF-8 като най-разпространена и използвана кодировка).

Побългаряване на ГПИ на Windows XP

2 ноември 2008 Вашият коментар

Следват няколко полезни връзки за изтегляне на пакети за побългаряване на MS Windows XP SP2+ OS. Някои от тях вече могат да бъдат изтеглени от всички без проверка за легалността на софтурното Ви копие. :/ За сметка на това намерих директни връзки за изтегляне на по-известните ъпдейти за актуализирани Microsoft-ски програми за  XP и Vista. Ако намеря такива и за поместените надолу жизненоважни файлове, ще ги поместя наред с предишните. 🙂

Второто е необходимо, за да отстраните популярния Combining diacritic text characters bug при някои популярни шрифтове като Verdana, Ariel, Times New Roman, които идват преинсталирани с WinXP и съответно са леко бъгави (напр. липсват знаци за ударени български „и“, „я“ и „а“ ).
Пример: На нея и казаха, че синът и я е изоставил, защото я обичал прекалено много, за да я нарани чрез действията при оставането си…
Тук трябва задължително да добавим наклонена отляво надясно линия за ударение (наподобява умален вариант на знака „\“), поставена над самата буква.
За целта можем да използваме следната комбинация за HTML/XML:

я„, „а„, „о„, „е„, „ии други чрез изписване на кода & # 768 ; (без празните пространства) директо след гласната под ударение, без поставяне на празно място между нея и този код, за правилно визуализиране на я̀ а̀ о̀ ѝ è (понякога изисква гореспоменатия пакет-актуализация на шрифтовете за правилно визуализиране). Единствено знаците „ѝ“ и „Ѝ“ (второто е capital/uppercase вариант на първото) имат самостоятелни Unicode знаци.

Пример:

(HTML code → browser rendition)

За знака Combining Grave Accent “ & # 768″ (по Unicode се води U+0300, знакът е наричан още NON-SPACING GRAVE; намира се при търсене на термини като Combining Diacritical Marks, Ordinary Diacritics, ACCENT, COMBINING GRAVE Marks, Combining Diacritical, greek varia, GRAVE ACCENT, COMBINING Diacritics, Ordinary Diacritical Marks, Combining, COMBINING GRAVE ACCENT, varia, greek).

Encodings (на места премахнете празните полета; използвайте NumPad клавишите за въвеждане на числата в кода)
HTML Entity (decimal) & # 768;
HTML Entity (hex) & # x300;
How to type in Microsoft Windows Alt+0300
(тук „+“ = натисни едновременно)
UTF-8 (hex) 0xCC 0x80 (cc80)
UTF-8 (binary) 11001100:10000000
UTF-16 (hex) 0x0300 (0300)
UTF-16 (decimal) 768
UTF-32 (hex) 0x00000300 (0300)
UTF-32 (decimal) 768
C/C++/Java source code „\u0300“
Python source code u“\u0300″
Още чрез FileFormat.info …

Дано това помогне поне малко за заобикалянето на поредния проблем по нормативната лингвистична поддръжка на знаци, символи в дигитални шрифтове!
Иначе напоследък в българската интернет общност (особено във форуми) се налага тенденцията да се използва й („и кратко“) за означаването на ѝ ̀(„и“ под ударение или гореспоменатото „специално“ ударение), което противоречи на нормите на книжовния български език (по принцип е отделна буква от азбуката, докато удареното „и“ е просто специален частен случай на „и“, налагащ се, за да се укаже ударението, което често играе значима роля в семантиката на изречението… иначе това не е ли проблем за графа digital multilingual diacritic character typography?), но поради техническо-стандартни ограничения и немърливостта на Microsoft е по-ленивият (и погрешен) начин за „заобикаляне“ на проблема. Уикипедия има специална статия за знака „Cyrillic i with grave„. Във FileFormat.info има указания за въвеждане на ѝ (Unicode Character ‘CYRILLIC SMALL LETTER I WITH GRAVE’ (U+045D)) и на Ѝ (Unicode Character ‘CYRILLIC CAPITAL LETTER I WITH GRAVE’ (U+040D)). Няма да е зле да видите и бележките за ударението в българския език на страницата на езика ни в англоезичната Уикипедия.

Тъй рече Wikipedia:

Verdana (v. 2.43) uses an incorrect position for combining diacritical marks, causing them to display on the following character instead of the preceding. This makes it unsuitable for Unicode-encoded text such as Cyrillic or Greek. If Verdana is installed, diacritics below are displayed over the letter e, whereas they should have appeared over the letter a. This bug does not usually reveal itself with Latin letters. This is because some font display engines substitute sequences of base character + combining character with a precomposed character glyph.[4]

а̀е а́е а̃е а̉е | ὰε άε α̃ε α̉ε | àe áe ãe ảe

Shown: Latin characters, with combining marks that should be on the a; Greek characters, with combining marks that should be on the α; Latin precomposed characters.

On some platforms the Opera browser automatically fixes this Verdana bug. If the examples below and above look identical (and your browser’s current font is not Verdana), combining marks are on the right places.

In your browser’s current font:

а̀е а́е а̃е а̉е | ὰε άε α̃ε α̉ε | àe áe ãe ảe

(The first column is Cyrillic, the second column is Greek, and the third column is Latin)
The problem is fixed in the version of Verdana issued with Windows Vista. It is also fixed in Verdana version 5.01 font on Windows XP by installing the European Union Expansion Font Update from Microsoft.[5]

Следват и още няколко много полезни връзки.

  • FileFormat.info’s Local Font Listонлайн инструмент, показващ визуално списък на инсталираните на вашия компютър шрифтове ; с възможност за принтиране
  • FileFormat.info – много полезен сайт за мултиезикова шрифтова поддръжка, дигитални шрифтове, онлайн инструменти за тестването им и таблици със символи, Unicode мания ]:)
  • Redesign Windows Font Download Handler @ Mozilla.org Projects
  • Интересен Син екран или какви са последствията от кирилицата на ИнжИнера – негативен ефект от инсталирането на фонетичната клавиатурна подредба на ИнжИнера (анализ/коментар)
  • БДС за фонетични клавиатурни подредби на кирилицата и споровете около него и алтернативните фонетични клавиатурни подредби на българската кирилица

On Font Downloading as the browser method for properly displaying Unicode characters:
One of the biggest issues multilingual Internet users have is lack of font installed on their system to display the text they want to view from the Internet. Internet Explorer version 5 addressed this issue by automatically downloads Text Support package when user visit an html page which encode for those languages. Mozilla also implements similar functionality.

(U+267f, a.k.a. WHEELCHAIR SYMBOL) 🙂

%d bloggers like this: