Думаю, многие согласятся, что на сегодня самый компактный формат записи символов
Unicode это
UTF-8 Я думаю, что его можно сделать ещё компактнее.
Полагаю, этого можно достичь указанием первых 1-2 байтов кодировки не в начале каждого символа, а только в начале целой группы кодируемых теми же начальными байтами символов.
Чтобы такая ссылка(ЧПУ):
http://ru.wikipedia.org/wiki/ЧПУ (Интернет)
Которая в UTF8 выглядит так:
https://ru.wikipedia.org/wiki/%D0%A7%D0%9F%D0%A3_%...%B5%D1%80%D0%BD%D0%B5%D1%82%29
В новом стандарте кодировалось более короткой последовательностью байтов, примерно так:
https://ru.wikipedia.org/wiki/%D0%A7%9F%A3_%28%D0%...%D0%B5%D1%80%D0%BD%B5%D1%82%29
В данном примере это сокращает по одному байту %D0 перед каждым последующим символами кирилицы. Видимо, придётся также уточнить эти указатели групп во избежание неоднозначностей. В приведенном примере выигрыш невилик, поскольку используются универсальные для языков разделители( _). Соответственно хорошо бы ещё придумать чтобы эти универсальные символы не заставляли указывать %D0 повторно.
Ну что, нравится идея?
Давайте обсуждать, критиковать, додумывать дальше?