Калькулятор энтропии текста онлайн

Считает частоты символов или UTF-8 байтов, энтропию Шеннона в битах на единицу и идеальный размер сжатого представления.

-бит на символ
-идеальный размер
-уникальных значений
-всего единиц

Энтропия Шеннона показывает среднее минимальное число бит на единицу при идеальном кодировании по текущему распределению частот.

ЗначениеЧастотаВероятностьВклад в H
Скачайте этот калькулятор и считайте офлайн · без рекламы · PDF/JPGПодключить за 50 ₽/мес

Что показывает энтропия

Энтропия Шеннона оценивает среднее количество информации в одном символе или байте. Если распределение частот сильно неравномерное, энтропия ниже и данные потенциально лучше сжимаются. Если все значения встречаются почти одинаково часто, энтропия приближается к максимуму.

Символы или байты

Режим «Символы Unicode» удобен для учебного анализа строк и алфавитов. Режим «Байты UTF-8» показывает распределение реальных байтов, которые получаются при сохранении текста в UTF-8, поэтому кириллица, эмодзи и спецсимволы могут давать больше единиц подсчета.

Как использовать идеальный размер

Идеальный размер равен энтропии, умноженной на число единиц. Это нижняя теоретическая оценка для кодирования с учетом наблюдаемых частот, а не обещание фактического размера архива: реальные форматы добавляют таблицы, заголовки и служебные структуры.