Считает частоты символов или UTF-8 байтов, энтропию Шеннона в битах на единицу и идеальный размер сжатого представления.
Энтропия Шеннона показывает среднее минимальное число бит на единицу при идеальном кодировании по текущему распределению частот.
| Значение | Частота | Вероятность | Вклад в H |
|---|
Что показывает энтропия
Энтропия Шеннона оценивает среднее количество информации в одном символе или байте. Если распределение частот сильно неравномерное, энтропия ниже и данные потенциально лучше сжимаются. Если все значения встречаются почти одинаково часто, энтропия приближается к максимуму.
Символы или байты
Режим «Символы Unicode» удобен для учебного анализа строк и алфавитов. Режим «Байты UTF-8» показывает распределение реальных байтов, которые получаются при сохранении текста в UTF-8, поэтому кириллица, эмодзи и спецсимволы могут давать больше единиц подсчета.
Как использовать идеальный размер
Идеальный размер равен энтропии, умноженной на число единиц. Это нижняя теоретическая оценка для кодирования с учетом наблюдаемых частот, а не обещание фактического размера архива: реальные форматы добавляют таблицы, заголовки и служебные структуры.