Re: Русский и английский языки как стратегии
[Re: Spirit] #2033979401 12.10.19 09:39
Разбираюсь с некоторыми вопросами теории информации.
Вот интересное место в учебнике:
https://studfiles.net/preview/2041886/page:20/
смотрите прикреплённую картинку.
Достаточно спорное утверждение, что вот так прямо, закодировав 16 000 русских слов, мы сможем писать осмысленные тексты. Для этого необходимо будет закодировать раз в 10 больше словоформ. Впрочем, в этом случае потребуются не такие уж большие дополнительные затраты, всего 3-4 бита. Однако, побуквенное кодирование открывает гораздо бо́льшие горизонты для дальнейшего развития, и думаю именно это – важнее всего. А вот для аналитических языков «двоичные иероглифы», описанные в ссылке – самое то. Теперь даже такому непонятливому, как я, стало всё понятно: самый аналитический язык в мире – китайский, и именно там самая-самая иероглифическая система письма.
Вот интересное место в учебнике:
https://studfiles.net/preview/2041886/page:20/
смотрите прикреплённую картинку.
Показать скрытый текст
Короткое пояснение тем, кто забыл математику.
1) Думаю, не очень сложно для понимания, что для того, чтобы перенумеровать двоичными числами 16000 слов, необходимо и достаточно, чтобы длина числа равнялась 14-ти знакам.
2) Чтобы закодировать букву русского алфавита, необходимо и достаточно 5 бит. (В алфавит добавляем букву “пробел”, а буквы Е и Ё объединяем в одну, также объединяем Ь и Ъ в одну букву. Таким образом получается алфавит в котором круглое число букв = 32) Другими словами, для того, чтобы перенумеровать эти 32 буквы алфавита двоичными числами, необходимо и достаточно, чтобы длина числа равнялась 5-ти знакам.
5 бит/букву умножить на 6,3 букв/слово = 31,5 бит/слово – затраты битов при алфавитном кодировании. Это более, чем в 2 раза больше, чем 14 бит, требуемых при кодировании слов “двоичными иероглифами”.
То же самое другими словами: Когда кодируем двоичными числами слова побуквенное, то каждая буква будет иметь длину = 5 цифр. Эту длину надо умножить на количество букв в слове. Получится, что средняя длина двоичного числа, обозначающего слово = 31,5 знаков. А длина «двоичного иероглифа» = 14 знаков – более, чем в 2 раза короче.
Скрыть текст1) Думаю, не очень сложно для понимания, что для того, чтобы перенумеровать двоичными числами 16000 слов, необходимо и достаточно, чтобы длина числа равнялась 14-ти знакам.
2) Чтобы закодировать букву русского алфавита, необходимо и достаточно 5 бит. (В алфавит добавляем букву “пробел”, а буквы Е и Ё объединяем в одну, также объединяем Ь и Ъ в одну букву. Таким образом получается алфавит в котором круглое число букв = 32) Другими словами, для того, чтобы перенумеровать эти 32 буквы алфавита двоичными числами, необходимо и достаточно, чтобы длина числа равнялась 5-ти знакам.
5 бит/букву умножить на 6,3 букв/слово = 31,5 бит/слово – затраты битов при алфавитном кодировании. Это более, чем в 2 раза больше, чем 14 бит, требуемых при кодировании слов “двоичными иероглифами”.
То же самое другими словами: Когда кодируем двоичными числами слова побуквенное, то каждая буква будет иметь длину = 5 цифр. Эту длину надо умножить на количество букв в слове. Получится, что средняя длина двоичного числа, обозначающего слово = 31,5 знаков. А длина «двоичного иероглифа» = 14 знаков – более, чем в 2 раза короче.
Достаточно спорное утверждение, что вот так прямо, закодировав 16 000 русских слов, мы сможем писать осмысленные тексты. Для этого необходимо будет закодировать раз в 10 больше словоформ. Впрочем, в этом случае потребуются не такие уж большие дополнительные затраты, всего 3-4 бита. Однако, побуквенное кодирование открывает гораздо бо́льшие горизонты для дальнейшего развития, и думаю именно это – важнее всего. А вот для аналитических языков «двоичные иероглифы», описанные в ссылке – самое то. Теперь даже такому непонятливому, как я, стало всё понятно: самый аналитический язык в мире – китайский, и именно там самая-самая иероглифическая система письма.
