Самые популярные буквы в русском языке

Считаем буквы в произведениях русской литературы

Вы когда-нибудь задавались вопросом, какая буква русского алфавита встречается в текстах чаще остальных? Именно поиском ответа на этот вопрос я и собираюсь заняться. A пока, вы не знаете результатов моего маленького исследования, я предлагаю вам угадать пять самых распространенных букв нашего алфавита. Готовы?

Итак, как говорил один мой знакомый, хватаясь за баранку своего автомобиля, поехали.
Для начала нам понадобятся тексты, на которых мы будем практиковаться. Я выбрал три литературных произведения наших классиков: «Война и мир» Льва Николаевича Толстого, «Тихий Дон» Михаила Шолохова, «Мастер и Маргарита» Михаила Булгакова. Почему эти произведения? Просто первые два — это единственные, которые я читал в школе, а «Мастер и Маргариту» мы с женой смотрели по телевизору и поэтому, я, немного разбираюсь в теме.

Теперь нам нужно каким-то образом посчитать в них количество каждой буквы алфавита и общее количество букв. Как же это сделать? Можно пойти самым простым путем, как, например, делает мой начальник. Для этого нужно пойти в библиотеку, взять четыре тома «войны и мир», придти домой и заняться пересчетом букв, затем таким же образом поступить с остальными книгами. Конечно, на это уйдет много времени, но мой начальник очень трудолюбивый человек, а еще у него есть подчиненные. Можно им по тому раздать, a, если не посчитают, или ошибутся — «премии лишу».

Этот способ мне сразу не понравился, и я решил написать программу, которая сделает всю работу за нас. Ниже прилагается код программы, написанной на perl. Она подсчитывает общее количество букв в тексте, а также количество каждой из букв алфавита и их процентное содержание.

use strict;
use locale;
use POSIX qw (locale_h);
setlocale(LC_CTYPE, ‘ru_RU.CP1251’);
setlocale(LC_ALL, ‘ru_RU.CP1251’);
my @letters = qw(А Б В Г Д Е Ж З И Й К Л М Н О П Р С Т У Ф Х Ц Ч Ш Щ Ъ Ы Ь Э Ю Я);
my @out = qw(0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0);
open (TEXT, «

Для наглядности я немного доработал полученные данные в excel.

Как говориться, результат налицо. Самая популярная буква русского алфавита — это «О», а пятерка выглядит следующим образом: «О», «А», «Е», «И», «Н».

Теперь осталось ответить на самый главный вопрос. Зачем все это нужно?

Эту информацию, например, можно использовать, когда Леонид Якубович разрешит нам открыть любые пять букв. Я надеюсь, теперь вы знаете, какие буквы надо называть?
А если говорить серьезно, то нахождение частот встречаемости символов используется намного чаще, чем вы можете себе представить. Эта задача входит в алгоритм Хаффмана, который применяется во многих современных программах сжатия данных.

Источник

Частота букв в русском языке

Написал забавный php-скрипт. Погонял через него все тексты на « Спектаторе» на предмет языка. Всего в текстах употребляется 39110 разных словоформ. Сколько именно разных слов — определить довольно сложно. Чтобы хоть как-то приблизиться к этой цифре, я брал только первые 5 букв слова и сравнивал их. Получилось 14373 таких комбинаций. С большой натяжкой это можно назвать словарным запасом « Спектатора».

Потом я взял слова и иследовал их на предмет частоты повторения букв. В идеале надо брать какой-нибудь словарь, для полноты картины. Прогонять тексты нельзя, нужно только уникальные слова. В тексте же одни слова повторяются чаще, чем другие. Итак, получились следующие результаты:

о — 9.28%
а — 8.66%
е — 8.10%
и — 7.45%
н — 6.35%
т — 6.30%
р — 5.53%
с — 5.45%
л — 4.32%
в — 4.19%
к — 3.47%
п — 3.35%
м — 3.29%
у — 2.90%
д — 2.56%
я — 2.22%
ы — 2.11%
ь — 1.90%
з — 1.81%
б — 1.51%
г — 1.41%
й — 1.31%
ч — 1.27%
ю — 1.03%
х — 0.92%
ж — 0.78%
ш — 0.77%
ц — 0.52%
щ — 0.49%
ф — 0.40%
э — 0.17%
ъ — 0.04%

Тем, кто поедет на « Поле чудес», советую заучить эту таблицу наизусть. И называть слова в таком порядке. Так, например, казалось бы, такая « привычная» буква « б» употребляется реже, чем « редкая» буква « ы». Помнить надо также и то, что в слове не одни гласные. И что если вы угадали одну гласную, то нужно начинать идти по согласным. И кроме того, слово угадывается именно по согласным. Сравните: « **а**и*е» и « ср*вн*т*». И в том и в другом случае — это слово « сравните».

И еще одно соображение. Как вы учили английский? Помните? Э пен, э пенсил, э тэйбл. Что вижу — о том и пою. А смысл. Как часто вы в нормальной жизни говорите слово « карандаш»? Если задача — научить говорить как можно быстрее и эффективнее, то и учить надо соответствующе. Проводим анализ языка, выделяем самые употребимые слова. И учить начинаем именно с них. Чтобы более-менее говорить на английском языке, достаточно всего полторы тысячи слов.

Еще одно баловство: составлять слова из букв случайным образом, но учитывая частоту появления, чтобы было похоже на нормальные слова. В первой же десятке « случайных» четырехбуквенных слов выскочило « осел». В следующей полсотне — слова « мчим» и « нато». Но, увы, очень много неблагозвучных комбинаций, таких, как « блтт» или « нрро».

Поэтому — следующий шаг. Я разбил все слова на двухбуквенные сочетания и начал случайным образом (но с учетом частоты повторения) комбинировать их. Стали в больших количествах получатся слова, похожие на « нормальные». Например: « коивдиот», « воабма», « апый», « депоид», « дебяко», « орфа», « поеснавы», « озза», « ченя», « риторя», « урдеед», « утоичи», « стых», « сапоть», « гравда», « абабап», « обарто», « еелует», « лярезы», « мыни», « бромомер» и даже « тодебыст».

Куда применить. есть варианты. Например, написать генератор красивых фирменных игривых имен. Для йогуртов. Типа, « мемолисо» или « уторорерто». Или — генератор футуристических стихов « Бурлюк-php»: « опелдиий миатон, линоаз окмиая. деесопен одесон».

И есть еще один вариант. Надо попробовать.

Некоторые статистические данные об использовании русских слов:

После заметки мне пришло вот такое письмо:

Проанализировав статью « Язык до Киева доведет» и ту ее часть, где Вы описываете свою программу, возникла идея.
Вами написанный скрипт кажется мне предназначенным абсолютно не для « Поля чудес» в большей мере, а для другого.
Первое самое разумное применение результатов работы Вашего скрипта — определение порядка букв при программировании кнопок для мобильных устройств. Да, да — именно в мобильниках и нужно все это.

Я распределил это по волнам (см. рисунок)

Далее распределение по кнопкам:
1. Все буквы из первой волны уходят на 4 кнопки в первый ряд
2. Все буквы из второй волны тоже на остальные 4 кнопки в тот же первый ряд
3. Все буквы из третьей волны туда же на оставшиеся две кнопки
4. 4,5 и 6 волны уходят во второй ряд
5. 7,8,9 волны уходят на третий ряд, причем 9-я волна уходит вся полностью (не смотря на кажущееся большое количество букв) в третий ряд 9-й кнопки, что-бы 10 кнопку оставить под всякие там знаки препинания (точка, запятая и прочее).

Я думаю все понятно и так, без детальных обьяснений. Но все же не могли бы Вы обработать Вашим скриптом (включая знаки припинания) тексты следующего содержания:

А потом выложить статистику? Мне показалось? что тексты максимально отражают нашу современную речь, а ведь мы как говорим, так и пишем sms.

Заранее большое спасибо.

Итак, анализировать частоту повторения букв можно двумя способами. Способ 1. Взять текст, найти в нем уникальные (не повторяющиеся) словоформы и анализировать их. Способ хорош для построения статистики по словам русского языка, а не по текстам. Способ 2. Не искать в тексте уникальные слова, а сразу перейти к подсчету частоты повторения букв. Получаем частоту букв в русском тексте, а не в русских словах. Для создания клавиатур и прочего нужно использовать именно этот способ: на клавиатуре набираются именно тексты.

Клавиатуры должны учитывать не только частоту букв, но и самые упортебимые слова (словоформы). Не так уж и трудно догадаться, какие именно слова самые употребимые: это, во-первых, служебные части речи, ибо роль у них такая — служить всегда и везде, и местоимения, роль у которых не менее важная: заменять в речи любую вещь/человека (это, он, она). Ну и основные глаголы (быть, сказать). По результатам анализа перечисленных выше текстов я получил такие самые « популярные» слова: « и, не, в, что, он, я, на, с, она, как, но, его, это, к, а, все, ее, было, так, же, то, сказал, за, ты, о, у, ему, мне, только, по, меня, бы, да, вы, от, был, когда, из, для, еще, теперь, они, сказала, уже, него, нет, была, ей, быть, ну, ни, если, очень, ничего, вот, себя, чтобы, себе, этого, может, того, до, мы, их, ли, были, есть, чем, или, ней» и так далее.

Возвращаясь к клавиатурам — очевидно, что в клавиатуре буквосочетания « не», « что», « он», « на» идругие должны находится как можно ближе друг к другу, или если не вплотную, то каким-то наиболее оптимальным образом. Нужно провести исследования, каким именно образом пальцы движутся по клавиатуре, найти самые « удобные» позиции и поместить в них самые употребляемые буквы, не забывая, однако, про буквосочетания.

Проблема, как всегда, одна: даже если и получиться создать Уникальную Клавиатуру, куда деть миллионы людей, которые уже привыкли к qwerty/йцукен?

Запятая употребляется в 2 раза чаще, чем точка. А точка на стандартной русской клавиатуре расположена удобней.

Статистика по приведенным выше текстам:

По уникальным словам:

о — 9.36%
а — 8.40%
е — 8.08%
и — 6.91%
н — 6.12%
с — 5.67%
т — 5.49%
р — 5.30%
л — 5.00%
в — 4.67%
п — 3.38%
у — 3.17%
к — 3.14%
м — 2.97%
д — 2.72%
я — 2.50%
ь — 2.08%
ы — 2.06%
з — 1.85%
б — 1.61%
г — 1.47%
ш — 1.32%
ч — 1.22%
й — 1.21%
ж — 1.01%
ю — 0.99%
х — 0.97%
щ — 0.48%
ц — 0.37%
ф — 0.20%
э — 0.06%
ъ — 0.05%

По текстам в целом:

о — 11.35%
е — 8.93%
а — 8.23%
н — 6.71%
и — 6.48%
т — 6.17%
с — 5.22%
л — 4.95%
в — 4.47%
р — 4.17%
к — 3.35%
д — 2.97%
м — 2.93%
у — 2.86%
п — 2.39%
я — 2.17%
ь — 2.09%
ы — 1.90%
г — 1.811%
б — 1.77%
ч — 1.67%
з — 1.65%
ж — 1.14%
й — 1.09%
ш — 0.89%
х — 0.79%
ю — 0.66%
э — 0.33%
ц — 0.29%
щ — 0.29%
ф — 0.10%
ъ — 0.02%

Источник

Таблица частотности букв русского алфавита

Частотность — термин лексикостатистики, предназначенный для определения наиболее употребительных слов. Расчёт осуществляется по формуле:

где Freqx — частотность слова «x», Qx — количество словоупотреблений слова «x», Qall — общее количество словоупотреблений. В большинстве случаев частотность выражается в процентах. В словарях частотность слов может отражаться пометками — употребительное, малоупотребительное и т. д.

Аналогичным образом определяется частотность для букв. Бо́льшая частотность согласных на данном отрезке текста (например, в стихотворениях) получила название аллитерации. Высокие показатели частотности гласных называются ассонансом. Частотный анализ используется в криптографии для выявления наиболее частотных букв того или иного языка.

Частотность слов и букв являлась важнейшим инструментов криптоанализа в эпоху до повсеместного распространения блочных шифров.

Не следует путать термины частотность и частота.

Частотность букв русского языка [ править | править код ]

Статистика частотности букв русского языка (на материале НКРЯ): [1]

Частотный анализ – это один из методов криптоанализа, основывающийся на предположении о существовании нетривиального статистического распределения отдельных символов и их последовательностей как в открытом тексте, так и шифрованном тексте, которое с точностью до замены символов будет сохраняться в процессе шифрования и дешифрования.

Кратко говоря, частотный анализ предполагает, что частота появления заданной буквы алфавита в достаточно длинных текстах одна и та же для разных текстов одного языка. При этом в случае моноалфавитного шифрования, если в шифрованном тексте будет символ с аналогичной вероятностью появления, то можно предположить, что он и является указанной зашифрованной буквой. Аналогичные рассуждения применяются к биграммам (двубуквенным последовательностям), триграммам в случае полиалфавитных шифров.

Метод частотного анализа известен с еще IX-го века и связан и именем Ал-Кинди. Но наиболее известным случаем применения такого анализа является дешифровка египетских иероглифов Ж.-Ф. Шампольоном в 1822 году.

Данный вид анализа основывается на том, что текст состоит из слов, а слова из букв. Количество различных букв в каждом языке ограничено и буквы могут быть просто перечислены. Важными характеристиками текста являются повторяемость букв, пар букв (биграмм) и вообще m-ок (m-грамм), сочетаемость букв друг с другом, чередование гласных и согласных и некоторые другие.

Если – число появлений m-граммы ai1ai2. aim в тексте T, а L – общее число подсчитанных m-грамм, то опыт показывает, что при достаточно больших L частоты

для данной m-граммы мало отличаются друг от друга.

В силу этого, относительную частоту считают приближением вероятности P (ai1ai2. aim) появления данной m-граммы в случайно выбранном месте текста (такой подход принят при статистическом определении вероятности).

В представленной ниже таблице приводятся частоты встречаемости букв в русском языке (в процентах):

Буква алфавита Показатель частоты встречаемости Буква алфавита Показатель частоты встречаемости
А 0,062 Р 0,04
В 0,038 Т 0,053
Д 0,025 Ф 0,002
Ж 0,007 Ц 0,004
И 0,062 Ш 0,006
К 0,028 Ъ, Ь 0,014
М 0,026 Э 0,003
О 0,09 Я 0,018

Имеется мнемоническое правило запоминания десяти наиболее частых букв русского алфавита. Эти буквы составляют слово СЕНОВАЛИТР.

Устойчивыми являются также частотные характеристики биграмм, триграмм и четырехграмм осмысленных текстов. Существуют специальные таблицы с указанием частоты биграмм некоторых алфавитов. По результатам исследований с помощью таких таблиц ученые определили наиболее часто встречаемые биграммы и триграммы для русского алфавита:

СТ, НО, ЕН, ТО, НА, ОВ, НИ, РА, ВО, КО, СТО, ЕНО, НОВ, ТОВ, ОВО, ОВА.

Из таблиц биграмм можно также легко извлечь информацию о сочетаемости букв, т.е. о предпочтительных связях букв друг с другом.

Результатом таких исследований является таблица, в которой слева и справа от каждой буквы расположены наиболее предпочтительные «соседи» (в порядке убывания частоты соответствующих биграмм). В таких таблицах обычно указывается также доля гласных и согласных букв (в процентах), предшествующих (или следующих за) данной букве.

Г С Слева Справа Г С
3 97 л, д, к, т, в, р, н А л, н, с, т, р, в, к, м 12 88
80 20 я, е, у, и, а, о Б о, ы, е, а, р, у 81 19
68 32 я, т, а, е, и, о В о, а, и, ы, с, н, л, р 60 40
78 22 р, у, а, и, е, о Г о, а, р, л, и, в 69 31
72 28 р, я, у, а, и, е, о Д е, а, и, о, н, у, р, в 68 32
19 81 м, и, л, д, т, р, н Е н, т, р, с, л, в, м, и 12 88
83 17 р, е, и, а, у, о Ж е, и, д, а, н 71 29
89 11 о, е, а, и З а, н, в, о, м, д 51 49
27 73 р, т, м, и, о, л, н И с, н, в, и, е, м, к, з 25 75
55 45 ь, в, е, о, а, и, с К о, а, и, р, у, т, л, е 73 27
77 23 г, в, ы, и, е, о, а Л и, е, о, а, ь, я, ю, у 75 25
80 20 я, ы, а, и, е, о М и, е, о, у, а, н, п, ы 73 27
55 45 д, ь, н, о Н о, а, и, е, ы, н, у 80 20
11 89 р, п, к, в, т, н О в, с, т, р, и, д, н, м 15 85
65 35 в, с, у, а, и, е, о П о, р, е, а, у, и, л 68 32
55 45 и, к, т, а, п, о, е Р а, е, о, и, у, я, ы, н 80 20
69 31 с, т, в, а, е, и, о С т, к, о, я, е, ь, с, н 32 68
57 43 ч, у, и, а, е, о, с Т о, а, е, и, ь, в, р, с 63 37
15 85 п, т, к, д, н, м, р У т, п, с, д, н, ю, ж 16 84
70 30 н, а, е, о, и Ф и, е, о, а, е, о, а 81 19
90 10 у, е, о, а, ы, и Х о, и, с, н, в, п, р 43 57
69 31 е, ю, н, а, и Ц и, е, а, ы 93 7
82 18 е, а, у, и, о Ч е, и, т, н 66 34
67 33 ь, у, ы, е, о, а, и, в Ш е, и, н, а, о, л 68 32
84 16 е, б, а, я, ю Щ е, и, а 97 3
100 м, р, т, с, б, в, н Ы л, х, е, м, и, в, с, н 56 44
100 н, с, т, л Ь н, к, в, п, с, е, о, и 24 76
14 86 с, ы, м, л, д, т,, р, н Э н, т, р, с, к 100
58 42 ь, о, а, и, л, у Ю д, т, щ, ц, н, п 11 89
43 57 о, н, р, л, а, и, с Я в, с, т, п, д, к, м, л 16 84

Пример: Проведем анализ текста следующего содержания

«СОКРАТ из Афин (469–399 до н.э.) – знаменитый античный философ, учитель Платона, воплощенный идеал истинного мудреца в исторической памяти человечества. С именем Сократа связано первое фундаментальное деление истории античной философии на до- и после-Сократовскую («Досократики»), отражающее интерес ранних философов VI–V вв. к натурфилософии, а последующего поколения софистов V в. – к этико-политическим темам, главная из которых – воспитание добродетельного человека и гражданина. Сократу был близок софистическому движению. Учение Сократа было устным; все свободное время он проводил в беседах с приезжими софистами и местными гражданами, политиками и обывателями, друзьями и незнакомыми на темы, ставшими традиционными для софистической практики: что есть добро и что – зло, что прекрасно, а что безобразно, что добродетель и что порок, можно ли научиться быть хорошим и как приобретается знание. Об этих беседах мы знаем в основном благодаря ученикам Сократа – Ксенофонту и Платону. Кроме их сочинений, имеются также фрагменты и свидетельства о содержании «сократических диалогов» других сократиков, пародийное изображение Сократа в комедии Аристофана Облака и ряд замечаний о Сократе у Аристотеля. Проблема достоверности изображения личности Сократа в сохранившихся произведениях – ключевой вопрос всех исследований о нем.»

Электронная версия издания:
О. Н. Ляшевская, С. А. Шаров, Частотный словарь современного русского языка (на материалах Национального корпуса русского языка). М.: Азбуковник, 2009.

Частотность букв русского алфавита

Буква Абс. частота Ранг
1 а 40487008 3
2 б 8051767 21
3 в 22930719 9
4 г 8564640 19
5 д 15052118 13
6 е 42691213 2
7 ё 184928 33
8 ж 4746916 25
9 з 8329904 20
10 и 37153142 4
11 й 6106262 23
12 к 17653469 11
13 л 22230174 10
14 м 16203060 12
15 н 33838881 5
16 о 55414481 1
17 п 14201572 14
18 р 23916825 8
19 с 27627040 7
20 т 31620970 6
21 у 13245712 15
22 ф 1335747 31
23 х 4904176 24
24 ц 2438807 28
25 ч 7300193 22
26 ш 3678738 26
27 щ 1822476 29
28 ъ 185452 32
29 ы 9595941 17
30 ь 8784613 18
31 э 1610107 30
32 ю 3220715 27
33 я 10139085 16

Сайт создан при финансовой поддержке Федерального агентства по образованию в рамках Федеральной целевой программы «Русский язык» (Госконтракт П66).

Источник

‍ Статистика языка

Александр Чедович Пиперски

Раз­ви­тие компью­те­ров при­вело к созда­нию больших собра­ний оциф­ро­ван­ных тек­стов на раз­ных язы­ках — так назы­ва­емых линг­ви­сти­че­ских корпу­сов. Эти корпуса можно обра­ба­ты­вать мето­дами матема­ти­че­ской ста­ти­стики. Матема­ти­че­ские модели, порой неожи­данно про­стые, но эффек­тив­ные, поз­во­ляют компью­тер­ным линг­ви­стам пред­ложить чело­ве­че­ству и кон­крет­ному поль­зо­ва­телю реше­ние задач, свя­зан­ных с авто­ма­ти­че­ской обра­бот­кой есте­ствен­ного языка: рас­по­зна­ва­ние речи, опре­де­ле­ние языка тек­ста и машин­ный пере­вод, клас­сифи­кация тек­стов по темам, извле­че­ние зна­ний из тек­ста, выде­ле­ние клю­че­вых слов, ана­лиз тональ­но­сти тек­ста (т. е. выяс­не­ние, содержится ли в нём положи­тель­ная или отрица­тель­ная оценка), обна­руже­ние спама, созда­ние чат-ботов и т. д.

Рас­смот­рим две задачи — авто­ма­ти­че­ское опре­де­ле­ние языка тек­ста и исправ­ле­ние опе­ча­ток, хорошие реше­ния кото­рых осно­ваны на ана­лизе частот­но­сти отдель­ных букв и слов, а также их соче­та­ний в реаль­ных текстах. Уди­ви­тельно, но такой под­ход поз­во­ляет решать эти задачи, не обла­дая зна­ни­ями ни о грамма­ти­че­ских пра­ви­лах язы­ков, ни о смыс­лах ана­ли­зи­ру­емых тек­стов.

Опре­де­ле­ние языка тек­ста. Предпо­ложим, что компью­тер полу­чил зада­ние опре­де­лить, на каком языке напи­сан такой текст:

Эта болгар­ская фраза озна­чает «При том, что матема­тика — строгая наука, она имеет и эсте­ти­че­скую сто­рону». Компью­тер не вла­деет язы­ками, но у него есть спи­сок язы­ков, к одному из кото­рых надо отне­сти этот текст. Будем счи­тать, что круг кан­ди­да­тов не слиш­ком широк: английский, бело­рус­ский, болгар­ский, немец­кий, рус­ский, укра­ин­ский, фран­цуз­ский языки.

Самая про­стая идея, кото­рая при­хо­дит в голову, — опре­де­лять язык по алфа­виту. В нашем слу­чае это кирил­лица, поэтому сразу можно отбро­сить английский, немец­кий и фран­цуз­ский языки. Но этот метод не решит задачу пол­но­стью, напри­мер, он плохо справ­ля­ется с рус­ским и болгар­ским язы­ками: болгар­ский алфа­вит — часть рус­ского (в болгар­ском нет букв Ё, Ы, Э), так что любой болгар­ский текст можно при­нять за рус­ский. Соот­ноше­ние рус­ского и укра­ин­ского алфа­ви­тов слож­нее, ни один не явля­ется частью другого: в укра­ин­ском нет буквы Ъ, зато есть буквы для обо­зна­че­ния глас­ных зву­ков Є, І, Ї и соглас­ного Ґ. Но все буквы дан­ной фразы в нём при­сут­ствуют. В бело­рус­ском нет И (вме­сто неё исполь­зу­ется буква І), поэтому он не под­хо­дит. Итак, алфа­вит­ный под­ход с зада­чей не справ­ля­ется: оста­лось три языка-кан­ди­дата.

Нали­чие линг­ви­сти­че­ских корпу­сов поз­во­ляет ана­ли­зи­ро­вать языки, нахо­дить харак­те­ри­стики, кото­рые их раз­ли­чают. В част­но­сти, «паспор­том» языка может служить набор частот, с кото­рыми в сред­нем встре­чаются буквы в этом языке.

На частот­ность букв обра­тили внима­ние ещё в докомпью­тер­ную эпоху. Напри­мер, в телеграф­ной азбуке Морзе, воз­никшей в пер­вой поло­вине XIX века, наи­бо­лее часто исполь­зу­емым бук­вам ста­вили в соот­вет­ствие более корот­кие соче­та­ния точек и тире. Так, самые частые в английском языке буквы E и T коди­руются одно­сим­вольно — точ­кой и тире соот­вет­ственно. Эти буквы можно встре­тить и в начале верх­него ряда стан­дарт­ной английской рас­кладки кла­ви­а­туры, уна­сле­до­ван­ной от пишущих маши­нок, — QWERTY. А в немец­кой рас­кладке при­выч­ный глазу ряд заме­нён на QWERTZ — буква Y в немец­ком языке встре­ча­ется суще­ственно реже, чем Z, и сослана на перифе­рию. Ещё один при­мер: в крип­тографии про­стые шифры на основе замены букв утра­тили зна­че­ние после того, как были изу­чены частот­ные харак­те­ри­стики язы­ков. Есте­ственно, в XIX веке под­счёты частот­но­сти выпол­ня­лись вруч­ную. Теперь же, с появ­ле­нием линг­ви­сти­че­ских корпу­сов, частоты букв или слов можно посчи­тать на компью­тере, при­чём эти дан­ные будут более точ­ными, объек­тив­ными.

Если усло­виться, что рус­ский алфа­вит состоит из 33 букв и про­бела, то окажется, что самый частый сим­вол — это про­бел (14,46%), дальше сле­дуют глас­ные О (9,42%), Е (7,33%), И (6,72%), А (6,52%) и соглас­ные Н (5,83%), Т (5,56%). А реже всего встре­чаются буквы Ф (0,27%), Ъ (0,03%) и Ё (0,01%). Конечно, в каж­дом кон­крет­ном тек­сте частоты могут отли­чаться от при­ве­дён­ных, но эти откло­не­ния будут несуще­ствен­ными.

А вот в болгар­ском языке частоты букв будут другими. Пер­выми после про­бела идут те же четыре глас­ные, что и в рус­ском, но в обрат­ном порядке: А, И, Е, О. Буква Ъ в рус­ском языке — ред­кость, а в болгар­ском упо­треб­ля­ется в разы чаще: она обо­зна­чает осо­бый глас­ный звук типа крат­кого «а» и встре­ча­ется даже в самом слове българ­ски. Послед­ней по частот­но­сти бук­вой явля­ется Ь. Всё это пока­зы­вает, что частот­ность букв действи­тельно явля­ется инди­ви­ду­аль­ной харак­те­ри­сти­кой языка.

В компью­тер­ном ана­лизе (напри­мер, при опре­де­ле­нии языка) текст — это после­до­ва­тель­ность букв. В про­стейшей модели при­нима­ется, что каж­дая буква в этой после­до­ва­тель­но­сти появ­ля­ется неза­ви­симо от преды­дущих, т. е. текст рас­смат­ри­ва­ется как цепь неза­ви­симых слу­чай­ных событий: «про­чи­тав» несколько букв, чита­тель не знает, что ждёт его дальше. Вслед­ствие неза­ви­симо­сти веро­ят­ность встре­тить дан­ную после­до­ва­тель­ность букв в выбран­ном языке равна про­из­ве­де­нию веро­ят­но­стей (частот) появ­ле­ния букв в этом языке.

Зная частот­но­сти букв для каж­дого из трёх язы­ков-пре­тен­ден­тов, можно найти веро­ят­ность появ­ле­ния всей фразы:

Полу­ча­ется, что веро­ят­ность слу­чай­ного появ­ле­ния этой фразы в болгар­ском языке в 300 раз больше, чем в рус­ском, и в 300,000 раз больше, чем в укра­ин­ском. Если о про­ис­хож­де­нии фразы нет апри­ор­ной информации, то языки-кан­ди­даты счи­таются рав­но­прав­ными. Это поз­во­ляет срав­ни­вать веро­ят­но­сти появ­ле­ния фразы в раз­ных язы­ках, пред­ста­вив их более при­вычно, в процен­тах:

болгар­ский — 99,65%, рус­ский — 0,3497%, укра­ин­ский — 0,0003%.

Сле­до­ва­тельно, выбрав вари­ант с мак­сималь­ной веро­ят­но­стью, в дан­ном при­мере полу­чим пра­виль­ный ответ: фраза напи­сана по-болгар­ски. Любопытно, что такой про­стой алго­ритм неплохо сра­бо­тал даже на тек­сте небольшой длины. Но так бывает не все­гда. Напри­мер, для назва­ния этой книги Матема­ти­че­ская состав­ляющая полу­ча­ется неожи­дан­ный результат:

болгар­ский — 51,55%, рус­ский — 40,75%, укра­ин­ский — 7,7%.

Симпа­тия этого алго­ритма к болгар­скому языку объяс­нима и носит общий харак­тер: в нём меньше букв, чем в рус­ском или укра­ин­ском язы­ках, а зна­чит, частот­ность отдель­ной буквы будет в сред­нем чуть больше. Поэтому большин­ство нестан­дарт­ных тек­стов алго­ритм сочтёт болгар­скими.

Точ­ность опре­де­ле­ния языка тек­ста можно повы­сить, если рас­смат­ри­вать не частоты букв по отдель­но­сти, а частоты ком­би­наций сим­во­лов неко­то­рой длины. Дело в том, что, в отли­чие от при­ме­нён­ной выше про­стейшей модели, буквы в реаль­ном тек­сте не неза­ви­симы: на самом деле каж­дая буква зави­сит от пред­ше­ствующих, по край­ней мере — от преды­дущей. Так, по пра­ви­лам рус­ского языка после Ъ могут идти только буквы Е, Ё, Ю или Я. В болгар­ском после Ъ можно встре­тить и букву Л, при­чём это в 10 раз веро­ят­нее, чем встреча с Е, Ю и Я, вме­сте взя­тыми. А в укра­ин­ском И почти не исполь­зу­ется после про­бела — зна­чит, наша пер­вая фраза со сло­вами има и едва ли может быть укра­ин­ской.

Эту идею ака­демик Андрей Андре­евич Мар­ков (1856—1922) вопло­тил в матема­ти­че­ской модели, кото­рая в его честь полу­чила назва­ние «цепь Мар­кова». Он изу­чил рас­пре­де­ле­ние глас­ных и соглас­ных в после­до­ва­тель­но­сти из 20,000 букв в романе «Евге­ний Онегин» (пер­вая глава и начало вто­рой). Основ­ной вывод гла­сил: «Мы видим, что веро­ят­ность букве быть глас­ной зна­чи­тельно изме­ня­ется, в зави­симо­сти от того, пред­ше­ствует ей глас­ная или соглас­ная». Под­счёты А. А. Мар­кова пока­зали, что общая доля глас­ных — 43,2%, но веро­ят­ность встре­тить глас­ную после глас­ной уменьша­ется до 12,8%, а после соглас­ной — воз­рас­тает до 66,3%.

Полу­ча­ется, что в реаль­ном тек­сте имеем дело не с веро­ят­но­стями неза­ви­симых слу­чай­ных событий, а с услов­ными веро­ят­но­стями после­до­ва­тельно про­ис­хо­дящих событий. В мар­ков­ской модели будущее зави­сит от насто­ящего, а вот прошлое можно не ана­ли­зи­ро­вать: его вли­я­ние заложено в насто­ящем. Житейский при­мер: пред­ска­зы­вая погоду на зав­тра, можно ори­ен­ти­ро­ваться на сего­дняш­нюю. Зим­няя гроза — ред­кое явле­ние, так что если сегодня гроза, то зав­траш­ний день может ока­заться и сол­неч­ным, и дожд­ли­вым, но вряд ли выпа­дет снег. С дру­гой сто­роны, если сегодня идёт снег, то уви­деть зав­тра грозу — мало­ве­ро­ятно.

Мар­ков­ские цепи как матема­ти­че­ский инструмент можно исполь­зо­вать для ана­лиза рас­пре­де­ле­ния не только глас­ных и соглас­ных в дан­ном языке, но и для всех пар букв алфа­вита. Зави­симость буквы от пред­ше­ствующей заме­тить несложно. Напри­мер, в рус­ском языке среди пар, начи­нающихся с буквы З, наи­бо­лее веро­ятны соче­та­ния ЗА (29,67%), ЗН (10,18%), З⎵ (про­бел после З; 8,36%), а после буквы А те же сим­волы А, Н, ⎵ дают совсем другие результаты: АА (0,03%), АН (9,56%), А⎵ (20,36%).

Для реше­ния задачи опре­де­ле­ния языка тек­ста можно срав­ни­вать частот­ные харак­те­ри­стики пар из оди­на­ко­вых сим­во­лов в раз­ных язы­ках. Напри­мер, тройки лиде­ров среди пар, начи­нающихся с буквы З: в рус­ских текстах — ЗА, ЗН, З⎵; в укра­ин­ских — ЗА, З⎵, ЗН; в болгар­ских — ЗА, ЗИ, ЗВ.

Зная частоты все­возмож­ных пар, можно в каж­дом из язы­ков-кан­ди­да­тов найти веро­ят­ность в мар­ков­ской модели сло­во­со­че­та­ния Матема­ти­че­ская состав­ляющая, кото­рое рас­смат­ри­ва­ется как после­до­ва­тель­ность пар: ⎵ М (буква М явля­ется нача­лом слова), МА, АТ, ТЕ, ЕМ и т. д. Веро­ят­ность всего сло­во­со­че­та­ния нахо­дится как про­из­ве­де­ние веро­ят­но­стей этих пар. Результаты (округ­лён­ные) дают ответ на вопрос, где могла появиться такая книга:

болгар­ский — 0,06%, рус­ский — 99,94%, укра­ин­ский — 0,00003%.

А для фразы, с кото­рой начался разго­вор (При все че матема­ти­ката…), степень уве­рен­но­сти у мар­ков­ской модели почти абсо­лют­ная: веро­ят­ность, что фраза напи­сана по‐­болгар­ски, равна 99,99991%!

Частот­ность после­до­ва­тель­но­стей из двух (а лучше даже трёх) букв — очень точ­ная харак­те­ри­стика языка. При­ве­дён­ный метод — основа всех при­ме­ня­емых опре­де­ли­те­лей языка, самый извест­ный — модуль в Google Translate. Полу­ча­ется, что для реше­ния этой линг­ви­сти­че­ской задачи не тре­бу­ется зна­ние язы­ков, рабо­тает чистая ста­ти­стика.

Исправ­ле­ние опе­ча­ток. Тек­сто­вые редак­торы и смарт­фоны решают эту задачу мето­дами, сход­ными с исполь­зо­вавши­мися в задаче опре­де­ле­ния языка. Только теперь срав­ни­ваются частоты не букв, а слов и их после­до­ва­тель­но­стей в выбран­ном языке.

Предпо­ложим, что поль­зо­ва­тель ввёл фразу:

а задача компью­тера — найти и испра­вить в ней опе­чатки. Чело­веку сразу понятно, что опе­чатка допущена в слове руква, а должно быть напи­сано слово рука. Попро­буем научить этому и компью­тер, исполь­зуя гигант­ский линг­ви­сти­че­ский корпус рус­ско­языч­ных тек­стов общей дли­ной 16 мил­ли­ар­дов слов.

На пер­вом этапе отыщем подо­зри­тель­ные слова: такие слова, кото­рые либо отсут­ствуют в корпусе, либо встре­чаются там очень редко, скажем, для опре­де­лён­но­сти — не более 100 раз (при­чи­ной воз­ник­но­ве­ния в корпусе таких слов могут быть опе­чатки). А слова, кото­рые встре­чаются более 100 раз, состав­ляют сло­варь.

Вот све­де­ния о часто­тах наших четырёх слов в корпусе: его — 46,643,493, руква — 50, немного — 3,475,296, болит — 203,993. По при­ня­той дого­во­рён­но­сти алго­ритм решает, что в слове руква допущена опе­чатка.

На вто­ром этапе опре­де­лим набор слов, одно из кото­рых, возможно, хотел вве­сти поль­зо­ва­тель. Оче­видно, что эти слова должны быть похожими, близ­кими в каком-то смысле к слову руква: вряд ли чело­век хотел напе­ча­тать локоть, а полу­чи­лась руква.

Для изме­ре­ния бли­зо­сти слов в линг­ви­стике обычно исполь­зу­ется рас­сто­я­ние Даме­рау —Левен­штейна (назван­ное в честь аме­ри­кан­ского линг­ви­ста и рос­сийского матема­тика). Это рас­сто­я­ние равно минималь­ному числу «шагов», необ­хо­димых для пре­враще­ния одного слова в другое. Такими шагами являются типо­вые, стан­дарт­ные ошибки при наборе тек­ста: замена одной буквы на другую, добав­ле­ние или уда­ле­ние буквы, пере­ста­новка сосед­них букв.

Напри­мер, рас­сто­я­ние между сло­вами собака и кошка равно 3: замена с на к (полу­чится кобака); замена б на ш (кошака); уда­ле­ние пер­вой а (кошка). Есть и дру­гой путь длины 3: собакасоакасошкакошка. Но осуще­ствить пре­враще­ние меньше чем за 3 шага не удастся.

Такое рас­сто­я­ние между сло­вами обла­дает всеми при­выч­ными свойствами рас­сто­я­ния между точ­ками на плос­ко­сти: неот­рица­тель­ность, симмет­рич­ность (рас­сто­я­ние от собака до кошка равно рас­сто­я­нию от кошка до собака), спра­вед­ливо нера­вен­ство тре­уголь­ника (см. ⁠ «Далё­кое близ­кое» ). Теперь можно форма­ли­зо­вать ощуще­ние, что слово руква легко полу­ча­ется из слова рука, но не из слова локоть: рас­сто­я­ние Даме­рау —Левен­штейна от рука до руква равно 1, а от локоть до руква — 5.

Опе­ча­ток в одном слове обычно немного, чаще всего одна. Най­дём в сло­варе все слова, кото­рые отстоят от подо­зри­тель­ного слова руква на рас­сто­я­ние 1. Слов-кан­ди­да­тов не так много: рука (уда­ле­ние в), рукав (пере­ста­новка а и в), буква (замена р на б) и рукава (добав­ле­ние а). На этом можно оста­но­виться и пред­ложить поль­зо­ва­телю спи­сок кан­ди­да­тов — пусть выби­рает сам. Именно так рабо­тает, напри­мер, про­верка орфографии в Microsoft Word.

Но компью­тер может пойти дальше и попро­бо­вать испра­вить опе­чатку, т. е. выбрать самого веро­ят­ного кан­ди­дата и пред­ложить его поль­зо­ва­телю (так поступает Google Docs), а может и сам под­ста­вить его в пред­ложе­ние (так обычно рабо­тают модули в смарт­фо­нах, «помогающие» наби­рать текст). Этот выбор един­ствен­ного кан­ди­дата — сле­дующий этап алго­ритма, кото­рый можно реа­ли­зо­вы­вать по-раз­ному.

Про­стейшее, но неплохо рабо­тающее реше­ние — выбрать самое частот­ное слово. Частоты слов-кан­ди­да­тов в корпусе таковы: рука — 350,883, рукава — 126,817, буква — 107,262, рукав — 66,094. Как видно, в при­мере Его руква немного болит такой авто­ма­ти­че­ский выбор совпа­дает с чело­ве­че­ским.

Здесь напи­сана непра­виль­ная руква и У меня руква порвался

про­стейшее реше­ние — заме­нить руква на рука — будет оши­боч­ным. Чтобы алго­ритм рабо­тал более «разумно», надо каким-то обра­зом учи­ты­вать слова в кон­тек­сте фразы. И здесь на помощь снова при­хо­дят мар­ков­ские цепи.

Восполь­зу­емся идеей, кото­рая при­ме­ня­лась в ана­лизе по бук­вам, и попро­буем пред­ска­зать сле­дующее слово по послед­нему из виден­ных. Напри­мер, слово непра­виль­ная встре­ча­ется в корпусе 50,267 раз; пары непра­виль­ная рукава и непра­виль­ная рукав в корпусе отсут­ствуют, непра­виль­ная рука встре­ча­ется 4 раза, непра­виль­ная буква — 53 раза. На при­мере фразы Здесь напи­сана непра­виль­ная руква видно, что метод выбора самой частот­ной пары сосед­них слов более эффек­тив­ный, чем про­стейший алго­ритм.

Даль­нейшее улучше­ние алго­ритма состоит в том, что учи­ты­ваются и слово, идущее перед подо­зри­тель­ным сло­вом, и слово, идущее после него. Опре­де­ляются частоты обеих пар, най­ден­ные веро­ят­но­сти пере­множаются. На при­мере фразы У меня руква порвался даже без ста­ти­сти­че­ских дан­ных видно, что после срав­не­ния про­из­ве­де­ний веро­ят­но­стей пар выбор наи­большего выгля­дит досто­вер­ным реше­нием:

Полу­ча­ется хорошо рабо­тающее исправ­ле­ние опе­ча­ток.

Разуме­ется, и этот алго­ритм можно и нужно совершен­ство­вать. Во‐пер­вых, веро­ят­но­сти одно­шаго­вых опе­ча­ток отли­чаются: напри­мер, пере­ста­новка сосед­них букв в слове зна­чи­тельно веро­ят­нее, чем замена буквы на уда­лён­ную от неё на кла­ви­а­туре (скажем, заме­нить б на р не так-то про­сто). Во‐в­то­рых, можно встре­титься с пра­виль­ным, имеющим смысл сло­во­со­че­та­нием, кото­рое отсут­ствует в корпусе, и тогда про­из­ве­де­ние веро­ят­но­стей будет равно нулю (при­мер: сло­во­со­че­та­ние> рабо­тающее исправ­ле­ние, кото­рое мы исполь­зо­вали в конце преды­дущего абзаца, в корпусе пока отсут­ствует). В‐тре­тьих, рас­смот­рен­ный вари­ант мар­ков­ской цепи свя­зы­вает слово только с ближайшими сосе­дями, хотя в языке встре­чаются зави­симо­сти и на далё­ких рас­сто­я­ниях. Напри­мер, во фразе Руква у рубашки, кото­рую Вася купил в аэропорту, ока­за­лись слиш­ком корот­кими, выби­рая на замену рукав или рукава, при­дётся опи­раться не на сосед­ние, а на далё­кие слова ока­за­лись и корот­кими. В‐чет­вёр­тых, сде­лав опе­чатки, можно полу­чить фразу со сло­вами из сло­варя, но оши­боч­ную: напри­мер, У меня лукав порвался. Алго­ритм такую фразу ни в чём не запо­до­зрит. Впро­чем, услож­не­ние алго­ритма поз­во­ляет спра­виться с подоб­ными затруд­не­ни­ями.

Компью­тер­ная линг­ви­стика. Линг­ви­сти­че­ские корпуса — фун­дамент компью­тер­ной линг­ви­стики, неис­черпа­емый источ­ник све­де­ний о языке. Их ана­ли­зи­руют и про­фес­си­о­налы — линг­ви­сты и компью­тер­ные спе­ци­а­ли­сты, и начи­нающие иссле­до­ва­тели. Даже школь­ник может само­сто­я­тельно напи­сать программу для поиска и про­верки зако­номер­но­стей в язы­ко­вых мас­си­вах.

Самый извест­ный ресурс для рус­ского языка — это

Понятно, что частота отдель­ных слов и их соче­та­ний суще­ственно зави­сит от набора тек­стов, вклю­чён­ных в корпус. У корпуса художе­ствен­ных тек­стов и корпуса тек­стов новост­ных — раз­ный «сло­вар­ный запас». Уни­вер­саль­ного, пра­виль­ного корпуса для языка не суще­ствует, но надо научиться даже из отдель­ных, так или иначе «окрашен­ных» корпу­сов извле­кать общие свойства, черты, осо­бен­но­сти дан­ного языка. Это жела­ние вызы­вает в памяти вос­клица­ние осно­ва­теля пале­он­то­логии Жоржа Кювье: «Дайте мне одну кость, и я вос­ста­новлю живот­ное!». По сути — это те задачи, из кото­рых и роди­лась матема­ти­че­ская ста­ти­стика: как полу­чить пред­став­ле­ние о нена­блю­да­емом целом по неко­то­рой выборке. И для их реше­ния были созданы методы, более про­дви­ну­тые, чем про­стой под­счёт частот.

Один из при­ёмов — усред­не­ние, согла­со­ва­ние зна­че­ний частот по раз­ным фраг­мен­там корпуса, чтобы уменьшить вли­я­ние отдель­ных тек­стов. Напри­мер, частот­ность слова якорь в текстах НКРЯ, рас­пре­де­лён­ных по деся­ти­ле­тиям, с 1970 года до наших дней, выгля­дит странно: 1970‐е — встре­ча­ется 160 раз на мил­лион; 1980‐е — 6,8; 1990‐е — 8,4; 2000‐е — 6,6; 2010‐е — 6,7. При­чина ано­ма­лии — вклю­чён­ная в НКРЯ «Книга о яко­рях», издан­ная в 1973 году. В ней одной слово якорь встре­ча­ется 1769 раз, а во всём корпусе — только 2896. Полу­чен­ная про­стым под­счё­том частот­ность слова якорь по всему мас­сиву — 21,9 на мил­лион — явно завышен­ная. Но если упо­ря­до­чить зна­че­ния частот по деся­ти­ле­тиям и взять число из сере­дины списка (меди­ану), то полу­чится более реаль­ный результат: 6,8 на мил­лион. Можно учи­ты­вать и диспер­сию, т. е. оце­ни­вать раз­бро­сан­ность зна­че­ний: как часто и на сколько они откло­няются от сред­него зна­че­ния. Такой метод при­ме­нял ещё А. А. Мар­ков, рабо­тая с тек­стом «Евге­ния Онегина»: он про­ве­рял устой­чи­вость, неза­ви­симость своих результа­тов от спо­со­бов под­счёта. Более слож­ные методы исполь­зуются для пред­ска­за­ния «насто­ящих», истин­ных частот соче­та­ний слов: надо уметь отли­чать те, что в корпусе не встре­ти­лись, но в принципе вполне возможны, от тех, что не встре­ти­лись, потому что прак­ти­че­ски невозможны.

В заклю­че­ние отме­тим, что авто­ма­ти­че­ская обра­ботка языка начала активно раз­ви­ваться в 1950‐е годы. В част­но­сти, пер­вое время машин­ный пере­вод осно­вы­вался на создан­ных вруч­ную пра­ви­лах, предпи­сы­вавших, как именно пере­во­дить то или иное сло­во­со­че­та­ние при опре­де­лён­ных усло­виях. Постепенно выяс­ни­лось, что сочи­не­ние пра­вил тре­бует огром­ных затрат чело­ве­че­ского труда, а рабо­тают они всё равно плохо.

Поэтому в конце 1980‐х годов на пер­вый план в авто­ма­ти­че­ской обра­ботке есте­ствен­ного языка вышел ста­ти­сти­че­ский под­ход: посмот­рим, как похожие задачи реша­лись до нас чело­ве­ком, и най­дём реше­ние, ком­би­ни­руя его из гото­вых частей. Это стало возмож­ным после появ­ле­ния линг­ви­сти­че­ских корпу­сов. Методы, рас­смот­рен­ные нами на при­ме­рах, пре­жде всего частот­ность букв, слов и соче­та­ний, стали осно­вой реше­ния задач компью­тер­ной линг­ви­стики, пере­чис­лен­ных в начале ста­тьи. Инте­ресно, но време­нами созда­ётся впе­чат­ле­ние, что алго­ритмы и программы, осно­ван­ные на ста­ти­сти­че­ском под­ходе, в какой‐то мере осво­или язык.

Напри­мер, эффек­тив­ность при­ме­не­ния мар­ков­ских цепей неявно свя­зана с грамма­ти­кой и струк­ту­рой языка. В при­мере со сло­во­со­че­та­нием Матема­ти­че­ская состав­ляющая при выборе одного из трёх язы­ков помогла, в част­но­сти, высо­кая частот­ность соче­та­ния ая в рус­ском языке. Дело в том, что в рус­ском языке в жен­ском роде встре­ча­ется окон­ча­ние ‐ая, при­чём часто, а в болгар­ском и укра­ин­ском в такой форме было бы про­сто ‐а.

В XXI веке матема­тика пред­ложила новые под­ходы к авто­ма­ти­че­ской обра­ботке языка. Бур­ное раз­ви­тие искус­ствен­ных нейрон­ных сетей, обу­ча­емых на огром­ных мас­си­вах вход­ных дан­ных, дало возмож­ность решать самые раз­ные задачи компью­тер­ной линг­ви­стики. А принципы работы нейрон­ных сетей ещё больше при­ближают компью­тер к тому, что можно назвать понима­нием есте­ствен­ных язы­ков. На дан­ном этапе компью­тер­ная линг­ви­стика всё больше пре­враща­ется в одну из раз­но­вид­но­стей машин­ного обу­че­ния. Но если мы хотим разо­браться с тем, что же про­ис­хо­дит при обра­ботке тек­стов искус­ствен­ными нейрон­ными сетями, нужен именно линг­ви­сти­че­ский взгляд. Линг­ви­стика как наука необ­хо­дима и для более пол­ного исполь­зо­ва­ния возмож­но­стей уже суще­ствующих инструмен­тов, и для постро­е­ния новых матема­ти­че­ских моде­лей.

Источник

Алфавиты популярных языков мира

Алфавиты и системы письма самых известных и распространенных языков мира

Алфавит

Алфавит (др.-греч. ἀλφάβητος), — форма письменности, основанная на стандартном наборе знаков.

В алфавите отдельные знаки — буквы — обозначают фонемы языка, хотя однозначное соответствие звук ↔ буква наблюдается редко и имеет обыкновение утрачиваться в процессе развития устного языка.

Алфавит отличается от пиктографического (идеографического) письма, где знаки обозначают понятия (шумерская клинопись), и от морфемного и логографического письма, где знаки обозначают отдельные морфемы (китайское письмо) или слова.

Выделяются следующие разновидности алфавитов:

Использование знаков для отдельных фонем ведёт к значительному упрощению письма в результате сокращения количества используемых знаков. Также, порядок букв в алфавите является основой алфавитной сортировки.

Относительная сложность фонетических систем различных языков обуславливает наличие алфавитов неодинакового размера. Согласно Книге рекордов Гиннесса, больше всего букв — 74 — содержится в алфавите кхмерского языка, наименьшее — 12 (a, e, g, i, k, o, p, r, s, t, u, v) — в алфавите языка ротокас острова Бугенвиль (Папуа Новая Гвинея).

Самой древней буквой алфавита является буква «о», которая осталась неизменной в том же виде, в каком она была принята в финикийском алфавите (около 1300 года до н. э.). (Эта буква там обозначала согласный звук, но современная «о» произошла от неё).

Популярные алфавиты

Для каждого языка есть свой алфавит: английский, русский, китайский, испанский, немецкий, итальянский и другие. Английский язык принято считать международным, его изучают в учебных заведениях, его используют на международных конференциях, на нём ведут переговоры, он часто установлен по умолчанию в компьютерных программах и информационных системах.

Большая часть языков является ответвлением латинского языка, потому в областях науки и медицины бесспорным лидером является латынь.

Латинский алфавит также называют латиницей, латинский язык — латынью. Под фразой «писать на кириллице» понимается написание с использованием русских букв, под фразой «писать на латинице» в общем случае понимается написание с использованием английских букв.

Греческий

начало VIII века до н.э.

Латинский

около VII века до н.э.

ханаанейское письмо, финикийское письмо, греческий алфавит, этрусский алфавит

Английский

англо-саксонские руны, латинский алфавит

Русский

кириллица старославянского языка, произошедшая от греческого алфавита

Арабский

Фонетический алфавит

Фонетический алфавит — стандартизированный (для данного языка и/или организации) способ прочтения букв алфавита.
Применяется в радиосвязи при передаче написания сложных для восприятия на слух слов, сокращений, позывных, адресов электронной почты и тому подобное с целью уменьшения количества ошибок.

Международный фонетический алфавит

Международный фонетический алфавит (сокр. МФА, англ. International Phonetic Alphabet, сокр. IPA; фр. Alphabet phonétique international, сокр. API) — система знаков для записи транскрипции на основе латинского алфавита. Разработан и поддерживается Международной фонетической ассоциацией].
МФА используется преподавателями иностранных языков и студентами, лингвистами, логопедами, певцами, актёрами, лексикографами и переводчиками.
МФА разработан для отображения только тех качеств речи, которые являются различительными в устной речи: фонемы, интонация, разделение слов и слогов. Для передачи дополнительных особенностей речи (скрипа зубов, шепелявости, звуков, вызванных расщеплением нёба) используется дополнительный набор символов — расширения МФА.

Транскрипционный алфавит редактируется и модифицируется Международной фонетической ассоциацией. По состоянию на 2005 год МФА включает 107 символов-букв, 52 символа — диакритических знака и 4 символа — знака просодии.

Существует международный алфавит, разработанный в 1956-м году ИКАО. Это фонетический алфавит, принятый к использованию большинством международных организаций, в том числе и НАТО.
Основой для его создания послужил английский язык. Алфавит включает в себя буквы и цифры с фиксированным звучанием.

По сути, международный алфавит является набором звуковых сигналов. Алфавит применяется для радиопереговоров, передачи цифровых кодов, военных сигналов и идентификационных имён. Алфавит известен также как радио алфавит.

Технические алфавиты

Разработаны алфавиты (азбуки) технического характера, кодирующие буквы алфавитов в символы и обозначения. Они используются для обмена информации в средах, где написание или озвучивание обычных букв невозможны. Наиболее популярные азбуки:

Самые распространённые алфавиты мира

Самыми распространёнными системами письма являются: латинский алфавит, кириллица, арабское письмо и китайское.
Латинский алфавит используют в Европе (кроме некоторой части Балкан и части Восточной Европы), полностью в Северной и Южной Америках, в Африке (южнее Сахары), в странах Юго-Восточной Азии и Австралии.
Кириллица распространена во многих странах бывшего СССР, а также в Балканских странах и Монголии.
Япония, Корея, Малайзия, Сингапур и КНР используют в разных вариациях китайские иероглифы.
Арабская письменность распространена преимущественно в Северной Африке и Ближнем Востоке.

Словари древних языков

Греческий алфавит развился на основе финикийского и не связан с ранними греческими системами письма — линейным письмом Б и кипрским письмом.
Сохранились около 55 000 древних и средневековых греческих рукописей.

Каждая из букв финикийского алфавита называлась словом, начинавшимся с той же буквы; таким образом, первая буква носила название алеф («бык»), вторая буква — бет («дом»), третья буква — гимель («верблюд») и т. д.
Когда буквы были использованы для записи греческого языка, названия букв были лишь немного изменены для соответствия греческой фонологии. Так, алеф, бет, гимель стали альфа, бета, гамма, потеряв при этом всякий смысл. Позднее, когда некоторые буквы были добавлены в алфавит либо изменены, они получили осмысленные названия. К примеру, омикрон и омега значат, соответственно, «маленькое о» и «большое о».

Греческий алфавит послужил основой, на которой развилось множество алфавитов, широко распространившихся в Европе и на Ближнем Востоке и используемых в системах письменности большинства стран мира, в том числе латинский алфавит и кириллица.

Помимо использования для записи греческого языка, буквы греческого алфавита используются как международные знаки в математике и других науках; для наименования элементарных частиц, звёзд и других объектов.

Греческая письменность использовалась в некоторых языках Ближнего Востока, Причерноморья и близких областей — например, для записи бактрийского языка в Кушанском царстве и урумского (тюрко-ромейского) языка, относящегося к кыпчакско-половецкой подгруппе тюркской семьи языков, в тюрко-греческом языке Эпира и в караманлидском языке. Наряду с кириллицей и другими алфавитами, ранее использовался в славянских диалектах Греции и смежных земель; в гагаузском языке, арумынском языке.

Буквы греческого алфавита

Β β ϐ

Ε ε ϵ

Θ θ ϴ ϑ

Κ κ ϰ

Π π ϖ

Ρ ρ ϱ

Σ σ ς

Υ ϒ υ

Φ φ ϕ

Латинский алфавит

Латинский алфавит (латиница) — восходящая к греческому алфавиту буквенная письменность, возникшая в латинском языке в середине I тысячелетия до н. э. и впоследствии распространившаяся по всему миру.

Современный латинский алфавит, являющийся основой письменности большинства романских, германских, а также множества других языков, в своём базовом варианте состоит из 26 букв.
Буквы в разных языках называются по-разному.

Письменность на основе латинского алфавита используют все языки романской (кроме молдавского языка в ПМР и, в некоторых странах, сефардского языка), германской (кроме идиша), кельтской и балтийской групп, а также некоторые языки славянской, финно-угорской, тюркской, семитской и иранской групп, албанский, баскский языки, а также некоторые языки Индокитая (вьетнамский язык), Мьянмы, большинство языков Зондского архипелага и Филиппин, Африки (южнее Сахары), Америки, Австралии и Океании, а также искусственные языки (например, эсперанто).

Латинский алфавит начал формироваться предположительно в VIII веке до н. э. Древнейшие обнаруженные надписи датируются приблизительно VII веком до н. э. Согласно В. Истрину, ранние надписи носят переходный характер от западногреческого и этрусского к латинскому письму. Классический латинский алфавит окончательно сложился около I века до н. э. Направление письма в архаичных надписях могло быть как слева направо, так и справа налево. Засвидетельствованы также надписи бустрофедоном.

Существуют две гипотезы происхождения латинского алфавита. По одной гипотезе, латинский язык заимствовал алфавитное письмо из греческого напрямую, по другой — своеобразным посредником в этом оказался этрусский алфавит. В том и в другом случае основой латинского алфавита является западногреческий (южноиталийский) вариант греческого алфавита. Латинский алфавит обособился примерно в VII веке до н. э. и первоначально включал только 21 букву: A, B, C, D, E, F, Z, H, I, K, L, M, N, O, P, Q, R, S, T, V и X.

Архаичный латинский алфавит

В архаичном латинском алфавите буквы C (восходящая к архаичному наклонному начертанию греческой гаммы Γ), K (от греческой каппы Κ) и Q (от впоследствии исключённой из греческого алфавита буквы коппа Ϙ) использовались для обозначения звуков [k] и [g]; при этом K ставилась перед A; буква Q (иногда) ставилась перед V и O; а C ставилась всюду.

Классический латинский алфавит

Буква

Буква

Буква

Уже в новое время, около XVI века произошла дифференциация слоговых и неслоговых вариантов букв I и V (I/J и U/V). В итоге получился современный алфавит из 25 букв:
Aa Bb Cc Dd Ee Ff Gg Hh Ii Jj Kk Ll Mm Nn Oo Pp Qq Rr Ss Tt Uu Vv Xx Yy Zz

Примерно в то же время, но только в северной Европе стал считаться отдельной буквой диграф VV, возникший в XI веке и использующийся в письме германских языков. С добавлением W алфавит достиг своего окончательного состава из 26 букв:
Aa Bb Cc Dd Ee Ff Gg Hh Ii Jj Kk Ll Mm Nn Oo Pp Qq Rr Ss Tt Uu Vv Ww Xx Yy Zz

Этот стандартный 26-буквенный алфавит зафиксирован Международной организацией по стандартизации (ISO) как «базовый латинский алфавит». Этот алфавит совпадает с современным английским алфавитом.

Однако, когда говорят об алфавите собственно латинского языка, а также романских языков, то W чаще всего не включают в состав букв (тогда латинский алфавит состоит из 25 букв).

В средние века в скандинавских и английском алфавитах использовалась руническая буква þ (название: thorn) для звука [θ] (как в современном английском thing), однако позднее она вышла из употребления. В настоящее время thorn используется только в исландском алфавите.

Все прочие добавочные знаки современных алфавитов, основанных на латинском, происходят от указанных выше 26 букв с добавлением диакритических знаков или в виде лигатур (так, немецкая буква ß, эсцет, происходит из готической лигатуры букв S и Z).

Современный латинский алфавит

классическое
русское
название буквы

латинское
название буквы

французское
название буквы

итальянское
название буквы

английское
название буквы

немецкое
название буквы

(doppia vu/доппья ву)

ī Graeca/и грайка
(igrec/игрек)

(i greca/и грека
либо ipsilon/ипсилон)

1. буквы j, k, w, x и y в итальянском языке используются в лишь некоторых иностранных именах собственных (Jaroslavl (Ярославль), Kennedy (Кеннеди), Texas (Техас) и т. п.) и заимствованных словах (итал. water — унитаз), но в алфавит не включены, и поэтому их названия приведены в скобках. В латинском языке же буква «w» используется в лишь некоторых иностранных именах собственных и научных названиях, но в алфавит не включена, и поэтому её название приведено в скобках. А буквы x», «y», «z» там стали называться «икс», «игрек», «зет» сравнительно недавно, поэтому их наиболее известные названия приведены в скобках.

2. В латинском языке же буква «w» используется в лишь некоторых иностранных именах собственных и научных названиях, но в алфавит не включена, и поэтому её название приведено в скобках.

3. А буквы x», «y», «z» там стали называтся «икс», «игрек», «зет» сравнительно недавно, поэтому их наиболее известные названия приведены в скобках.

Латинский алфавит как международный

В настоящее время латинский алфавит знаком почти всем умеющим читать людям Земли, поскольку изучается всеми школьниками либо на уроках математики, либо на уроках иностранного языка (не говоря уже о том, что для многих языков латинский алфавит является родным), поэтому он де-факто является «алфавитом международного общения». На латинском алфавите основано большинство искусственных языков, в частности, эсперанто, интерлингва, идо и другие.

Для всех языков с нелатинской письменностью существуют также системы записи латиницей (романизации) — даже если иностранец и не знает правильного чтения, ему гораздо легче иметь дело со знакомыми латинскими буквами, чем с «китайской грамотой». В ряде стран вспомогательное письмо латиницей стандартизировано и дети изучают его в школе (в Японии, Китае).

Запись латиницей в ряде случаев диктуется техническими трудностями: международные телеграммы всегда писались латиницей; в сети Интернет можно встретить запись русского языка латиницей из-за отсутствия поддержки кириллицы клиентской машиной (см. транслит; то же относится и к греческому языку).

С другой стороны, в текстах на нелатинском алфавите иностранные названия нередко оставляют латиницей из-за отсутствия общепринятого и легко узнаваемого написания в своей системе. Например, иногда в русском тексте японские названия пишут латиницей, хотя для японского языка существуют общепринятые правила транслитерации в кириллический алфавит.

Английский алфавит

Алфавит английского языка основан на латинском алфавите и состоит из 26 букв.

6 букв могут обозначать гласные звуки (монофтонги и дифтонги, самостоятельно или в составе диграфов): «A», «E», «I», «O», «U», «Y».
21 буква может обозначать согласные звуки: «B», «C», «D», «F», «G», «H», «J», «K», «L», «M», «N», «P», «Q», «R», «S», «T», «V», «W», «X», «Y», «Z».

Буква «Y» может обозначать как согласный, так и гласный звуки.
Буква «W» самостоятельно означает согласный звук, но используется и в составе диграфов, обозначающих гласные звуки. В британском произношении (англ. received pronunciation) то же верно и для буквы «R».

Буквы современного английского алфавита

Произношение
названия буквы (МФА)

Русская запись
названия буквы

haitch [heɪtʃ] в Ирландии
и часто в Австралии

[ɑr] в североамериканском
произношении
или в позиции перед гласным

Пишется es- в сочетаниях
типа es-hook

zee — американский вариант

В английском языке имеются следующие диграфы:

Диакритические знаки

Как только такие слова становятся натурализованными в английском, они обычно теряют диакритические знаки, как это произошло со старыми заимствованиями, к примеру, французским словом hôtel. В неформальном английском диакритика часто опускается в силу отсутствия букв с ней на клавиатуре, в то время как профессиональные копирайтеры и наборщики предпочитают её использовать. Те слова, что ещё воспринимаются как чужие, часто сохраняют диакритику. К примеру, единственное написание слова soupçon, найденное в английских словарях (Оксфордском и других) использует диакритический знак. Диакритические знаки чаще сохраняются тогда, когда при их отсутствии возможна путаница с другим словом (к примеру, résumé (или resumé [резюме] «резюме (для приема на работу)», а не resume [ризьюм] «возобновить») и, редко, даже добавляются (как в maté, от испанского yerba mate, но следуя примеру написания слова café, из французского).
Акут, гравис или диерезис могут быть поставлены над «e» в конце слова для обозначения того, что она произносится (saké).
В целом, диакритические знаки часто не используются даже в тех местах, где они могли бы позволить избежать путаницы.

Частота букв

Самой часто встречаемой буквой в английском языке является «E», самой редкой — «Z».

Список частот букв, используемых в английском языке

Буква

Русский алфавит

Русский алфавит (русская азбука) — алфавит русского языка, в нынешнем виде — с 33 буквами — существующий с 1918 года (буква Ё официально утверждена лишь с 1942 года: ранее считалось, что в русском алфавите 32 буквы, поскольку Е и Ё рассматривались как варианты одной и той же буквы).

В таблице приведены названия букв в соответствии с орфографией соответствующего времени.

начало XIX века

к 1860 году

1934 год

к 1940 году

к 1987 году

2006 год

Немецкий алфавит

Немецкий алфавит — алфавит на латинской основе, применяемый в письме на немецком языке.

Состоит из 26 пар латинских букв: A a, B b, C c, D d, E e, F f, G g, H h, I i, J j, K k, L l, M m, N n, O o, P p, Q q, R r, S s, T t, U u, V v, W w, X x, Y y, Z z. Помимо них, в немецком алфавите присутствуют три умляута (Ä ä, Ö ö, Ü ü) и лигатура ß. Последние подчиняются алфавитному порядку, то есть в словарях следуют сразу после A a, O o, U u и удвоенной ss, соответственно. В отдельных случаях применяются дополнительные варианты букв, но это характерно лишь для некоторых диалектов и, в частности, для слов иностранного происхождения, использующихся в немецком языке.

Ниже представлена таблица, в которой даны основные правила чтения и диктовки немецких букв.

Диктовка по DIN 5009
(немецкий телефонный алфавит)

Band, Tag

После i и j слышится как jaMaria; ai — дифтонг /aɪ̯/ («ай»); ae — слышится ä; au — дифтонг /aʊ̯/; удвоенное aa может читаться долго — Haar («волосы»).

Hände, Ähre

Перед u — дифтонг /ɔʏ̯/ (оу).

Встречается в сочетании с другими буквами: с h образует буквосочетание ch, слышимое как /x/ или /ç/; ck — /k/; в chs — /ks/; sch/щ/ tsch — /ч/; редко одна c слышится как /t͡s/ (перед e, i); в начале слов читается как /k/.

ausdenken

kennen, bekannt, See

ie — /i:/, oe — /ø:/; ei, ey, ai, ay — дифтонг /aɪ̯/.

Такой же звук даёт немецкая буква v.

gut, Genie, König

Часто h вообще не читается, например, между гласными и в конце слова — gehen
(разделяет две e, и в этом слове они читаются раздельно, а не как один долгий звук; «ходить»), weh («воспалённый, больной»).

bitten, Vieh

В ie — /i:/; ei, ai — /aɪ̯/.

jung, Journalist

В буквосочетании ck — /k/.

Flöte

Stimme

senden

offen, Kohl

В буквосочетании oe — /ø:/.

Österreich, zwölf, schön

pf — аффриката /p͡f/.

В сочетании qu — /kv/.

Drache

Samuel (до 1934 — Siegfried)

Bus, sehen

В sp и st — /ʃ/; sch — /ʃ/.

heiß

Стоит в середине или конце слова и читается как обычный звук /s/.

Platte

au — /aʊ̯/, eu, äu — /ɔʏ̯/.

Übung, küssen, Überhaupt

Даёт звукосочетание /ks/ — Max.

Ypsilon, Typ, Yacht

Zacharias (до 1934 — Zeppelin)

dreizehn

Первые источники немецкой письменности относятся ещё к древневерхненемецкому периоду развития немецкого языка или даже ранее. Практически до XII века существовала руническая письменность, которая позднее была полностью вытеснена латиницей. В XV—XVI веках популярностью пользовался шрифт швабахер (Schwabacher), входящий в группу готических шрифтов.

Готическим письмом немецкие буквы писались практически до начала XX века — в частности, возникшей в XVII—XVIII вв. фрактурой (Fraktur). С конца XIX века широкое распространение получает антиква, но официально она признаётся только после Ноябрьской революции в 1918 году. Антиква считалась более простым и легко воспринимаемым шрифтом, нежели ломаное готическое письмо. В 1920—30-е годы хождение получил шрифт Зюттерлина (Sütterlinschrift).

В мореплавании используется немецкая версия. Тем не менее, в настоящее время в авиации и военном деле используется международная версия фонетического алфавита, а не немецкая.

Французский алфавит

Во французском алфавите используются 26 пар латинских букв (строчные и прописные) и диакритические знаки.

Французское
название
буквы (МФА)

Французское
название
буквы (МФА)

Буквы с диакритикой

Буквы с диакритикой — это буквы особенного написания, с точками, штрихами, “шапочками” или другими элементами, такие как ù, à, ç, é, è, û, ë, â.

Французские буквы с диакритикой

Буквы с диакритикой (для многих из них варианты с прописной буквой редки или практически невозможны вне заголовков):

Замена букв с диакритикой на буквы без диакритики официально является орфографической ошибкой, но на практике диакритику над прописными буквами по техническим причинам часто опускают. Инициальные аббревиатуры пишутся без диакритики: CEE (Communauté Économique Européenne); графические сокращения её сохраняют: É.-U. (États-Unis).
При сортировке диакритические знаки не учитываются (за исключением слов, которые различаются только ими).

Лигатуры
Лигатуры: Ææ Œœ. Нередко по техническим причинам заменяются на две буквы: ae (или фонетическую запись é), oe.

Испанский алфавит

Испанский алфавит является модифицированным вариантом латинского алфавита, состоящим из 27 букв A, B, C, D, E, F, G, H, I, J, K, L, M, N, Ñ, O, P, Q, R, S, T, U, V, W, X, Y, Z.

Диграфы CH и LL обозначают отдельные звуки и до 1994 года они считались отдельными буквами и располагались в алфавите отдельно от C и L. Над гласными (A, E, I, O и U) может писаться ударение для обозначения ударного слога или иного смысла слова и трема над U для указания на раздельное прочтение.

Испанская орфография развивалась в течение почти 800 лет, начиная с эпохи Альфонса Мудрого, и была стандартизирована под руководством Испанской королевской академии. С момента публикации Орфографии кастильского языка (исп. Ortografía de la lengua castellana) в 1854 году испанская орфография пережила несколько незначительных изменений. Основными принципами испанской орфографии являются фонологический и этимологический, поэтому существует несколько букв, обозначающих одинаковые фонемы. Начиная с XVII века предлагались различные варианты реформы орфографии, которая создала бы однозначное соответствие между графемой и фонемой, но все они были отклонены. Фонетические расхождения между различными диалектами испанского языка делают невозможным создание чисто фонетической орфографии, которая бы адекватно отражала многообразие языка. Большинство современных предложений по реформированию правописания ограничиваются отменой букв-омофонов, которые сохраняются по этимологическим соображениям.

Источник

Читайте также:  Что такое скорость приема и скорость передачи
Автомобильный справочник "Автовестник"