Русский язык в словаре Даля и поиске Яндекса |
Сто пятьдесят лет назад был впервые полностью опубликован словарь Даля. Он прославился как словарь именно живого, повседневного языка, на котором говорили в России в середине XIX века. Мы решили посмотреть, насколько сильно с тех пор изменился язык, и сравнили слова из словаря Даля с теми, которые используют люди в поисковых запросах. Словарь Даля не является нормативным — то есть его далеко не всегда можно использовать для ответа на вопросы «как пишется то или иное слово» или «что значит то или иное слово». Зато он представляет собой уникальный справочник по живому разговорному языку XIX века, который можно читать не как словарь, а просто подряд. Поисковые запросы содержат в том числе и разговорную лексику, так что сравнив слова из словаря со словами из запросов, можно увидеть, какие изменения произошли за 150 лет. Количество слов в
словаре Даля обычно оценивается приблизительно — около 200 тысяч. Это те слова,
которые Даль называл «красными», для которых дано толкование. Эти слова
организованы в гнёзда — немногим более 40 тысяч гнёзд и, соответственно,
гнездовых слов. Читать дальше в блоге Яндекса Все словаЗа год Яндекс отвечает
примерно на 70 миллиардов запросов из России. Если по пробелам и специальным
символам разделить эти запросы на словоформы, выбрать только те, которые
состоят из кириллических букв, и автоматически привести их к начальной форме,
получается больше 285 миллионов разных слов. На самом деле далеко не все из них
настоящие русские слова: в поиске люди часто пишут с ошибками — [детский мир
отзовы], [турагенство] — и в неправильной раскладке — [нщгегиу], а иногда
просто вводят непонятные последовательности букв — [аааааааааааааау]. Чтобы сделать этот
огромный список слов чище, мы сравнили его со словами из Национального корпуса русского языка за XX
и XXI века. Пересечений оказалось всего около 750 тысяч. Можно сказать, что это
слова, которые употребляются в современных текстах разных жанров — от
художественной литературы до деловых документов. [ Примечание: Мы не брали подкорпуса, в которых также высока
вероятность встретить ошибки, опечатки и разные странности: бытовые тексты
(дневники, личные письма и т.п.), рекламу и электронную коммуникацию (смс, блоги
и прочее).] .Даль даёт толкование примерно двухсот тысяч слов. Из них почти одна пятая (18%) за год ни разу не встретилась в поисковых запросах к Яндексу. Примерно 38% слов упоминались в запросах, но отсутствовали в корпусе русского языка. В пересечение поиска и корпуса попали 44% слов.
Ушедшие слова18% слов из словаря Даля
можно считать полностью вышедшими из употребления: в течение года люди ничего
не искали с помощью этих слов и даже не спрашивали про их значение. [Примечание: В текстах корпуса русского языка за
XX—XXI века присутствует всего около 700 таких слов (меньше 0,5% словаря Даля).
Эту группу мы в дальнейшем не рассматривали.] Доля глаголов среди этих слов заметно больше, чем в словаре в целом, а доля существительных — меньше. Таким образом, глаголы из словаря Даля устаревают быстрее, чем существительные.
Около 85% ушедших
глаголов содержат приставки. Самая распространённая, по-, встречается в каждом
пятом случае, иногда в комбинации с другими приставками: понасудачить, попринаряжать,
повзопреть. Почти треть существительных оканчивается на -ье или -ие и означает
действие по соответствующему глаголу: вывороченье, избоданье, ловничанье. Много
существительных на -чик, -чица, -ник, -ница и так далее. Часто они обозначают
людей определённых занятий — как правило, эти занятия больше не актуальны или
изменили название: наживотчик, каравайщик, нравописательница. Вообще вышедшие из
употребления слова часто образованы от корней, которые вполне используются и
сейчас: переребячиться, злодейчивый, заволшебствовать, отблинничать, испивочный,
поплеванье — сегодня так не говорят, но можно легко догадаться, что имеется в
виду. Живые и уходящие словаС двумя другими группами
слов всё не так просто. Можно предположить, что та часть словаря Даля, которая
есть и в поисковых запросах, и в текстах из корпуса русского языка (44%), — это
живые слова. А 38%, которые есть в поиске, но отсутствуют в корпусе, —
уходящие: их уже не используют в письменной речи, но иногда ищут в интернете. С
другой стороны, вряд ли можно назвать живым слово, которое есть в письменных
текстах, но встречается в запросах всего несколько раз в год, или слово,
которое вводят в поиск только для того, чтобы узнать значение. Кроме того, часть
словаря могла попасть в поиск и корпус из-за омонимии: пишется так же, но
значит другое. У Даля встречаются такие популярные в интернете слова, как порно,
двач, прикол, клубняк — но совсем в другом значении. Иногда написание слов у
Даля совпадает с распространённой в поиске ошибкой или опечаткой — навинка, кател,
насиление, загатка. Также бывает, что слово ушло из русского языка, но
сохранилось в украинском (ознак, соромиться, метелик), или остались родственные
ему фамилии и названия населённых пунктов (верховец, хопер, пустовар). Чтобы точнее определить,
какая часть словаря Даля до сих пор жива, а какая вышла или выходит из
употребления, мы оценили долю омонимии среди слов, встречавшихся в поисковых
запросах, а также посчитали, сколько слов люди искали с целью узнать, что они
значат. Мы разделили все слова, употреблявшиеся в
поисковых запросах, на несколько групп по частотности (число упоминаний в
поиске за год). Из каждой группы взяли по 150-200 слов и посмотрели, в каких поисковых
запросах и текстах они встречались, а также что Яндекс отвечает на эти запросы. Для некоторых слов
опечатки и ошибки, распространённые в поисковых запросах, совпали с написанием
в словаре. Например, у Даля есть слова коректура и коректор — с одним «р»,
заростать вместо «зарастать»,уровненье вместо «уравнение». Такие слова мы
относили к живым. Неизвестными мы считали слова, о которых спрашивают главным образом для того, чтобы узнать значение. К этой группе относили слова с частотностью 5 и меньше, для которых доля запросов об их значении превышала 25%, слова с частотностью 10 и меньше, для которых доля запросов о значении превышала 50%, и все остальные слова с долей запросов о значении более 75%.
Омонимами оказались
почти треть изученных слов. Больше всего омонимов — почти 60% — среди тех слов,
которые относительно часто, более 1000 раз в течение года, встретились в
поисковых запросах, но при этом отсутствовали в текстах из корпуса. А среди
таких слов с более высокой частотностью (больше 100 тысяч запросов за год) доля
омонимов превысила 80%. Всего около 8,5% слов из
словаря Даля интересуют пользователей в первую очередь в контексте поиска
значения. Из них самые популярные: инсинуация, демагогия, утрировать, моногамия
и импонировать. Большая часть таких слов отсутствует в текстах из корпуса и
мало распространена в запросах. Два с половиной тома словаря ДаляТеперь можно более точно
распределить слова из словаря Даля между тремя главными группами: ушедшими,
уходящими и живыми. К вышедшим из употребления
отнесли слова, которые ни разу не встретились ни в запросах, ни в текстах из
корпуса русского языка, а также те, которые оказались там только из-за омонимии
или по ошибке. К словам, которые уходят
из языка и употребляются сейчас крайне редко, причислили следующие:
Живыми считали все
остальные слова, в том числе мало распространённые специальные термины (поралье,
счаливать, головик) — вне зависимости от их частотности в поисковых запросах. Примерно треть слов из словаря Даля (32%) распространены до сих пор. Ещё чуть меньше 30% — используются, но крайне мало, треть из них — только при поиске значений. Почти 40% слов, или полтора тома всего словаря Даля, полностью вышли из употребления.
| |
04.12.2016 г. | |
Наверх |