Nice-books.net

Токен за токеном - SeNS Boston

Тут можно читать бесплатно Токен за токеном - SeNS Boston. Жанр: Прочая околокомпьтерная литература / История / Зарубежная образовательная литература год 2004. Так же Вы можете читать полную версию (весь текст) онлайн без регистрации и SMS на сайте Nice-Books.Ru (NiceBooks) или прочесть краткое содержание, предисловие (аннотацию), описание и ознакомиться с отзывами (комментариями) о произведении.
Перейти на страницу:
считать Маркова «отпавшим от Церкви Божией»: той же формулировкой, что одиннадцатью годами раньше была применена к Толстому. История эта разошлась по университетам, и студенты пересказывали её с восхищением.

Вот таким человеком был тот господин, что сидел в январе 1913 года над романом Пушкина и считал буквы.

На столе у него лежал том, открытый на первой странице. Слева, под бронзовой лампой, — тетрадь в линейку, расчерченная в две колонки. Одна была озаглавлена «гласные», другая — «согласные». В правой руке Марков держал перо; левой он медленно вёл по строчке, и каждый раз, дойдя до буквы, делал крошечную засечку — палочку — в соответствующей колонке.

Мой дядя самых честных правил…

М — согласная. О — гласная. Й — согласная. Пробел не считается. Д — согласная. Я — гласная. Д — согласная. Я — гласная.

Так — две тысячи букв. Потом ещё две. Потом ещё. Он собирался дойти до двадцати тысяч; ему казалось, что меньшего объёма не хватит. Иногда, отрываясь, он растирал переносицу и говорил вслух, ни к кому не обращаясь, что-нибудь короткое и решительное. Потом снова склонялся над страницей.

Если бы кто-нибудь — например, ассистент или аспирант, привыкшие к чудачествам академика, — заглянул в этот момент в его кабинет и спросил, зачем он, ради всех святых, занимается такой мучительной, такой бессмысленной работой, Марков, скорее всего, ответил бы коротко и ясно. Он не был человеком, любящим объяснять. Он сказал бы что-нибудь вроде: «Это для Некрасова. Чтобы у господина Некрасова больше не было повода писать глупости».

За Некрасовым стоял многолетний и очень русский спор. Павел Алексеевич Некрасов был ректором Московского университета, математиком и одновременно — глубоко верующим православным человеком, для которого математика являлась чем-то вроде второй теологии. В одной из своих работ он развил такую цепочку. Закон больших чисел, утверждал он, работает только для независимых событий. Подбрасывания монеты независимы — поэтому статистика для них верна. Но человеческие поступки зависимы: вчерашнее настроение определяет сегодняшнее, поступок отца отзывается в сыне, история накладывает свою колею. Значит, к человеческим поступкам закон больших чисел неприменим. Значит, человеческая воля свободна. Значит, существует Бог.

Когда Марков прочёл эту цепочку, он, должно быть, испытал чувство, известное каждому учёному, столкнувшемуся с особенно изящной формой невежества: смесь скуки и негодования. Скука была от того, что в рассуждении Некрасова не было ни одной строки, которую следовало бы опровергать всерьёз; негодование — от того, что вся эта цепочка двигалась под почтенной фамилией ректора крупного университета и, значит, читалась тысячами студентов.

Марков решил опровергнуть Некрасова не словами, а вычислением. Он покажет, что закон больших чисел работает и для зависимых событий тоже — если только эта зависимость устроена определённым образом. И в качестве материала возьмёт что-нибудь подчёркнуто человеческое, заведомо неслучайное, заведомо порождённое волей. Какой-нибудь литературный текст. Лучше всего — общеизвестный.

«Евгений Онегин» подошёл идеально. Его знала наизусть половина гимназистов империи. Никто никогда не упрекнул бы Пушкина в том, что он расставлял буквы случайным образом. Если уж в этом тексте — в самом возвышенном, в самом авторском, в самом сознательном из всех русских текстов — обнаружится статистическая закономерность, то спор с Некрасовым можно будет считать законченным.

Марков взял первые пять глав романа. Двадцать тысяч букв — по тогдашним меркам гигантский объём текста, по нынешним — размером с одну газетную статью. Он разделил все буквы на два класса: гласные и согласные. И посчитал не отдельные частоты, а нечто более тонкое: условные вероятности. С какой частотой за гласной идёт согласная? С какой — снова гласная? А за согласной?

Получилось вот что. Если очередная буква в пушкинском тексте — гласная, то в следующей позиции с вероятностью около 0,87 окажется согласная и только с вероятностью 0,13 — снова гласная. Если же очередная буква согласная, то в следующей позиции с вероятностью около 0,66 окажется гласная и с вероятностью 0,34 — снова согласная. Эти числа были подсчитаны вручную, ночами, при газовой и керосиновой лампах, в тетради в линейку, безо всяких машин.

То, что обнаружил Марков, выглядит сегодня настолько естественным, что трудно почувствовать, насколько оно тогда было нетривиально. Он показал две вещи. Первая: язык — даже самый авторский, самый волевой, самый «свободный» язык — статистически закономерен. Соседние буквы зависят друг от друга, и эту зависимость можно измерить. Вторая, более глубокая: закон больших чисел продолжает работать и в условиях такой зависимости. Если правильно сформулировать математику цепи событий — каждое из которых зависит от предыдущего, — то для долгих цепей все равно справедливы предсказуемые средние. Свобода воли в смысле Некрасова никаким способом не следует из зависимости испытаний.

В этих двух выводах был заключён весь будущий двадцатый век NLP — обработки естественного языка. И весь двадцать первый. Но Марков, разумеется, об этом не знал.

23 января 1913 года, на заседании Физико-математического отделения Императорской академии наук, академик Марков прочёл доклад с длинным и обстоятельным названием: «Пример статистического исследования над текстом „Евгения Онегина“, иллюстрирующий связь испытаний в цепь».

В зале сидели коллеги. Они были вежливы. Они задали несколько корректных вопросов. Никто не сказал, что Марков сделал нечто эпохальное; никто, кажется, не догадывался, что это вообще возможно — сделать в математике что-то эпохальное при помощи Пушкина. Доклад приняли, поблагодарили, перешли к следующему пункту повестки. Стенограмма заседания была опубликована, и на этом, для большинства присутствовавших, история закончилась.

Через десять лет на Западе эту работу обнаружили. В двадцатые годы англо-американские математики начали говорить о «цепях Маркова» — Markov chains. К пятидесятым годам цепи Маркова прочно вошли в учебники теории вероятностей. К семидесятым — в инженерные дисциплины: их использовали в системах массового обслуживания, в физике, в экономике. К концу восьмидесятых — в распознавании речи: скрытые марковские модели (Hidden Markov Models) тридцать лет были лучшим, что человечество умело делать в области превращения звуков в слова. К концу девяностых из этих же моделей выросли первые статистические системы автоматического перевода. В начале двухтысячных n-граммные модели — прямые наследники марковской идеи — научились предсказывать следующее слово в SMS-сообщении на кнопочном телефоне, и десятки миллионов подростков по всему миру полюбили или возненавидели технологию под названием T9.

Цепь Маркова: переходы между состояниями

А ещё через двадцать лет, в больших дата-центрах в Орегоне и Айове, в Калифорнии и Айдахо, нейронные сети с

Перейти на страницу:

SeNS Boston читать все книги автора по порядку

SeNS Boston - все книги автора в одном месте читать по порядку полные версии на сайте онлайн библиотеки Nice-Books.Ru.


Токен за токеном отзывы

Отзывы читателей о книге Токен за токеном, автор: SeNS Boston. Читайте комментарии и мнения людей о произведении.


Уважаемые читатели и просто посетители нашей библиотеки! Просим Вас придерживаться определенных правил при комментировании литературных произведений.

  • 1. Просьба отказаться от дискриминационных высказываний. Мы защищаем право наших читателей свободно выражать свою точку зрения. Вместе с тем мы не терпим агрессии. На сайте запрещено оставлять комментарий, который содержит унизительные высказывания или призывы к насилию по отношению к отдельным лицам или группам людей на основании их расы, этнического происхождения, вероисповедания, недееспособности, пола, возраста, статуса ветерана, касты или сексуальной ориентации.
  • 2. Просьба отказаться от оскорблений, угроз и запугиваний.
  • 3. Просьба отказаться от нецензурной лексики.
  • 4. Просьба вести себя максимально корректно как по отношению к авторам, так и по отношению к другим читателям и их комментариям.

Надеемся на Ваше понимание и благоразумие. С уважением, администратор Nice-Books.


Прокомментировать
Подтвердите что вы не робот:*
Подтвердите что вы не робот:*