Nice-books.net

Токен за токеном - SeNS Boston

Тут можно читать бесплатно Токен за токеном - SeNS Boston. Жанр: Прочая околокомпьтерная литература / История / Зарубежная образовательная литература год 2004. Так же Вы можете читать полную версию (весь текст) онлайн без регистрации и SMS на сайте Nice-Books.Ru (NiceBooks) или прочесть краткое содержание, предисловие (аннотацию), описание и ознакомиться с отзывами (комментариями) о произведении.
Перейти на страницу:
class="p1">Чтобы оценить, насколько это меняло индустриальный ландшафт, нужно осознать одно. До статьи Каплана план обучения большой модели выглядел примерно так. Команда садилась, обсуждала, спорила, выбирала размер интуитивно, исходя из имеющихся ресурсов и веры в подход; начинала обучение; через несколько недель смотрела, что вышло. Если результат не радовал, нужно было что-то менять и пробовать снова. Каждая такая «попытка» обходилась в миллионы долларов и месяцы времени.

После статьи Каплана план обучения большой модели выглядел иначе. Команда садилась, открывала графики со степенными зависимостями, и говорила: хотим качество X. По формулам, это требует модели размера N, объёма данных D, вычислительной стоимости C. Стоимость C переведём в доллары: получится столько-то. Если у нас есть эти деньги, мы знаем, что получим качество X. Если нет, мы знаем, на сколько именно недотянем.

Вот что сделал Каплан со своей командой: превратил обучение нейросетей из эксперимента в инженерный расчёт.

В статье 2020 года была также выведена другая важная зависимость: оптимальное распределение бюджета. Если у вас есть фиксированный бюджет на вычисления (скажем, миллиард FLOP-операций), как лучше его потратить: на большую модель с маленьким количеством данных, или на маленькую модель с большим? Каплан с командой математически вывели, что при их измерениях оптимум сдвинут в сторону больших моделей. Грубо говоря, лучше иметь модель в сто миллиардов параметров, обученную на скромном объёме данных, чем модель в десять миллиардов, обученную на массиве в десять раз большем.

Этот конкретный вывод позднее, в 2022 году, будет подвергнут пересмотру. Команда DeepMind с моделью Chinchilla покажет, что в формулах Каплана была определённая систематическая ошибка, связанная с тем, как варьировался learning rate в его экспериментах; что на самом деле оптимум сдвинут в обратную сторону, к большему количеству данных. Но это уточнение, при всей его технической важности, не меняло главного: что зависимость есть, что она степенная, и что она применима в широком диапазоне.

Откуда уверенность инвесторов

Статья Каплана и его команды появилась на arXiv в январе 2020 года. До этого момента команда уже несколько месяцев показывала свои предварительные результаты внутри OpenAI и в избранных кругах. К началу 2020 года все ведущие исследовательские лаборатории мира знали о законах масштабирования.

Влияние на индустрию было немедленным. Microsoft, который уже вложил в OpenAI миллиард в июле 2019 года, увидев предварительные результаты, начал планировать вторую и третью инвестиционные волны. Google, до этого относившийся к большим языковым моделям с прохладным интересом, объявил о собственной программе по обучению моделей размером в сотни миллиардов параметров (PaLM, 2022). DeepMind ускорил собственные работы в этом направлении.

В китайском Baidu, разочарованном результатом аукциона 2012 года, выделили бюджет на собственную программу больших языковых моделей. В Facebook AI Research началась работа над LLaMA. В Anthropic, который ещё только формировался (в 2021 году братья и сестра Амодей покинут OpenAI и заберут с собой большую часть авторов законов масштабирования), уже формулировалась стратегия: лаборатория сосредоточится на масштабировании, потому что закон Каплана даёт уверенность в результате.

Это и есть прямой ответ на вопрос, который, возможно, мучил читателя с первых страниц этой книги. На каком основании OpenAI, Microsoft, Google, Anthropic и прочие технологические гиганты стали с уверенностью тратить десятки миллиардов долларов на обучение моделей, не имея на руках ни одного готового продукта? Они стали тратить, потому что Каплан и его команда показали: качество предсказуемо растёт с вложениями. Не вера, не интуиция, не игра в догадки. Эмпирически установленная зависимость, проверенная в огромном диапазоне размеров, от моделей в тысячи параметров до моделей в миллиарды.

Это и есть, собственно, момент превращения нейронных сетей из научной дисциплины в инженерную индустрию. После Каплана большие языковые модели — это не открытие новой физики. Это инженерия. Это калькуляции. Это бизнес-планы и сметы. Деньги в эту дисциплину начали течь не потому, что в неё поверили, а потому, что в неё стало рационально вкладываться.

А что с интеллектом

У законов масштабирования была одна особенность, которую участники команды Каплана сами признавали странной. Эти законы не объясняли почему происходит то, что происходит. Они только описывали, что происходит.

В физике, если ты находишь степенной закон в природе, ты обычно сначала ищешь физическую теорию, которая его объясняет. Степенные распределения землетрясений объясняются механикой разлома; степенные хвосты в финансовых рядах — теорией кризисов; критические показатели фазовых переходов — ренормгруппой и универсальностью.

В случае нейронных сетей такой теории не было. Каплан и МакКэндлиш в своей статье 2020 года несколько раз честно отметили, что они не знают, почему графики ведут себя так, как они себя ведут. У них есть формулы; у них нет объяснения. Это, в общем-то, не помешало индустрии воспользоваться формулами. Но в академическом сообществе осталось ощущение, что под законами Каплана должна быть более глубокая теория, и эту теорию ещё предстоит открыть. К моменту, когда вы читаете эту книгу, эта теория всё ещё не открыта.

Ещё одна странность была в природе того, что измерял Каплан. Кросс-энтропия — это, в конечном счёте, не что иное, как качество предсказания следующего токена. Та самая задача, которую в 1948 году ставил перед собой Шеннон в Bell Labs, когда брал книги с полки и складывал из них псевдо-английский. Те самые n-граммные модели, которые работали в IBM в семидесятые. Та самая задача, которую решал ваш T9 в нулевые.

То есть Каплан показал: если просто и упорно делать модели больше, более длинно их обучать на большем количестве данных, они становятся в шенноновом смысле лучшими предсказателями следующего токена. По степенному закону. Бесконечно.

И вот тут возникает почти философский вопрос. Если модель становится произвольно хорошим предсказателем следующего слова — что это означает для её способностей в целом? Только ли это статистическая угадывалка, способная отлично продолжать тексты, но и только? Или предсказание следующего слова, если довести его до настоящего совершенства, в каком-то смысле эквивалентно пониманию языка, рассуждениям, решению задач?

В 2020 году эту дискуссию вели в OpenAI и Anthropic с большим жаром. Илья Суцкевер в своих публичных выступлениях того времени высказывал точку зрения, которая многим тогда казалась смелой: предсказание следующего токена при достаточно высоком качестве является сжатием знаний о мире, и обладание таким сжатием неотличимо от понимания. Иными словами: если модель достаточно хорошо угадывает следующее слово в любом тексте, она знает то же самое, что и автор этого текста.

Большинство специалистов в начале 2020 года эту точку зрения считало преувеличенной. Через полгода, увидев работу GPT-3, они задумаются. Через два с половиной года,

Перейти на страницу:

SeNS Boston читать все книги автора по порядку

SeNS Boston - все книги автора в одном месте читать по порядку полные версии на сайте онлайн библиотеки Nice-Books.Ru.


Токен за токеном отзывы

Отзывы читателей о книге Токен за токеном, автор: SeNS Boston. Читайте комментарии и мнения людей о произведении.


Уважаемые читатели и просто посетители нашей библиотеки! Просим Вас придерживаться определенных правил при комментировании литературных произведений.

  • 1. Просьба отказаться от дискриминационных высказываний. Мы защищаем право наших читателей свободно выражать свою точку зрения. Вместе с тем мы не терпим агрессии. На сайте запрещено оставлять комментарий, который содержит унизительные высказывания или призывы к насилию по отношению к отдельным лицам или группам людей на основании их расы, этнического происхождения, вероисповедания, недееспособности, пола, возраста, статуса ветерана, касты или сексуальной ориентации.
  • 2. Просьба отказаться от оскорблений, угроз и запугиваний.
  • 3. Просьба отказаться от нецензурной лексики.
  • 4. Просьба вести себя максимально корректно как по отношению к авторам, так и по отношению к другим читателям и их комментариям.

Надеемся на Ваше понимание и благоразумие. С уважением, администратор Nice-Books.


Прокомментировать
Подтвердите что вы не робот:*
Подтвердите что вы не робот:*