Токен за токеном - SeNS Boston
Это было поразительно. И это было ровно то, чего Илья Суцкевер ждал со времён аспирантуры. Гипотеза о том, что нейронные сети, достаточно увеличенные в размере и обученные на достаточном объёме данных, начнут выказывать новые качественные способности, на GPT-2 впервые получила публичное подтверждение применительно к языку.
Решение не публиковать
В январе 2019 года, когда модель была полностью обучена и команда писала статью, внутри OpenAI состоялась серия дискуссий. Тема была неприятная: что делать с тем фактом, что эта модель может писать связные тексты, неотличимые от человеческих?
Несколько руководителей высказали опасение. Что если, спрашивали они, кто-нибудь возьмёт нашу модель и начнёт массово производить фейковые новости? Что если её используют для автоматизации спама? Для фишинговых писем? Для пропагандистских материалов? Сейчас публикация нейросетевых моделей подразумевала открытие весов в свободном доступе: любой исследователь мог скачать модель и использовать её. У GPT-1 это была разумная норма; для GPT-2, способной писать газетные статьи, это уже выглядело тревожнее.
В результате внутренних дискуссий было принято решение, на тот момент в индустрии беспрецедентное. Команда опубликует статью с описанием архитектуры и результатами. Но саму модель — самые большие веса — пока не выложит. Вместо этого OpenAI запустит так называемый staged release, поэтапный релиз: сначала будет открыта маленькая версия (сто двадцать четыре миллиона параметров), потом — средняя (триста пятьдесят пять миллионов), потом — большая (семьсот семьдесят четыре миллиона), и только в самом конце, через несколько месяцев, если за это время не появится свидетельств массового злоупотребления, — полная версия с 1,5 миллиарда параметров.
Это решение в академическом сообществе было воспринято со смесью одобрения, удивления и негодования.
Одобряющие говорили: наконец-то лаборатория искусственного интеллекта берёт на себя ответственность за свои разработки и подходит к публикации с осторожностью.
Удивлённые отмечали, что прецедента такого ещё не было. Все большие модели — BERT, ELMo, оригинальный Transformer — выкладывались целиком, с весами, и никто из их разработчиков не делал заявлений об опасности.
Негодующие, и их было больше всего, считали происходящее пиар-кампанией. По их мнению, OpenAI намеренно нагнетал страхи вокруг своей модели, чтобы привлечь внимание. Действительно, говорили они, если бы модель была настолько опасной, как утверждается, разумнее было бы её вообще не публиковать; а если она опасна не настолько, нет смысла поднимать столько шуму. Сам факт того, что OpenAI выбрал промежуточный, «театральный» вариант, наводил критиков на мысль, что главное здесь — не безопасность, а самореклама.
Среди особенно резких критиков был Зак Липтон, тогда профессор в Карнеги-Меллон. Он публично написал, что заявление OpenAI создаёт прецедент злоупотребления нарративом об «опасном ИИ»; что любой стартап теперь сможет утверждать, что у него есть модель, слишком опасная для публикации; и что научному сообществу пора отделять реальные проблемы безопасности от маркетинговых упражнений.
OpenAI на критику не реагировала громко. Альтман и Брокман в публичных выступлениях говорили, что они понимают сомнения, но считают важным проявить осторожность. Они выпустили среднюю версию модели в мае 2019 года, большую — в августе, полную — в ноябре. К моменту выпуска полной версии все опасения, которые можно было разумно сформулировать, должны были к этому моменту проявиться. Они не проявились. Никаких массовых злоупотреблений GPT-2 за прошедший год не возникло.
В ретроспективе можно по-разному оценивать всю эту историю. С одной стороны, OpenAI создала прецедент: лаборатории искусственного интеллекта могут и должны задумываться об ответственности за свои модели. С другой стороны, сам staged release ничего особенного не предотвратил, потому что предотвращать в общем-то было нечего; настоящие риски от больших языковых моделей появятся, и в полный рост, гораздо позже, и совсем не в том виде, в каком их описывали в феврале 2019 года.
Между двумя стульями
Внутри самой OpenAI 2019 год прошёл в напряжении.
Снаружи всё выглядело красиво. В июле Microsoft объявил о партнёрстве с OpenAI и вложил миллиард долларов в виде денег и облачных вычислительных ресурсов. На бумаге это решало финансовые проблемы; новые серверные мощности позволили команде Алека начать готовить следующую, ещё большую модель.
Внутри организация переживала важный сдвиг. Сэм Альтман перешёл из Y Combinator в OpenAI на полную ставку. Структура была перестроена: появилась дочерняя компания OpenAI LP, через которую теперь можно было привлекать венчурные инвестиции с ограниченной отдачей. Это был тот самый сдвиг, в котором академические критики увидели предательство первоначальной миссии.
Дарио Амодей, к тому моменту вице-президент по исследованиям OpenAI, отвечавший в частности за работы по безопасности, на эту реструктуризацию реагировал плохо. По свидетельствам коллег, он считал, что переход к коммерческой структуре неизбежно подчинит миссию интересам инвесторов. Что Microsoft, вложив миллиард, рано или поздно потребует продукты, а не исследования. Что погоня за скоростью будет вытеснять заботу о безопасности.
Амодей не ушёл сразу. Он остался почти на два года, продолжая работать с командой над масштабированием. Но напряжение копилось, и это станет одним из главных конфликтов в OpenAI в 2020 году.
А Алек тем временем готовил третью версию модели. План был такой: взять архитектуру GPT-2, увеличить её ещё в сто раз, обучить на массиве данных, в десять раз большем, и посмотреть, что будет. Это требовало денег и вычислительных мощностей, которых раньше не было ни у одной академической лаборатории.
Но как именно увеличивать? Что важнее: количество параметров или объём данных? Сколько слоёв? Какая ширина? Сколько проходов обучения? Эти вопросы в начале 2019 года решались интуитивно. Кто-то предлагал десять миллиардов параметров, кто-то — сто, кто-то говорил, что и тридцати достаточно. Все понимали, что правильного ответа никто не знает; что обучение модели в сто миллиардов параметров стоит десятки миллионов долларов и не может позволить себе ошибки; и что какой-то более систематический подход к выбору размера был бы очень кстати.
В этот момент в коридорах OpenAI появился человек со стороны. Он был физиком. Его имя было Джаред Каплан.
Глава 9
Закон Каплана
Мы изучаем эмпирические законы масштабирования качества языковых моделей по кросс-энтропийной функции потерь.
Из аннотации статьи Kaplan et al., 2020
В этой главе нужно объяснить одну вещь, без понимания которой остальная история не имеет смысла. А именно: почему, начиная примерно с 2020 года, технологические компании по всему миру начали с восторгом и без особых сомнений вкладывать