Внутри нейросети
Олег
— Давайте начнем с определения, что представляет собой нейросеть? Как она устроена?
Алина
— Большая языковая модель – это программа, которая понимает человеческий язык и генерирует тексты. Ее обучают на больших объемах данных: книгах, статьях, веб-сайтах и других текстовых ресурсах. Обычно эти данные включают разнообразные источники – от научных статей до художественных текстов. Это позволяет модели научиться работать с разными стилями и контекстами.
Примеры таких моделей: ChatGPT, Claude, Gemini, YandexGPT, DeepSeek. Они выполняют разнообразные задачи: дать фактовый ответ на запрос, сочинить сказку, объяснить теорию вероятностей для первоклассника, написать код, извлечь информацию, пересказать текст, придумать названия для шашлычной и многое другое, с чем обратятся пользователи.
Чтобы обучить такую нейросеть – необходимо огромное количество данных, несколько десятков терабайт. Чаще всего обучение включает три этапа.
Первый этап называется pre-training. Здесь ИИ получает знания о языке, например о лексике и грамматике, а также фактовые знания об окружающем мире. В DataSet попадают не все тексты подряд. Необходимы качественные, грамотно написанные тексты. Иначе ИИ перенесет ошибки и в свои генерации.
Следующий этап называется fine-tune – создание инструкций, как модель должна отвечать на запросы пользователей и поддерживать диалог. Для этого как раз и нужны AI тренеры, как я. Я пишу тексты, которые попадают в обучение модели.
Вариантов ответов на один и тот же запрос может быть великое множество. Создать человеческими силами столько ответов – практически невозможно. Поэтому на третьем этапе – reinforcement learning – обучают вторую модель, которая оценивает ответы первой модели. Благодаря этому, получается что-то вроде постоянного цикла самообучения, что позволяет модели оптимизировать ответы.
Я редактор, и все, что я делаю, – пишу и оцениваю тексты. Я не занимаюсь разработкой, не разбираюсь в технической составляющей. Моя зона ответственности – это тексты.
Вера
— Ты за собой сохраняешь идентичность человека читающего?
Алина
— Конечно, чтобы написать полезный для пользователя ответ, мне нужно найти авторитетные достоверные источники, изучить их. Для этого необходимо критическое мышление, навык фактчека. Приходится много читать, постоянно осваивать новую информацию в процессе работы.
Вера
— Здесь возникает вопрос о критериях отбора этих источников. Какие они?
Алина
— Когда я работаю, стараюсь опираться на энциклопедии (вроде Большой Российской энциклопедии), научные статьи и учебники, официальные сайты различных ведомств, известные новостные ленты с хорошей репутацией.
Олег
— Когда работаешь с текстами постоянно, насколько легко отличить текст нейросети от человеческого?
Алина
— Обычно тексты модели можно отличить от человеческих, но не всегда. У меня есть насмотренность, поэтому я знаю про некоторые особенности ии-текстов: могут встречаться дисклеймеры, отказы отвечать, непонимание культурного контекста, «вода», канцелярит и некоторая «топорность» языка, неумелое владение рифмой и ритмом в стихах. Однако некоторые тексты модели написаны живым языком, дают конкретный ответ на вопрос пользователя.
Я заметила за собой субъективность: некачественный текст я скорее атрибутирую как генеративный, а качественный – как написанный человеком. Но это не всегда справедливо. Модель может создать хороший текст, как и человек – плохой.
Олег
— Понадобилось ли тебе освоить какие-то новые навыки для работы с ИИ?
Алина
— Да, пришлось освоить форматы данных типа JSON или Python List. Это определенные способы представления информации для того, чтобы машина могла их прочитать. Не такая сложная вещь, как программирование, но это то, с чем я раньше не работала.
Также пришлось прокачать навык фактчека. AI-тренер должен отвечать на очень разные вопросы: и как приготовить тыквенный пирог, и как решать логарифмы. Поэтому важно быстро вникать в новые темы.
Олег
— Учится ли ИИ на собственном/ых тексте/ах? Или все-таки он не основывает свои новые тексты на предыдущих?
Алина
— Обычно в датасет не попадают тексты, сгенерированные самой моделью, хотя гипотетически это возможно, если у разработчиков будет такая цель.
Другое дело – учитывает ли ИИ свои предыдущие тексты при создании новых. Чтобы диалог с пользователем был полезным, модель держит контекст, то есть запоминает, что ранее писала сама и что писал пользователь, и учитывает это при генерации новых ответов.
Олег
— Можем ли мы внедрить авторство в нейросеть? Загрузить, например, тексты одного писателя. Будет ли текст нейросети приобретать авторский стиль?
Алина
— Модель, предназначенная для имитации стиля конкретного писателя, решает более узкую задачу, чем большая языковая модель. Для обучения нужны десятки терабайт данных – вряд ли во всех текстах Тургенева или Толстого наберется столько.
Поэтому модель сначала обучают на корпусе обычных текстов. А уже на втором этапе добавляют в датасет корпус текстов нужного писателя.
Насколько качественно модель воспроизведет авторский слог, зависит от однородности стиля писателя и объема его текстов.
Олег
— Если на этапе обучения мы целенаправленно загрузим половину текстов без ошибок, а вторую – те же самые тексты, но с ошибками. ИИ сможет как-то для себя выделить и убрать эти ошибки?
Алина
— Если добавить в DataSet некачественные тексты, то модель будет внедрять увиденные ошибки в свои тексты с той или иной периодичностью.
Олег
— Как борются с промптами, нацеленными на обман нейросети, чтобы она выдавала небезопасную или неэтичную информацию?
Алина
— Сейчас спровоцировать модель сложно. Некоторые модели настолько осторожны, что предпочитают уходить от ответа, лишь бы не сказать что-то неэтичное.
AI-тренеры создают тексты, попадающие в обучение, опираясь на определенные принципы компании. Это важно, чтобы ответ нейросети никому не навредил и никого не обидел.
Олег
— Можем ли мы применять методы обучения нейросетей на людях?
Алина
— Мне кажется, это скорее нейросеть обучают так, как человека.
Например, обучение модели идет от общего (пре-трейна) к частному (файн-тюнингу): сначала загружают общие сведения о языке и мире, затем – более специализированные знания, учат давать подходящие ответы с учетом специфики запросов. Так же и в школе: сначала дети изучают окружающий мир в целом, затем переходят к более углубленным курсам ботаники, зоологии, анатомии.
Еще одна параллель – важность чтения в процессе обучения письму. Модель видит эталонные тексты, анализирует их, что-то узнает о сочетаемости слов, а затем использует эти сведения для генерации. И человек становится более грамотным, расширяет словарный запас, осваивает сложные синтаксические конструкции, когда читает хорошую литературу.