7.04.2025
«Нейросеть — не более чем инструмент»
Внутри нейросети

Олег

— Давайте начнем с определения, что представляет собой нейросеть? Как она устроена?

Алина

— Большая языковая модель – это программа, которая понимает человеческий язык и генерирует тексты. Ее обучают на больших объемах данных: книгах, статьях, веб-сайтах и других текстовых ресурсах. Обычно эти данные включают разнообразные источники – от научных статей до художественных текстов. Это позволяет модели научиться работать с разными стилями и контекстами.

Примеры таких моделей: ChatGPT, Claude, Gemini, YandexGPT, DeepSeek. Они выполняют разнообразные задачи: дать фактовый ответ на запрос, сочинить сказку, объяснить теорию вероятностей для первоклассника, написать код, извлечь информацию, пересказать текст, придумать названия для шашлычной и многое другое, с чем обратятся пользователи.

Чтобы обучить такую нейросеть – необходимо огромное количество данных, несколько десятков терабайт. Чаще всего обучение включает три этапа.

Первый этап называется pre-training. Здесь ИИ получает знания о языке, например о лексике и грамматике, а также фактовые знания об окружающем мире. В DataSet попадают не все тексты подряд. Необходимы качественные, грамотно написанные тексты. Иначе ИИ перенесет ошибки и в свои генерации.

Следующий этап называется fine-tune – создание инструкций, как модель должна отвечать на запросы пользователей и поддерживать диалог. Для этого как раз и нужны AI тренеры, как я. Я пишу тексты, которые попадают в обучение модели.

Вариантов ответов на один и тот же запрос может быть великое множество. Создать человеческими силами столько ответов – практически невозможно. Поэтому на третьем этапе – reinforcement learning – обучают вторую модель, которая оценивает ответы первой модели. Благодаря этому, получается что-то вроде постоянного цикла самообучения, что позволяет модели оптимизировать ответы.

Я редактор, и все, что я делаю, – пишу и оцениваю тексты. Я не занимаюсь разработкой, не разбираюсь в технической составляющей. Моя зона ответственности – это тексты.

Вера

— Ты за собой сохраняешь идентичность человека читающего?

Алина

— Конечно, чтобы написать полезный для пользователя ответ, мне нужно найти авторитетные достоверные источники, изучить их. Для этого необходимо критическое мышление, навык фактчека. Приходится много читать, постоянно осваивать новую информацию в процессе работы.

Вера

— Здесь возникает вопрос о критериях отбора этих источников. Какие они?

Алина

— Когда я работаю, стараюсь опираться на энциклопедии (вроде Большой Российской энциклопедии), научные статьи и учебники, официальные сайты различных ведомств, известные новостные ленты с хорошей репутацией.

Олег

— Когда работаешь с текстами постоянно, насколько легко отличить текст нейросети от человеческого?

Алина

— Обычно тексты модели можно отличить от человеческих, но не всегда. У меня есть насмотренность, поэтому я знаю про некоторые особенности ии-текстов: могут встречаться дисклеймеры, отказы отвечать, непонимание культурного контекста, «вода», канцелярит и некоторая «топорность» языка, неумелое владение рифмой и ритмом в стихах. Однако некоторые тексты модели написаны живым языком, дают конкретный ответ на вопрос пользователя.

Я заметила за собой субъективность: некачественный текст я скорее атрибутирую как генеративный, а качественный – как написанный человеком. Но это не всегда справедливо. Модель может создать хороший текст, как и человек – плохой.

Олег

— Понадобилось ли тебе освоить какие-то новые навыки для работы с ИИ?

Алина

— Да, пришлось освоить форматы данных типа JSON или Python List. Это определенные способы представления информации для того, чтобы машина могла их прочитать. Не такая сложная вещь, как программирование, но это то, с чем я раньше не работала.

Также пришлось прокачать навык фактчека. AI-тренер должен отвечать на очень разные вопросы: и как приготовить тыквенный пирог, и как решать логарифмы. Поэтому важно быстро вникать в новые темы.

Олег

— Учится ли ИИ на собственном/ых тексте/ах? Или все-таки он не основывает свои новые тексты на предыдущих?

Алина

— Обычно в датасет не попадают тексты, сгенерированные самой моделью, хотя гипотетически это возможно, если у разработчиков будет такая цель.

Другое дело – учитывает ли ИИ свои предыдущие тексты при создании новых. Чтобы диалог с пользователем был полезным, модель держит контекст, то есть запоминает, что ранее писала сама и что писал пользователь, и учитывает это при генерации новых ответов.

Олег

— Можем ли мы внедрить авторство в нейросеть? Загрузить, например, тексты одного писателя. Будет ли текст нейросети приобретать авторский стиль?

Алина

— Модель, предназначенная для имитации стиля конкретного писателя, решает более узкую задачу, чем большая языковая модель. Для обучения нужны десятки терабайт данных – вряд ли во всех текстах Тургенева или Толстого наберется столько.

Поэтому модель сначала обучают на корпусе обычных текстов. А уже на втором этапе добавляют в датасет корпус текстов нужного писателя.

Насколько качественно модель воспроизведет авторский слог, зависит от однородности стиля писателя и объема его текстов.

Олег

— Если на этапе обучения мы целенаправленно загрузим половину текстов без ошибок, а вторую – те же самые тексты, но с ошибками. ИИ сможет как-то для себя выделить и убрать эти ошибки?

Алина

— Если добавить в DataSet некачественные тексты, то модель будет внедрять увиденные ошибки в свои тексты с той или иной периодичностью.

Олег

— Как борются с промптами, нацеленными на обман нейросети, чтобы она выдавала небезопасную или неэтичную информацию?

Алина

— Сейчас спровоцировать модель сложно. Некоторые модели настолько осторожны, что предпочитают уходить от ответа, лишь бы не сказать что-то неэтичное.

AI-тренеры создают тексты, попадающие в обучение, опираясь на определенные принципы компании. Это важно, чтобы ответ нейросети никому не навредил и никого не обидел.

Олег

— Можем ли мы применять методы обучения нейросетей на людях?

Алина

— Мне кажется, это скорее нейросеть обучают так, как человека.

Например, обучение модели идет от общего (пре-трейна) к частному (файн-тюнингу): сначала загружают общие сведения о языке и мире, затем – более специализированные знания, учат давать подходящие ответы с учетом специфики запросов. Так же и в школе: сначала дети изучают окружающий мир в целом, затем переходят к более углубленным курсам ботаники, зоологии, анатомии.

Еще одна параллель – важность чтения в процессе обучения письму. Модель видит эталонные тексты, анализирует их, что-то узнает о сочетаемости слов, а затем использует эти сведения для генерации. И человек становится более грамотным, расширяет словарный запас, осваивает сложные синтаксические конструкции, когда читает хорошую литературу.
Вера Юрьевна Баль доцент каф. истории русской литературы ХХ-XXI веков и литературного творчества Филологического факультета ТГУ.
Алина Белянина — выпускница Филологического факультета ТГУ. Работает AI-тренером в компании Яндекс.
Вадим Белянин — преподаватель кафедры гуманитарных проблем информатики Философского факультета ТГУ
Олег Ухин студент 2 курса «Литературного творчества» Филологического факультета ТГУ.
Применение нейросетей

Олег

— Давайте немного поговорим о том, где и как сейчас можно применять нейросети?

Алина

— Нейросеть можно использовать как помощника в быту, учебе, работе и в других сферах. Модели могут сделать краткий пересказ, объяснить, как что-то работает, создать художественный или продающий текст и многое другое.

Их здорово использовать для решения рутинных задач. Например, в бизнесе, когда надо оценить интонацию отзывов на какой-то определенный продукт. Просматривать каждый отзыв вручную долго - можно загрузить отзывы в модель, дать ей указания и получить ответ. Это экономит человеческое время.

Олег

— Может ли сейчас нейросеть заниматься не просто отсеиванием очевидной информации? Может ли нейросеть анализировать текст? Находить в предлагаемом тексте смысловой уровень?

Алина

— Это более сложная задача. Здесь все зависит от объема текста. Чем текст меньше, тем лучше модель справится с этой задачей. Но помимо этого, важен и промпт: насколько подробно вы распишите задачу, тем полезнее и полнее получите ответ.

Вера

— Боитесь ли вы будущего, в котором нейросети станут самообучающимися? Одно дело – доверить им небольшую часть рутинной работы, и совсем другое – отдать им сферы, где необходима интеллектуальная и креативная составляющая человека?

Алина

— Меня не пугает такой сценарий. На мой взгляд здесь уместно говорить про разделение работы на важную для человека и неважную. Если какие-то задачи ценны для меня, то я мотивирована выполнить их самостоятельно. А что-то менее важное - отдать на откуп нейросети и посвятить сэкономленное время работе, которая приносит удовольствие и вдохновляет.

Вадим

— Еще один пример использования нейросети – это использование для исследовательской деятельности. Когда передо мной тысяча источников и мне надо выделить те – которые подходят именно мне, моей теме исследования. Здесь как раз помогут нейросети.

Вера

— Но при этом мы не можем дать нейросети более сложные задачи, которые основаны на анализе текста, нахождении смысла. В её выжимках мы не сможем понять ход мышления автора.

Алина

— Нейросеть может пересказать текст, выписать из него основные тезисы. Есть смысл обращаться к моделям, если мы хотим быстро вникнуть в содержание. Но если мы хотим понять мышление Другого через осмысленную работу с текстом, то лучше читать самостоятельно.

Это разные цели.

Олег

— В таком случае – любой преподаватель – это тоже модель интерпретации источника. Нейросеть также пример некоторый интерпретации, просто более примитивной.

Вера

— Да. Но у хорошего преподавателя был свой уникальный путь создания модели понимания, а нейросеть идет путем суммирования поверхностных смыслов, представленных в текстах, которые оказались у неё в доступе.

Олег

— В свое время Поварнин в своей работе «Как читать книги» писал о том, как надо отделять информацию важную от контекстуальной. Это определённый навык. Нейросеть позволяет делать выжимку и без этого навыка. По сути это просто упрощение.

Алина

— Нейросети – это инструмент для упрощения работы человека. Но в тоже время – это не безупречный инструмент, и лучше относиться к генерациям критически и перепроверять их.
Made on
Tilda