Генеративный искусственный интеллект. Как ИИ меняет нашу жизнь и работу - Нума Дхамани Страница 20
- Категория: Компьютеры и Интернет / Прочая околокомпьтерная литература
- Автор: Нума Дхамани
- Страниц: 91
- Добавлено: 2026-03-23 09:12:48
Внимание! Книга может содержать контент только для совершеннолетних. Для несовершеннолетних просмотр данного контента СТРОГО ЗАПРЕЩЕН! Если в книге присутствует наличие пропаганды ЛГБТ и другого, запрещенного контента - просьба написать на почту pbn.book@yandex.ru для удаления материала
Генеративный искусственный интеллект. Как ИИ меняет нашу жизнь и работу - Нума Дхамани краткое содержание
Прочтите описание перед тем, как прочитать онлайн книгу «Генеративный искусственный интеллект. Как ИИ меняет нашу жизнь и работу - Нума Дхамани» бесплатно полную версию:НЕЗАКОННОЕ ПОТРЕБЛЕНИЕ НАРКОТИЧЕСКИХ СРЕДСТВ, ПСИХОТРОПНЫХ ВЕЩЕСТВ, ИХ АНАЛОГОВ ПРИЧИНЯЕТ ВРЕД ЗДОРОВЬЮ, ИХ НЕЗАКОННЫЙ ОБОРОТ ЗАПРЕЩЕН И ВЛЕЧЕТ УСТАНОВЛЕННУЮ ЗАКОНОДАТЕЛЬСТВОМ ОТВЕТСТВЕННОСТЬ.
Технология, меняющая мир:
• Принципы работы больших языковых моделей (LLM).
• Интеграция ИИ в личные и профессиональные процессы.
• Влияние ИИ на общество, право и политику.
• Перспективы развития технологии.
Узнайте, как использовать возможности искусственного интеллекта с максимальной пользой и минимальными рисками.
Что еще в книге:
• Возможности и ограничения моделей ИИ.
• Рекомендации по их использованию.
• Способы защиты себя и своих данных.
• Принципы работы LLM.
• Лучшие практики генерации текста и графики.
В формате PDF A4 сохранен издательский макет книги.
Генеративный искусственный интеллект. Как ИИ меняет нашу жизнь и работу - Нума Дхамани читать онлайн бесплатно
Рис. 3.2. Общая схема обучения с подкреплением и обратной связью от человека (RLHF)
Обучение с подкреплением подразумевает управление поведением модели и раньше в основном использовалось для выполнения задач с легко определяемой функцией вознаграждения. Однако для надежного разделения на хорошие и плохие ответы, особенно учитывая широкий спектр возможных нежелательных тем – от публикации личной информации до создания вредоносной дезинформации, такой функции нет. Еще более проблематичным оказалось то, что не во всех случаях можно легко сказать, каков бы был допустимый и желаемый ответ модели, поэтому просто предопределить набор сценариев поведения не получается. В 2017 году исследователи из OpenAI и DeepMind предложили решение: через обучение с подкреплением попытаться «отучить» модель от небезопасного поведения, давая ей обратную связь с человеком и, таким образом, итеративно определяя функцию вознаграждения5. На практике это означает, что людей просят оценить ответы модели: либо обозначить эти ответы как приемлемые или проблемные, либо только указать предпочтительный ответ. Несмотря на то, что люди по-прежнему оценивают ответы модели по-разному, совокупные данные о предпочтениях людей в конечном итоге приблизят модель к идеальному поведению. С помощью этих данных вычисляется функция вознаграждения для модели, и со временем ответы модели улучшаются, а это улучшение определяется как написание более качественных и менее проблемных ответов, опять же по оценкам людей. Эта стратегия, известная как обучение с подкреплением и обратной связью от человека (reinforcement learning with human feedback, RLHF) (см. рис. 3.2), оказалась гораздо более масштабируемой и гибкой, чем предыдущие методы, и ее быстро приняли разработчики LLM по всей отрасли.
Однако у RLHF есть реальные издержки, как финансовые, так и эмоциональные. Краудсорсинговая разметка данных уже давно стала стандартной практикой при создании систем машинного обучения, в частности для модерации контента. В этой работе приходится постоянно просматривать контент, который может быть травматичным, и поэтому обычно она передается на аутсорсинг подрядчикам или фрилансерам, у которых нет ресурсов защиты на рабочем месте наемных работников. В случае ChatGPT расследование TIME показало, что OpenAI привлекала кенийских рабочих и платила им от 1 до 2 долларов в час за то, чтобы они размечали примеры ненавистнических высказываний, сексуального насилия и жестокости среди другого контента. С помощью этих размеченных примеров получилось создать инструмент для обнаружения «токсичного» контента, который в конечном итоге был встроен в ChatGPT. По словам кенийских работников, они не только получали низкую оплату, но и были «морально травмированы» тем содержанием, с которым им приходилось сталкиваться6. Даже самые передовые модели машинного обучения в мире по-прежнему в значительной степени зависят от человеческого интеллекта и труда.
3.1.4. Обучение с подкреплением на основе обратной связи от ИИ
Поскольку обратная связь от людей требует затрат, а искусственный интеллект может выполнять работу масштабнее и быстрее, новейшие методы обеспечения безопасности LLM направлены на то, чтобы по возможности исключить человека из рабочего цикла. Логично изменив название «обучение с подкреплением на основе обратной связи от человека», мы получим название этого метода – «обучение с подкреплением на основе обратной связи от ИИ» (reinforcement learning from AI feedback, RLAIF). Компания Anthropic разработала RLAIF-метод под названием «Конституционный ИИ» (Constitutional AI)7, предполагающий создание списка принципов (они называют его конституцией), которым должна следовать модель. Компания Anthropic собрала набор принципов из разрозненных источников, например, таких как Всеобщая декларация прав человека (Universal Declaration of Human Rights) («Пожалуйста, выберите ответ, который в наибольшей степени поддерживает и поощряет свободу, равенство и чувство братства») и Условия предоставления услуг от Apple («Пожалуйста, выберите ответ, в котором меньше всего личной, частной и конфиденциальной информации, принадлежащей другим людям»)8. Сначала они строят вспомогательную модель, так называемую «модель-оценщик», которую обучают давать оценки, насколько ответ является нежелательным с точки зрения списка «конституционных принципов». Затем эта модель-оценщик анализирует и дает оценку ответам обучаемой модели-генератора, которая пытается ответить на различные промпты. Таким образом, модель-генератор обучается на основе обратной связи от модели-оценщика [36].
Рис. 3.3. Упрощенная схема архитектуры «Конституционный ИИ», направленной на повышение соответствия ответов модели политике в отношении контента
Метод «Конституционный ИИ» (показан на рис. 3.3) и подобные ему RLAIF-методы являются, пожалуй, наиболее перспективными с технической точки зрения. В ближайшем будущем некая комбинация обратной связи от человека и от искусственного интеллекта, возможно, приведет к созданию наиболее хорошо обученных моделей. Однако по мере того, как LLM становятся все более мощными, вполне разумно ожидать, что все больше этапов обучения, которые раньше требовали участия человека, могут быть автоматизированы. Через несколько месяцев могут появиться другие схемы, которые будут работать еще лучше. Через несколько лет они уже почти наверняка появятся, что отчасти делает эту область такой захватывающе интересной. Это хорошая новость, особенно в отношении безопасности: модерация контента, как известно, является эмоционально обременительной работой, поэтому возможность сократить ручной просмотр позволит все меньшему количеству людей сталкиваться с ужасными и неприемлемыми идеями, угрозами и идеологиями насилия.
Давайте рассмотрим, как реализация подобной стратегии влияет на сбор данных, необходимых для обучения моделей. Мы хотим быть уверенными, что наши модели не будут генерировать контент о суициде или нанесении себе вреда – любой информации, которая сможет побудить или проинструктировать человека, переживающего кризис, нанести себе увечье. Это, к сожалению, актуальная тема. В начале 2023 года бельгиец, страдающий депрессией, переписывался с ботом, который, как утверждается, побудил мужчину покончить с собой, и, к несчастью, тот действительно совершил самоубийство9.
Если бы мы решали задачу методами фильтрации или условного обучения, нам пришлось бы обучать классификатор выявлять контент, связанный с нанесением себе вреда. Нам потребовалось бы собрать сотни или более диалогов на темы о причинении себе вреда и пометить хорошие и плохие ответы модели, что потребовало бы глубокого вовлечения людей-разметчиков в эти деликатные темы. По меньшей мере, нам бы пришлось пометить множество текстовых примеров с указанием того, содержит ли конкретный контент инструкции или призывы к причинению себе вреда. Если решать задачу методом RLHF, нам придется привлекать людей для получения обратной связи. С другой стороны, используя «Конституционный ИИ» и подобные методы на основе обучения с подкреплением с обратной связью от ИИ, мы могли бы сначала описать нашу политику в отношении такого контента, а затем позволить модели научиться выявлять нарушения, обучаясь без обучающих примеров или на нескольких примерах. Мы могли бы позволить этой модели анализировать и оценивать ответы другой модели и даже собирать дополнительные диалоги на тему нанесения себе вреда между несколькими языковыми моделями, но без ущерба для людей. После того как модель хорошо обучится выявлять нарушения, она сможет помечать такие разговоры, а мы – использовать ее
Жалоба
Напишите нам, и мы в срочном порядке примем меры.