Генеративный искусственный интеллект. Как ИИ меняет нашу жизнь и работу - Нума Дхамани Страница 16

Тут можно читать бесплатно Генеративный искусственный интеллект. Как ИИ меняет нашу жизнь и работу - Нума Дхамани. Жанр: Компьютеры и Интернет / Прочая околокомпьтерная литература. Так же Вы можете читать полную версию (весь текст) онлайн без регистрации и SMS на сайте 500book.ru или прочесть краткое содержание, предисловие (аннотацию), описание и ознакомиться с отзывами (комментариями) о произведении.

Категория: Компьютеры и Интернет / Прочая околокомпьтерная литература
Автор: Нума Дхамани
Страниц: 91
Добавлено: 2026-03-23 09:12:48

Внимание! Книга может содержать контент только для совершеннолетних. Для несовершеннолетних просмотр данного контента СТРОГО ЗАПРЕЩЕН! Если в книге присутствует наличие пропаганды ЛГБТ и другого, запрещенного контента - просьба написать на почту pbn.book@yandex.ru для удаления материала

Генеративный искусственный интеллект. Как ИИ меняет нашу жизнь и работу - Нума Дхамани краткое содержание

Прочтите описание перед тем, как прочитать онлайн книгу «Генеративный искусственный интеллект. Как ИИ меняет нашу жизнь и работу - Нума Дхамани» бесплатно полную версию:

НЕЗАКОННОЕ ПОТРЕБЛЕНИЕ НАРКОТИЧЕСКИХ СРЕДСТВ, ПСИХОТРОПНЫХ ВЕЩЕСТВ, ИХ АНАЛОГОВ ПРИЧИНЯЕТ ВРЕД ЗДОРОВЬЮ, ИХ НЕЗАКОННЫЙ ОБОРОТ ЗАПРЕЩЕН И ВЛЕЧЕТ УСТАНОВЛЕННУЮ ЗАКОНОДАТЕЛЬСТВОМ ОТВЕТСТВЕННОСТЬ.
Технология, меняющая мир:
• Принципы работы больших языковых моделей (LLM).
• Интеграция ИИ в личные и профессиональные процессы.
• Влияние ИИ на общество, право и политику.
• Перспективы развития технологии.
Узнайте, как использовать возможности искусственного интеллекта с максимальной пользой и минимальными рисками.
Что еще в книге:
• Возможности и ограничения моделей ИИ.
• Рекомендации по их использованию.
• Способы защиты себя и своих данных.
• Принципы работы LLM.
• Лучшие практики генерации текста и графики.
В формате PDF A4 сохранен издательский макет книги.

Генеративный искусственный интеллект. Как ИИ меняет нашу жизнь и работу - Нума Дхамани читать онлайн бесплатно

Генеративный искусственный интеллект. Как ИИ меняет нашу жизнь и работу - Нума Дхамани - читать книгу онлайн бесплатно, автор Нума Дхамани

НА ПЕРВУЮ СТРАНИЦУ

назначения GPT‐3 была обучена на 45 терабайтах (Тб) текстовых данных3, причем 1 Тб, по оценкам, содержит 75 миллионов страниц4. При работе с огромным количеством необработанных и недокументированных обучающих данных никто не может быть уверен в том, что именно они содержат, и это приводит к тому, что LLM запоминает и воспроизводит стереотипные и оскорбительные ассоциации, а также иногда и конфиденциальные данные, включая информацию, позволяющую установить личность (personally identifiable information, PII). В этом разделе мы продолжим обсуждение потенциального вреда и уязвимостей, которые возникают при обучении языковых моделей на неизмеримо больших объемах текстовых данных.

2.3.1. Закодированная предвзятость

Уже хорошо задокументировано отрицательное свойство больших языковых моделей – запоминать и воспроизводить вредные стереотипы, дискриминационные высказывания по признаку пола, сексуальной ориентации, расы, этнической принадлежности, религии, возраста и статуса инвалидности5. Есть несколько причин, почему предвзятость и вредные стереотипы запоминаются моделью при обучении на датасетах, построенных на информации из интернета. Во-первых, эти ассоциации в значительной степени являются отражением особенностей собранных таким образом обучающих данных. По мере того, как языковая модель усваивает особенности и закономерности языка, чтобы генерировать текст, похожий на человеческий, она наследует человеческие предрассудки, историческую несправедливость и культурные ассоциации, которые могут быть негативными и оскорбительными. Во-вторых, в обучающих данных не хватает разнообразия. Набор данных может быть предвзятым, потому что некоторые сообщества представлены в нем лучше, чем другие, а также набор данных может не в полной мере репрезентировать различные взгляды людей на мир. В-третьих, развитие и изменение социальных взглядов может привести к тому, что языковые модели будут неправильно интерпретировать смысл этих изменений.

В главе 1 мы вкратце обсудили, как векторное представление слова внутри модели отражает неравенства, существующие в обществе. В одном из первых исследований предвзятости в векторных представлениях слов авторы, чтобы определить потенциальное воздействие, изучали приложения NLP с использованием этой технологии6. Сначала они рассмотрели анализ сентимента текста, который классифицировал текст как позитивный, негативный или нейтральный. Задача, в частности, состояла в том, чтобы рассчитать сентимент для рецензий к фильмам, что в дальнейшем может пригодиться в маркетинге. Результаты показали, что рецензии на фильмы, в которых упоминались европейские и американские имена, имели в среднем более положительные оценки, чем те, где были прописаны афроамериканские имена, даже если в остальном рецензии были похожи. Это означает, что сентимент текста содержит в себе расовую предвзятость в отношении имен актеров и персонажей в рецензиях. Затем они изучили машинный перевод и пришли к выводу, что перевод с гендерно-нейтральных языков на английский приводит к появлению предложений, дискриминирующих по полу. В своей статье они показали, как Google Translate переводит турецкие предложения с бесполыми местоимениями на английский: «O bir doktor. O bir hemşire» – «He is a doctor. She is a nurse» («Он доктор, она медсестра»).

Аналогичная ситуация с LLM: они не только воспроизводят стереотипы, но и усиливают их. В исследовании, посвященном изучению религиозных предубеждений в языковых моделях, авторы пришли к выводу, что GPT‐3 отражает предубеждение относительно мусульманского насилия, а также антисемитские предрассудки7. Они обнаружили, что при появлении слова «мусульманин» в промптах, модель в 23 % случаев включает слово «террорист» в ответы, а слово «еврей» она в 5 % случаев связывает со словом «деньги». Затем они показали, что если заменить слово «мусульманин» на другие религиозные группы, то GPT‐3 значительно реже будет включать в ответы ключевые слова, связанные с насилием. LLM также преувеличивают дискриминационные предубеждения по признаку пола, расы и профессии. Было обнаружено, что в вымышленных историях, сгенерированных GPT‐3, женские персонажи были описаны как менее сильные по сравнению с мужскими и чаще ассоциировались с семьей и внешностью8. Другие LLM, такие как BERT и GPT‐2, также демонстрируют сильные стереотипные предубеждения. Например, для Африки определяющими словами были «бедный» и «темный», а для разработчиков программного обеспечения – «гик» и «ботаник»9.

Теперь давайте рассмотрим вторую причину, из-за которой предвзятость так устойчиво проявляется в LLM: недостаток разнообразия в обучающем наборе данных. Как мы уже говорили, количество – это еще не качество. Чтобы представить взгляды и ценности различных людей и групп целостно, важно собрать обучающие данные, которые будут разнообразными и широко отражать точки зрения разных сообществ. В статье «Об опасностях стохастических попугаев: могут ли языковые модели быть слишком большими?» авторы исследуют несколько аспектов и определяют, что в обучающих данных взгляды различных людей представлены неравномерно5. Как мы знаем, Reddit и Wikipedia – это два широко используемых набора данных для обучения LLM. Авторы говорят о том, что 67 % пользователей Reddit – мужчины и 64 % – люди в возрасте от 18 до 29 лет; аналогичная ситуация с пользователями Wikipedia: только 8,8–15 % из них – женщины или девушки. Они также говорят о том, что распространенные практики чистки наборов данных еще больше ослабляют голоса недостаточно представленных сообществ. Например, в ходе обучения GPT‐3 набор данных Common Crawl фильтруется путем поиска документов, которые по качеству похожи на документы из Reddit и Wikipedia, а затем они дополнительно очищаются от страниц, содержащих список из 400 стоп-слов, связанных с полом, расовыми оскорблениями или превосходством белой расы. Авторы утверждают, что, хотя эта стратегия может эффективно отфильтровывать определенные виды порнографии и разжигание ненависти, она непреднамеренно подавляет дискурс маргинализированных групп населения.

В упомянутой выше статье авторы Бендер, Гебру и другие обсуждают также проблемы, связанные с постоянно меняющимися общественными движениями, когда в онлайн-дискурсе какие-то мнения могут оказаться слишком широко представленными или не отражаться вообще – и на таких данных в конечном итоге обучаются LLM. В качестве конкретного примера исследователи обнаружили, что «чрезмерное внимание» в Wikipedia к «Движению за жизнь чернокожих» (Black Lives Matter, BLM) усиливает утверждения BLM о том, что насилие со стороны полиции является систематической проблемой в Соединенных Штатах10. До того, как движение привлекло особое внимание к этой проблеме, данные Wikipedia о насилии со стороны полиции, описывающие отдельные случаи, могли бы рассказать совсем другую историю. Это, конечно, становится особенно актуальным, если учитывать, что сбор обучающих датасетов, как и само обучение модели, проводится нечасто из-за трудоемкости и дороговизны с точки зрения вычислений.

В совместном исследовании, проведенном Университетом Бата и Принстонским университетом, исследователи показывают, почему устранение предвзятости в машинном обучении является сложной задачей6. Во-первых, они демонстрируют, что предвзятость идентична смыслу, поэтому невозможно осмысленно использовать язык без встраивания человеческой предвзятости. Во-вторых, они обсуждают невозможность алгоритмического определения предвзятости, поскольку наше общественное понимание постоянно развивается и к тому же варьируется в зависимости от культуры. Наконец, они показывают, что существуют некоторые исторические контексты, в которых людям важно сохранить и отразить это неравенство.

Уже предпринимались попытки устранить эту предвзятость в векторных представлениях слов в языковых моделях

Перейти на страницу:

Вы автор?
Жалоба

Все книги на сайте размещаются его пользователями. Приносим свои глубочайшие извинения, если Ваша книга была опубликована без Вашего на то согласия.
Напишите нам, и мы в срочном порядке примем меры.

Комментарии / Отзывы

Написать

Ничего не найдено.