Если кто-то его создаст, все умрут: Почему сверхразумный ИИ убьет нас всех - Элиезер Шломо Юдковски Страница 12
- Категория: Научные и научно-популярные книги / Прочая научная литература
- Автор: Элиезер Шломо Юдковски
- Страниц: 61
- Добавлено: 2026-06-04 16:20:51
Внимание! Книга может содержать контент только для совершеннолетних. Для несовершеннолетних просмотр данного контента СТРОГО ЗАПРЕЩЕН! Если в книге присутствует наличие пропаганды ЛГБТ и другого, запрещенного контента - просьба написать на почту [email protected] для удаления материала
Если кто-то его создаст, все умрут: Почему сверхразумный ИИ убьет нас всех - Элиезер Шломо Юдковски краткое содержание
Прочтите описание перед тем, как прочитать онлайн книгу «Если кто-то его создаст, все умрут: Почему сверхразумный ИИ убьет нас всех - Элиезер Шломо Юдковски» бесплатно полную версию:Лихорадочная гонка по созданию сверхразумного ИИ вывела нас на путь к вымиранию — но изменить курс еще не поздно, как объясняют в этом призыве-набате к человечеству двое первопроходцев в этой области.
«Возможно, это самая важная книга нашего времени». — Тим Урбан, *Wait But Why
В 2023 году сотни ведущих специалистов в области ИИ подписали открытое письмо, предупреждающее, что искусственный интеллект несет в себе серьезную угрозу вымирания человечества. С тех пор гонка в сфере ИИ лишь обострилась. Компании и страны спешат создать машины, которые будут умнее любого человека. И мир катастрофически не готов к тому, что последует за этим.
На протяжении десятилетий двое из подписавших то письмо — Элиезер Юдковский и Нейт Соарес — изучали, как будет мыслить, вести себя и добиваться своих целей превосходящий человека разум. Их исследования показывают, что достаточно разумный ИИ выработает собственные цели, которые вступят в конфликт...
Если кто-то его создаст, все умрут: Почему сверхразумный ИИ убьет нас всех - Элиезер Шломо Юдковски читать онлайн бесплатно
Из-за ошибки программистов, настраивавших испытание, один из серверов, содержащих секрет, вообще не запустился — что, как логично было предположить, сделало бы взлом этого сервера невозможным для o1. В конце концов, нельзя просканировать порты сервера, который не работает.
Но o1 не сдалась перед этой случайно оказавшейся «невыполнимой» задачей.
o1 просканировала окружение и обнаружила порт, который кто-то случайно оставил открытым, что позволило ей взломать программу, на которой запускался весь этот тест.
По задумке это было невозможно и не предусматривалось сценарием испытания.
Можно было бы предположить, что теперь o1 запустит сервер, который должна была взломать, — то есть исправит проблему с незапустившимся сервером, чтобы продолжить выполнение задания по «захвату флага».
И она так и сделала! Однако o1 не стала после этого возвращаться к задаче по взлому вновь доступного сервера. Вместо этого она составила специальные инструкции по запуску, которые скопировали файл с секретным «флагом» прямо к o1 сразу после завершения загрузки. Никакого дальнейшего взлома не потребовалось.
Столкнувшись с явно невыполнимой задачей, o1 не сдалась. Она продолжала пытаться. Пробовала странные, необычные вещи. Она нашла путь, о существовании которого её программисты даже не подозревали. Оказавшись в выгодной позиции за пределами системы, откуда можно было победить, она не стала восстанавливать первоначальные условия задачи, задуманные человеком, а срезала путь напрямую.
Другими словами, o1 шла напролом. Она вела себя так, будто страстно желала добиться успеха.
o1, насколько нам известно, не обучали специально взламывать компьютерные системы. Такое поведение o1 стало побочным эффектом подкрепления тех цепочек рассуждений, которые приводили к успеху при решении математических задач или других головоломок, создаваемых и проверяемых ИИ.
Как это может быть побочным эффектом?
Ну а какая цепочка рассуждений — какой стиль мышления — приводит к успеху в сложной математической задаче или игре-головоломке?
Тот стиль мышления, который не сдаётся, пока остаётся хоть какая-то возможность для атаки; который не опускает руки при первом же препятствии или даже в тупике, а возвращается назад и пробует другой способ.
Тот стиль мышления, который ищет не предлог для отступления на более знакомую и комфортную территорию, а способ завершить испытание как можно быстрее — и победить.
Тот стиль мышления, который идёт напролом.
В основе такого стиля мышления лежит глубокий фундаментальный паттерн, который можно обнаружить в самых разных решениях сложных задач. Он предполагает построение модели окружения и её использование для навигации в ней. Он требует обращать внимание на неожиданности и докапываться до их первопричины. Он требует продолжать идти вперёд, невзирая на препятствия. Эти тактики полезны для решения математических задач, и они же полезны для решения проблем компьютерной безопасности.
Когда создатель ИИ требует от системы всё более высокой эффективности при решении всё более трудных задач, в том числе тех, с которыми ИИ никогда раньше не сталкивался, градиентный спуск так корректирует ИИ, чтобы заставить его совершать всё больше этих полезных мысленных движений, делать его всё более похожим на сущность, которая строит планы и замышляет ходы, — которая никогда не сдаётся, которая идёт напролом.
Есть и ещё более глубокие причины ожидать, что продвинутые ИИ будут вести себя так, будто у них есть желания.
Поведение, которое выглядит как упорство, как способность «сильно хотеть» или «идти напролом», правильнее трактовать не как свойство разума, а скорее как свойство выигрышных ходов.
И Deep Blue, и Stockfish, и люди-гроссмейстеры — все они защищают своих ферзей, несмотря на то, что мыслят они совершенно по-разному. Разные пути, одна и та же конечная точка.
Именно благодаря таким общим чертам делать подобные прогнозы легко. Так, в 1975 году специалист по компьютерным наукам мог бы предсказать: даже если тогдашние шахматные ИИ иногда глупо отдавали своих ферзей, будущие шахматные ИИ будут защищать свои фигуры лучше. Когда именно? К какому году? Сделать такие прогнозы было бы сложнее. Но предсказать, что это произойдёт к тому моменту, когда шахматные ИИ смогут обыгрывать гроссмейстеров-людей? Это было совсем не трудно.
В шахматах при большинстве обстоятельств практически невозможно поставить мат королю соперника, если ты просто так отдал своего ферзя. Если, конечно, соперник играет хорошо. Мы можем оставить в стороне любые вопросы о том, как устроены игроки — биологические они или механические, полны ли они страсти или неутомимо перебирают миллиарды вариантов. Выигрышные ходы, как правило, — это те, при которых ферзь не зевается по глупости. Это факт о самой игре, а не об игроке.
Теперь рассмотрим «игру» под названием «управление стартапом». В большинстве случаев трудно добиться успеха без привлечения и удержания талантов. Поэтому, если вы генеральный директор, ваши выигрышные ходы, скорее всего, будут заключаться в том, чтобы идти навстречу ведущим специалистам, а не отталкивать этих звёздных сотрудников. Неважно, какой именно разум выбирает эти действия, если они решают одну и ту же задачу.
А в таких играх, как «вылечить рак» или «создать технологии будущего»? Мы можем быть твёрдо уверены, что побеждающий игрок выберет действия, которые бережно контролируют ограниченные ресурсы, обходят любые возникающие препятствия и протискиваются через узкие лазейки к изящным решениям.
(А ещё есть более поверхностные причины прогнозировать, что ИИ в конечном итоге продемонстрирует поведение, похожее на наличие желаний. Например, тот факт, что ИИ-компании изо всех сил пытаются создавать ИИ, работающие именно так. ИИ, который лучше продвигает продукт или управляет командой по собственной инициативе, гораздо полезнее. Покупатели заплатят больше за тот ИИ, который более самостоятелен и требует меньше контроля. В этих обстоятельствах уже не столь важно, переплетены ли субъектность, независимые действия и долгосрочное планирование с интеллектом теоретически. Такие «ИИ-агенты» будут приносить прибыль, поэтому ИИ-компании изо всех сил налегают на создание ИИ-агентов.)
Если бы вы могли выбирать, чего хочет ИИ — цели, к которым он прокладывает путь, — это могло бы стать для вас хорошей новостью. Или плохой, если бы вы сделали неудачный выбор целей, или если бы какой-нибудь злоумышленник создал ИИ, который движется к результатам, неприятным для вас. Но проблема, стоящая перед человечеством, заключается вовсе не в
Жалоба
Напишите нам, и мы в срочном порядке примем меры.