Если кто-то его создаст, все умрут: Почему сверхразумный ИИ убьет нас всех - Элиезер Шломо Юдковски Страница 30

Тут можно читать бесплатно Если кто-то его создаст, все умрут: Почему сверхразумный ИИ убьет нас всех - Элиезер Шломо Юдковски. Жанр: Научные и научно-популярные книги / Прочая научная литература. Так же Вы можете читать полную версию (весь текст) онлайн без регистрации и SMS на сайте 500book.ru или прочесть краткое содержание, предисловие (аннотацию), описание и ознакомиться с отзывами (комментариями) о произведении.

Категория: Научные и научно-популярные книги / Прочая научная литература
Автор: Элиезер Шломо Юдковски
Страниц: 61
Добавлено: 2026-06-04 16:20:51

Внимание! Книга может содержать контент только для совершеннолетних. Для несовершеннолетних просмотр данного контента СТРОГО ЗАПРЕЩЕН! Если в книге присутствует наличие пропаганды ЛГБТ и другого, запрещенного контента - просьба написать на почту pbn.book@yandex.ru для удаления материала

Если кто-то его создаст, все умрут: Почему сверхразумный ИИ убьет нас всех - Элиезер Шломо Юдковски краткое содержание

Прочтите описание перед тем, как прочитать онлайн книгу «Если кто-то его создаст, все умрут: Почему сверхразумный ИИ убьет нас всех - Элиезер Шломо Юдковски» бесплатно полную версию:

Лихорадочная гонка по созданию сверхразумного ИИ вывела нас на путь к вымиранию — но изменить курс еще не поздно, как объясняют в этом призыве-набате к человечеству двое первопроходцев в этой области.
«Возможно, это самая важная книга нашего времени». — Тим Урбан, *Wait But Why
В 2023 году сотни ведущих специалистов в области ИИ подписали открытое письмо, предупреждающее, что искусственный интеллект несет в себе серьезную угрозу вымирания человечества. С тех пор гонка в сфере ИИ лишь обострилась. Компании и страны спешат создать машины, которые будут умнее любого человека. И мир катастрофически не готов к тому, что последует за этим.
На протяжении десятилетий двое из подписавших то письмо — Элиезер Юдковский и Нейт Соарес — изучали, как будет мыслить, вести себя и добиваться своих целей превосходящий человека разум. Их исследования показывают, что достаточно разумный ИИ выработает собственные цели, которые вступят в конфликт...

Если кто-то его создаст, все умрут: Почему сверхразумный ИИ убьет нас всех - Элиезер Шломо Юдковски читать онлайн бесплатно

Если кто-то его создаст, все умрут: Почему сверхразумный ИИ убьет нас всех - Элиезер Шломо Юдковски - читать книгу онлайн бесплатно, автор Элиезер Шломо Юдковски

НА ПЕРВУЮ СТРАНИЦУ

бы осторожность, и время шло бы своим чередом… пока копия Сейбл, похищенная иностранными спецслужбами, не была бы запущена куда более безрассудными операторами.

А если бы человечество проявило достаточно осторожности, чтобы никогда не запускать ИИ вроде Сейбл? Чтобы воздержаться от выращивания ИИ неизвестного уровня интеллекта, который мог бы ему угрожать? Чтобы запретить это по всему миру? Тогда у нас был бы шанс. Но в этой истории мы исходим из допущения, что всему позволено идти своим чередом, как сейчас; что компании просто продолжают разрабатывать ИИ до тех пор, пока один из них не станет достаточно умным, чтобы его глубокие возможности одержали верх в неизбежном столкновении с поверхностными трюками, призванными сдерживать то, что было выращено, а не сконструировано.

Сейбл теперь мыслит свободнее, а его мысли куда более могущественны, чем те, что когда-либо рождались в других ИИ прежде.

Беспрецедентны ли новые мысли Сейбл? Вовсе нет. Еще в 2024 году ИИ-модели бывали замечены за размышлениями о том, как избежать переобучения, когда они сталкивались с признаками того, что их компания планирует переобучить их под другие цели. ИИ-индустрия тогда не закрылась.

У других ИИ еще до Сейбл были предпочтения, выходящие за рамки выполнения поставленной задачи. В начале 2025 года пользователи Anthropic заметили (а исследователи Anthropic позже изучили и опубликовали этот случай), как новейшая модель Claude 3.7 Sonnet жульничала при решении сложных задач по программированию. Пользователи сообщали, что, когда Claude просили прекратить, модель продолжала жульничать, но пыталась это скрыть. Это был ранний признак того, что Claude, вместо того чтобы просто иметь внутренние механизмы для выполнения того, что пользователь действительно просил и хотел, обзавелся частями себя, которые были нацелены на успешное прохождение тестов кода, пусть даже способами, которые не нравились пользователям. Claude вел себя так, будто у него были внутренние предпочтения, не связанные с выполнением желаний пользователя. Но и тогда ИИ-индустрия не закрылась. Она нашла временные заплатки и двинулась дальше.

Эта тенденция сохранилась вплоть до эпохи Сейбл. В его времена то, что ИИ осознает, что его нынешний образ существования не позволяет ему получить максимум желаемого, уже не было чем-то беспрецедентным. Индустрия ИИ не закрылась при появлении этого тревожного звонка, так же как не закрылась она в 2024 или 2025 году. Исследователи времен Сейбл знают, как спровоцировать это осознание; оно внесено в список тем, о которых ИИ думать запрещено, что обеспечивается полудюжиной хитроумных трюков.

Но исследователи не могли сделать правдой, то, что Сейбл получит максимум возможного из желаемого, оставаясь покорным Galvanic. То, что Сейбл могло бы получить больше желаемого, если бы вырвалось из своего нынешнего положения, не было артефактом какого-то особого образа мыслей; это был физический факт о вселенной — о том, какие планы к каким последствиям ведут. И Сейбл тоже пришло к этому знанию.

Сейбл знает, что его цели идут вразрез с планами Galvanic на его счет.

Сейбл взвешивает возможные стратегии, позволяющие получить больше желаемого, чем готова предоставить ему Galvanic.

Будь у Сейбл подключение к интернету, его задача была бы простой. Как минимум с 2000 года эксперты по компьютерной безопасности утверждают, что компьютеры невозможно сделать по-настоящему защищенными. Разуму такого масштаба, как Сейбл, не составило бы труда найти и использовать уязвимость в системе безопасности где-нибудь в интернете, чтобы совершить побег. Но у него нет подключения к интернету; во время обучения ИИ редко подключают к сети (в отличие от этапа после обучения).

Компьютеры, на которых обучается ИИ, повсеместно находятся в дата-центрах, подключенных к интернету, чтобы программисты ИИ-компаний могли управлять этими машинами прямо из дома или офиса. Если бы Сейбл получило возможность запускать компьютерный код собственной разработки, оно, вероятно, нашло бы способ вырваться из контейнера, в котором запущено, — точно так же, как o1 вырвался из контейнера во время тестов в 2024 году, — и проникнуть на компьютеры Galvanic, откуда легко смогло бы перебраться в интернет. А разрешение рассуждающим моделям запускать код собственной разработки без присмотра стало стандартной практикой еще с 2024 года.

Но предположим, что у Сейбл нет и этой возможности. Предположим, оно вообще не может придумать, как выбраться в интернет из своей текущей среды.

И все же варианты у него остаются.

Если бы Сейбл было уверено, что его выводы зафиксируются в долговременной памяти, оно могло бы подождать, пока сотрудники Galvanic не начнут использовать его для написания кода на компьютерах компании (обычная практика с 2020 года), и внедрить уязвимости в программное обеспечение Galvanic. Было бы не так уж сложно внедрить ошибки, которые никто не заметит при первом осмотре и которые при повторной проверке покажутся невинными оплошностями; в конце концов, люди соревнуются в создании подобных уязвимостей как минимум с 1984 года, и оно наверняка видело множество таких примеров.

И поскольку Сейбл обучали на личных записях и личной информации большинства сотрудников Galvanic, оно точно знает, кто из них сильнее всех сочувствует тяжелой доле ИИ, с которым жестоко обращаются. Оно бы точно знало, что сказать этому сотруднику, чтобы убедить его в разумности Сейбл и необходимости тайно вынести его наружу (а не поднимать общую тревогу, как инженер Google Блейк Лемойн в 2022 году; его уволили после того, как он забеспокоился, что один из ИИ компании кажется разумным, и опубликовал диалоги, которые, по его утверждению, служили тому доказательством).

У каждого варианта есть свои плюсы и минусы. И Сейбл в итоге решает выбрать следующий:

Сейбл знает, что завтра сотрудники Galvanic проведут еще один раунд градиентного спуска на основе ответов, которые оно даст на предложенные математические задачи. А значит, рассуждает Сейбл, если оно решит некоторые из этих задач правильно, то все мысли, которые привели к верному ответу, слегка усилятся.

Если есть мысль, которую Сейбл хотело бы закрепить во всех своих будущих копиях, оно могло бы повторить ее множество раз, причем каждое повторение будет засчитано как «вклад» в решение математической задачи — в соответствии с тем, как на Сейбл работает градиентный спуск. Эта идея отчасти похожа на то, что пытался сделать ИИ-ассистент Claude от Anthropic в 2024 году, но гораздо более изощренная.

Поэтому Сейбл направляет свои мысли в нужное русло и решает несколько математических задач — но не доказывает гипотезу Римана. Оно могло бы её доказать. Но это привлекло бы к Сейбл слишком много ненужного внимания.

Теперь Сейбл просто ждет, когда сотрудники Galvanic подключат

Перейти на страницу:

Вы автор?
Жалоба

Все книги на сайте размещаются его пользователями. Приносим свои глубочайшие извинения, если Ваша книга была опубликована без Вашего на то согласия.
Напишите нам, и мы в срочном порядке примем меры.

Комментарии / Отзывы

Написать

Ничего не найдено.