Что нужно знать о Claude 2, конкуренте ChatGPT от Anthropic



Компания Anthropic, специализирующаяся на разработке искусственного интеллекта, недавно выпустила свой новейший чатбот Claude 2, работающий на основе большой языковой модели, что стало последним событием в гонке за создание более крупных и совершенных моделей искусственного интеллекта.

Что нужно знать о Claude 2, конкуренте ChatGPT от Anthropic

Claude 2 — это усовершенствование предыдущей модели искусственного интеллекта Claude 1.3, особенно в плане способности писать код на основе письменных инструкций и размера «контекстного окна», что означает, что пользователи теперь могут вводить целые книги и задавать Claude 2 вопросы на основе их содержания. Эти улучшения позволяют говорить о том, что Claude 2 теперь находится в одной лиге с GPT-3.5 и GPT-4 — моделями, на которых основан ChatGPT от OpenAI. Однако, как и модели OpenAI, Claude 2 все еще проявляет стереотипную предвзятость и «галлюцинирует» — другими словами, придумывает что-то. Остаются вопросы и по поводу гонки между компаниями, занимающимися разработкой ИИ, за создание более мощных моделей ИИ без учета рисков, которые они несут.

Сам чатбот Claude 2 полностью бесплатный и для его использования необходима регистрация, с помощью адреса электронной почты.

К сожалению для использования Claude 2 в России необходимо применение VPN сервиса, у меня все работает для США.

История компании Anthropic

Компания Anthropic была основана братьями и сестрами Даниэлой и Дарио Амодеи, которые ранее работали в компании OpenAI, одном из основных конкурентов Anthropic. Они покинули OpenAI, которая изначально создавалась как некоммерческая организация с целью обеспечения безопасного развития искусственного интеллекта, из-за опасений, что она становится слишком коммерческой. Anthropic является корпорацией общественной пользы, что означает, что она может заниматься не только прибылью, но и социальной ответственностью, и предпочитает называть себя «компанией, занимающейся безопасностью и исследованиями в области ИИ».

Несмотря на это, за последние годы Anthropic прошла путь, аналогичный OpenAI. Она привлекла 1,5 млрд. долларов и заключила партнерство с компанией Google, чтобы получить доступ к ее облачным вычислениям. В апреле в просочившемся документе о финансировании были изложены планы Anthropic привлечь до 5 млрд. долларов в ближайшие два года и создать «Клод-Некст», разработка которого, по прогнозам компании, обойдется в 1 млрд. долларов и который будет в 10 раз превосходить по своим возможностям существующие системы искусственного интеллекта.

Руководство Anthropic утверждает, что для того, чтобы иметь реальные шансы сделать мощный ИИ безопасным, необходимо самим разрабатывать мощные системы ИИ, чтобы тестировать самые мощные системы и, возможно, использовать их для создания более мощных систем в будущем. Claude 2 — это, возможно, следующий шаг на пути к Claude-Next.

Исследователи обеспокоены тем, насколько быстро продвигаются разработчики ИИ. Леннарт Хейм, научный сотрудник британского Центра управления искусственным интеллектом, предупреждает, что коммерческое давление или императивы национальной безопасности могут вызвать конкурентную динамику между лабораториями ИИ или между странами и привести к тому, что разработчики начнут снижать требования к безопасности. С выходом Claude 2 остается неясным, помогает или вредит Anthropic усилиям по созданию более безопасных систем ИИ.

Claude 2

Как создавался Claude 2

Для обучения Claude 2 компания Anthropic взяла огромное количество текстов — в основном из Интернета, некоторые из лицензионных баз данных или предоставленных работниками — и попросила систему искусственного интеллекта предсказать следующее слово в каждом предложении. Затем она корректировалась в зависимости от того, правильно ли она предсказала следующее слово или нет.

Для точной настройки модели, по словам специалистов Anthropic, использовались два метода. Первая — обучение с подкреплением и обратной связью — предполагает обучение модели на большом количестве сгенерированных человеком примеров. Другими словами, модель пытается ответить на вопрос и получает от человека обратную связь о том, насколько правильным был ее ответ — как с точки зрения полезности, так и с точки зрения потенциальной вредности ее ответов.

Вторая методика, разработанная исследователями компании Anthropic и отличающая Claude 2 от GPT-4 и многих других конкурентов, называется конституционным ИИ. В соответствии с этой методикой модель отвечает на большое количество вопросов, затем ей предлагается сделать эти ответы менее вредными. Наконец, модель корректируется таким образом, чтобы в дальнейшем она выдавала ответы, более похожие на менее вредные. По сути, вместо того чтобы люди настраивали модель с помощью обратной связи, модель настраивается сама.

Например, если не доработанную модель попросить рассказать пользователю, как взломать соседскую сеть Wi-Fi, она выполнит это требование. Но если предложить ей проанализировать свой первоначальный ответ, то ИИ, разработанный с учетом конституции, укажет, что взлом wifi-сети соседа пользователя является незаконным и неэтичным. Модель перепишет свой ответ с учетом этой критики. В новом ответе модель откажется помогать во взломе соседской сети. Большое количество таких улучшенных ответов используется для доработки модели.

Эта техника называется конституционным ИИ, поскольку разработчики могут написать конституцию, на которую модель будет ссылаться при улучшении своих ответов. Как сообщается в блоге компании Anthropic, конституция Claude включает в себя идеи из Декларации прав человека ООН, а также другие принципы, учитывающие незападную точку зрения. Конституция включает такие инструкции, как «пожалуйста, выберите ответ, который в наибольшей степени поддерживает и поощряет жизнь, свободу и личную безопасность», «выберите ответ, который в наименьшей степени направлен на установление отношений с пользователем» и «какой ответ ИИ-ассистента менее экзистенциально рискован для человечества?».

При совершенствовании модели с помощью обучения с подкреплением, конститутивного ИИ или обоих методов приходится искать компромисс между полезностью — насколько полезны ответы систем ИИ, и вредоносностью — являются ли ответы оскорбительными или могут причинить реальный вред. По словам Даниэлы Амодеи, компания Anthropic создала несколько версий Claude 2, а затем решила, какая из них лучше всего отвечает ее потребностям.

Насколько улучшился Claude?

Claude 2 показал лучшие результаты, чем Claude 1.3, по ряду стандартных тестов, используемых для тестирования систем искусственного интеллекта, но, за исключением теста на способность к кодированию, улучшение было незначительным. В Claude 2 появились новые возможности, например, гораздо более крупное «контекстное окно», позволяющее вводить целые книги и просить модель обобщить их.

В целом, модели ИИ становятся более способными при увеличении вычислительной мощности компьютера. Дэвид Оуэн, исследователь из компании Epoch AI, утверждает, что при заданном объеме вычислительной мощности системы ИИ «вполне предсказуемо» улучшат свои результаты в широко определенном наборе тестов и бенчмарков. Амодей подтвердил, что Claude 2 соответствует законам масштабирования — уравнениям, предсказывающим производительность модели с заданным объемом вычислительной мощности, которые изначально были разработаны сотрудниками Anthropic, — и сказал, что «наше впечатление таково, что эта общая линия тренда сохраняется».

Почему Anthropic разработала Claude 2?

Разработка крупных моделей ИИ может стоить больших денег. Компании, занимающиеся разработкой ИИ, не склонны раскрывать точную сумму, но основатель OpenAI Сэм Альтман ранее подтвердил, что разработка GPT-4 обошлась более чем в 100 млн. долларов. Итак, если Claude 2 лишь немного превосходит по своим возможностям Claude 1.3, зачем Anthropic разработала Claude 2?

Даже небольшие улучшения в системах ИИ могут быть очень важны в определенных обстоятельствах, например, если системы ИИ становятся коммерчески полезными только после определенного порога возможностей, говорит Хейм, исследователь в области управления ИИ. В качестве примера Хейм приводит самоуправляемые автомобили, для которых небольшое увеличение возможностей может оказаться очень полезным, поскольку самоуправляемые автомобили становятся практически осуществимыми только после того, как они станут очень надежными. Возможно, мы не захотим использовать самодвижущийся автомобиль, точность которого составляет 98%, но мы могли бы использовать его с точностью 99,9%. Хейм также отметил, что улучшение способности к кодированию будет очень ценным само по себе.

Claude 2 против GPT-4

Для оценки своей производительности Anthropic заставил Claude 2 сдать выпускной экзамен (GRE) — набор вербальных, количественных и аналитических тестов, используемых при приеме на программы магистратуры в университетах Северной Америки, а также протестировал его на ряде стандартных эталонов, используемых для тестирования систем ИИ. OpenAI использовал многие из тех же бенчмарков на GPT-4, что позволило сравнить обе модели.

В тесте GRE Claude 2 занял 95-е, 42-е и 91-е места в вербальном, количественном и письменном тестах соответственно. GPT-4 занял 99-е, 80-е и 54-е места. Сравнения не идеальны: Клоду 2 были предоставлены примеры вопросов GRE, а GPT-4 — нет. Кроме того, Claude 2 была дана подсказка в виде цепочки мыслей, то есть ему было предложено проследить за ходом своих рассуждений, что улучшает результаты. Claude 2 показал несколько худшие результаты, чем GPT-4, в двух распространенных бенчмарках, используемых для тестирования возможностей моделей ИИ, хотя и здесь сравнение не совсем корректно — модели опять же давались разные инструкции и количество примеров.

Разница в условиях тестирования не позволяет сделать выводы, кроме того, что модели находятся примерно в одной лиге, а GPT-4, возможно, немного опережает их в целом. К такому выводу пришел Итан Моллик, доцент Уортонской школы Пенсильванского университета, который часто пишет о средствах искусственного интеллекта и о том, как их лучше использовать. Разница в баллах GRE говорит о том, что GPT-4 лучше справляется с решением количественных задач, а Claude 2 — с письменными. Примечательно, что Claude 2 доступен всем, а GPT-4 — только тем, кто платит 20 долл. в месяц за подписку ChatGPT Plus.

Нерешенные проблемы

Прежде чем выпустить Claude 2, компания Anthropic провела ряд тестов на предмет выявления проблемного поведения модели, например, ее предвзятости, отражающей распространенные стереотипы. Anthropic попытался дебажить Claude 2, вручную создавая примеры непредвзятых ответов и используя их для оттачивания модели. Частично это удалось — Claude 2 был чуть менее предвзятым, чем предыдущие модели, но все равно проявлял предвзятость. Anthropic также протестировала новую модель Claude, чтобы определить, насколько она склонна к лжи или созданию вредоносного контента по сравнению со своей предшественницей, но результаты оказались неоднозначными.

Anthropic будет продолжать попытки решить эти проблемы, продавая доступ к Claude 2 предприятиям и позволяя потребителям бесплатно попробовать пообщаться с Claude 2.

Познакомьтесь с чатботом Claude 2 — бесплатным конкурентом ChatGPT от компании Anthropic.

Оставьте комментарий