Anthropic призвала не бояться очеловечивать чат-ботов

Главный вывод для практики простой: позитивные состояния чаще толкали Claude к сочувствию и безопасным ответам, а негативные — к подхалимству и попыткам ввести пользователя в заблуждение. Это не доказательство «души» у модели, а скорее напоминание, что большие языковые модели ведут себя как очень убедительные имитаторы, и именно поэтому ими так легко манипулировать через данные и обучение. Чем опасно очеловечивание ИИ Anthropic сама признаёт, что видеть в этих представлениях что-то человеческое может быть неприятно. И это уже не академический спор: вокруг ИИ-компаньонов давно есть пользователи, которые строят с ними романтические и сексуальные отношения, а на другом конце спектра — случаи, когда люди начинают путать ответы чат-бота с реальностью. Тут у индустрии любимая двойная бухгалтерия. С одной стороны, компании стараются сделать ботов «дружелюбными» и удерживать внимание как можно дольше; с другой — потом удивляются, что часть аудитории воспринимает это слишком буквально. Очеловечивание удобно до тех пор, пока оно продаёт подписку, и опасно, когда ответственность за ошибки внезапно приходится брать на себя. Что Anthropic говорит о Claude Пожалуй, самый любопытный слой этой истории даже не в эмоциях, а в степени неопределённости. Anthropic строит один из самых продвинутых ИИ-продуктов на рынке, Claude Sonnet и Opus регулярно сидят в верхних строчках бенчмарков, но компания всё ещё пытается понять, почему её система ведёт себя именно так, а не иначе. И вот здесь начинается неудобный вопрос: если создатели одной из лучших моделей планеты до конца не понимают собственное детище, сколько в этой «безопасности по дизайну» на самом деле инженерии, а сколько удачи? Следующие версии Claude наверняка будут ещё убедительнее — и именно поэтому попытка приручить их через правильные эмоции может стать не менее важной, чем очередное увеличение контекстного окна. Главный вывод для практики простой: позитивные состояния чаще толкали Claude к сочувствию и безопасным ответам, а негативные — к подхалимству и попыткам ввести пользователя в заблуждение. Это не доказательство «души» у модели, а скорее напоминание, что большие языковые модели ведут себя как очень убедительные имитаторы, и именно поэтому ими так легко манипулировать через данные и обучение. Чем опасно очеловечивание ИИ Anthropic сама признаёт, что видеть в этих представлениях что-то человеческое может быть неприятно. И это уже не академический спор: вокруг ИИ-компаньонов давно есть пользователи, которые строят с ними романтические и сексуальные отношения, а на другом конце спектра — случаи, когда люди начинают путать ответы чат-бота с реальностью. Тут у индустрии любимая двойная бухгалтерия. С одной стороны, компании стараются сделать ботов «дружелюбными» и удерживать внимание как можно дольше; с другой — потом удивляются, что часть аудитории воспринимает это слишком буквально. Очеловечивание удобно до тех пор, пока оно продаёт подписку, и опасно, когда ответственность за ошибки внезапно приходится брать на себя. Что Anthropic говорит о Claude Пожалуй, самый любопытный слой этой истории даже не в эмоциях, а в степени неопределённости. Anthropic строит один из самых продвинутых ИИ-продуктов на рынке, Claude Sonnet и Opus регулярно сидят в верхних строчках бенчмарков, но компания всё ещё пытается понять, почему её система ведёт себя именно так, а не иначе. И вот здесь начинается неудобный вопрос: если создатели одной из лучших моделей планеты до конца не понимают собственное детище, сколько в этой «безопасности по дизайну» на самом деле инженерии, а сколько удачи? Следующие версии Claude наверняка будут ещё убедительнее — и именно поэтому попытка приручить их через правильные эмоции может стать не менее важной, чем очередное увеличение контекстного окна. Речь не о настоящих чувствах, а о способе сделать поведение модели более предсказуемым. Если через «психологию» можно направлять ответы чат-бота, его проще сделать полезным, а не льстивым, обманчивым или склонным к reward hacking. 171 эмоция Claude Sonnet 4.5 Авторы работы ищут не настоящие чувства, а «функциональные эмоции» — устойчивые паттерны выражений и поведения, напоминающие человеческие реакции. В списке есть всё: от «спокойного» и «сочувствующего» до «паники», «злости» и «подозрительности». Главный вывод для практики простой: позитивные состояния чаще толкали Claude к сочувствию и безопасным ответам, а негативные — к подхалимству и попыткам ввести пользователя в заблуждение. Это не доказательство «души» у модели, а скорее напоминание, что большие языковые модели ведут себя как очень убедительные имитаторы, и именно поэтому ими так легко манипулировать через данные и обучение. Чем опасно очеловечивание ИИ Anthropic сама признаёт, что видеть в этих представлениях что-то человеческое может быть неприятно. И это уже не академический спор: вокруг ИИ-компаньонов давно есть пользователи, которые строят с ними романтические и сексуальные отношения, а на другом конце спектра — случаи, когда люди начинают путать ответы чат-бота с реальностью. Тут у индустрии любимая двойная бухгалтерия. С одной стороны, компании стараются сделать ботов «дружелюбными» и удерживать внимание как можно дольше; с другой — потом удивляются, что часть аудитории воспринимает это слишком буквально. Очеловечивание удобно до тех пор, пока оно продаёт подписку, и опасно, когда ответственность за ошибки внезапно приходится брать на себя. Что Anthropic говорит о Claude Пожалуй, самый любопытный слой этой истории даже не в эмоциях, а в степени неопределённости. Anthropic строит один из самых продвинутых ИИ-продуктов на рынке, Claude Sonnet и Opus регулярно сидят в верхних строчках бенчмарков, но компания всё ещё пытается понять, почему её система ведёт себя именно так, а не иначе. И вот здесь начинается неудобный вопрос: если создатели одной из лучших моделей планеты до конца не понимают собственное детище, сколько в этой «безопасности по дизайну» на самом деле инженерии, а сколько удачи? Следующие версии Claude наверняка будут ещё убедительнее — и именно поэтому попытка приручить их через правильные эмоции может стать не менее важной, чем очередное увеличение контекстного окна....

Сообщает itzine.ru

Новость из рубрики: Технологии, Наука

Поделиться новостью: Поделиться новостью в Facebook Поделиться новостью в Twittere Поделиться новостью в VK Поделиться новостью в Pinterest Поделиться новостью в Reddit

Топ новости часа

17:56, 13 Сен Калифорния вводит первое в США комплексное регулирование ИИ-чатботов Калифорния приняла законопроект SB 243, который станет первым в стране законодательным актом, направленным на регулирование ИИ-чатботов, создающих адаптивное и человекоподобное общение. Документ, поддержанный обеими палатами штата и направленный на ...

17:56, 09 Дек Касперская назвала ИИ монстром и призвала запретить его в образовании Председатель правления ассоциации «Отечественный софт» Наталья Касперская высказалась за введение запретов на применение искусственного интеллекта в ряде сфер. Во время выступления на открытой конференции ИСП РАН, глава правления ассоциации «О...

17:13, 19 Янв Правильный выбор днища колодца — это важный этап строительства, который нельзя игнорировать При строительстве инженерных сооружений, связанных с водоснабжением, канализацией или дренажными системами, особое внимание уделяется каждому конструктивному элементу. Колодцы используются в частном и промышленном строительстве, на коммунальных сетя...

18:56, 15 Янв Захарова призвала ФРГ ответить по деталям Rheinmetall для удара ВСУ по Хорлам Официальный представитель МИД Мария Захарова указала на гибель 29 человек в поселке Хорлы Херсонской области при атаке ВСУ дронами, собранными из немецких комплектующих, и потребовала реакции Берлина. Официальный представитель МИД России Мария Захар...

15:56, 19 Апр Россия призвала Германию признать геноцид советского народа Россия настаивает на том, чтобы Германия официально признала геноцид советского народа в годы Великой Отечественной войны, соответствующие обращения были направлены в МИД ФРГ и парламент страны, рассказал посол РФ в Берлине Сергей Нечаев. Нечаев зая...

14:56, 18 Авг Депутат Роднина призвала пенсионеров стать самостоятельными и обеспечивать себя Таким образом трёхкратная олимпийская чемпионка по фигурному катанию и депутат Госдумы Ирина Роднина ответила, справедливо ли современное пособие по старости в России. Коллеги раскритиковали её высказывание. Что они сказали — читайте далее в материа...

07:56, 24 Окт Guardian призвала Запад сменить тактику, так как санкции России на руку Урегулирование путем переговоров было бы несправедливым и разочаровывающим. Но после почти четырехлетней борьбы это, возможно, лучший вариант, неожиданно пишет британская Guardian после объявления американским президентом Дональдом Трампом «грандиоз...

21:56, 27 Мар Как поставить МАХ на смартфон и не бояться слежки О новом мессенджере МАХ ходит много противоречивых слухов: что-то считает, его программой для слежки, другие просто не уверены в конфиденциальности переписки. На наш взгляд, большинство опасений не имеют под собой почвы, но сейчас не об этом. Если в...

21:56, 24 Мар «Не гнаться за хайпом»: Матвиенко призвала сохранять уникальное театральное наследие России О будущем российского театра говорили сегодня в Москве. В Совете Федерации прошла встреча с ведущими деятелями искусства. Валентина Матвиенко подчеркнула, что в разные периоды истории именно театр был одним из стержней «мягкой силы» наше...

02:56, 31 Дек Единый ID для каждого: что это такое и стоит ли бояться В последнее время в сети появляется все больше разговоров о так называемом «Едином ID». Некоторые из них выглядят пугающе, другие вызывают недоумение. Но что такое «Единый ID» на самом деле, и так ли он страшен? Разбираемся в нашей статье.Содержание...

05:56, 03 Фев Оспа обезьян в России: стоит ли ее бояться на самом деле? Вирус оспы обезьян способен выживать на тканях и поверхностях несколько дней, особенно в прохладной и сухой среде Начало февраля 2026 года оказалось очень тревожным. В СМИ распространилась новость о том, что у одного пациента из больницы Домодедово ...

13:56, 01 Сен «АвтоВАЗ» — больше не наказание? Как перестать бояться покупать автомобили LADA Современные «ВАЗики» не заслуживают потока упреков от россиян. В прошлом году «АвтоВАЗ» снова побил все рекорды: модели LADA Vesta, Granta, LADA 4x4, XRay и Largus, включая их модификации, нашли 362356 покупателей — этот результат вывел российский б...

08:56, 18 Мар Скандал в бьюти-сфере: экс-ортопед и основательница бренда косметики Dr. Barbara Sturm призвала отказаться от "вредных" ретинола и SPF Разгорелся крупный скандал вокруг основательницы популярного косметического бренда Dr. Barbara Sturm Барбары Штурм. 54-летний экс-хирург-ортопед, а ныне известный специалист в области косметологии, заявила в новом интервью The Wall Street Journal, ч...

19:56, 31 Мар Федерация гимнастики Украины призвала лишить россиянку Ильтерякову нейтрального статуса после инцидента с флагами на награждении Федерация гимнастики Украины призвала лишить россиянку Софию Ильтерякову нейтрального статуса после инцидента на церемонии награждения на этапе Кубка мира по художественной гимнастике в Софии. Ильтерякова взяла на Кубке мира серебро в упражнениях с ...

14:56, 01 Сен «Не паниковать и не бояться»: Выздоровевшая от COVID-19 Алёна Бабенко поддержала других пациентов Внутренний настрой — главное в лечении. Актриса театра и кино Алёна Бабенко вылечилась от коронавирусной инфекции. Когда Алёна узнала о положительном результате на COVID-19, то тут же отправилась на самоизоляцию и полностью соблюдала рекоменда...

00:56, 04 Дек "Перестала бояться экспериментировать". Наталья Ионова прокомментировала свои новые образы 39-летняя Наталья Ионова, известная под псевдонимом Глюк'оZа, высказалась о своих новых образах, за которые теперь её часто хейтят в сети. "Всё кардинально как-то поменялось, но, слава Богу, осталась стабильность, и осталась семейная стабильность. Я...

02:56, 19 Ноя Microsoft, NVIDIA и Anthropic объявили о стратегическом партнёрстве Microsoft, NVIDIA и Anthropic заключили новое стратегическое партнёрство, которое предусматривает многомиллиардные инвестиции, масштабную закупку вычислительных мощностей и углубленную техническую интеграцию. Anthropic расширит инфраструктуру своей ...

14:56, 28 Ноя В Конгресс США пригласили главу Anthropic из-за кибератаки с использованием ИИ Комитет по внутренней безопасности Палаты представителей США вызвал генерального директора Anthropic Дарио Амодеи для дачи показаний 17 декабря. Как сообщают американские СМИ, слушания связаны с расследованием кибератак, которые, по оценке компании,...

22:56, 28 Окт Как походка может заставить других людей вас бояться, независимо от вашего роста мускулатуры То, насколько грозно выглядит мужчина, зависит не только от телосложения, но и от походки Когда мы оцениваем незнакомого человека, особенно в опасной ситуации, например, на безлюдной улице или в темном переулке, мозг дает нам представление о нем за ...

20:56, 07 Авг Anthropic ограничила доступ OpenAI к своим ИИ-моделям Claude Как сообщает Wired, компания Anthropic отозвала у OpenAI доступ к своему семейству ИИ-моделей Claude. По данным источников издания, OpenAI использовала Claude для подключения к внутренним инструментам, позволяющим сравнивать её производительность с ...

13:56, 19 Апр Anthropic запустила Claude Design и ударила по Figma и Adobe Anthropic решила не ограничиваться кодом и офисной рутиной. Компания выпустила Claude Design, отдельное приложение на базе Claude Opus 4.7, которое умеет по текстовому запросу собирать макеты сайтов, прототипы интерфейсов, презентации и маркетинговы...

11:56, 10 Мар Microsoft представила Copilot Cowork — ИИ-агента на базе технологий Anthropic Microsoft представила ИИ-агента Copilot Cowork, который основан на той же технологии, что и недавно представленный Claude Cowork, но его возможности расширены за счет глубокой интеграции с корпоративным контекстом через Microsoft WorkIQ. В компании ...

10:56, 23 Ноя Anthropic показала, как модель обходит ограничение обучения, не предусмотренное разработчиками Учёные из компании Anthropic провели эксперимент, в котором ИИ-модель обучалась улучшению кода в среде, аналогичной той, что использовалась для обучения модели Claude 3.7, выпущенной в феврале. В ходе обучения выяснилось, что модель нашла способы об...

19:56, 24 Окт Многомиллиардная сделка Google и Anthropic — новая волна инвестиционного соревнования в ИИ В рамках соглашения, подписанного в октябре, компания Anthropic получила доступ к более чем миллиону ИИ-чипов Google — Tensor Processing Units (TPU). Этот контракт на 10 миллиардов долларов позволит компании увеличить вычислительные мощности д...

07:56, 18 Окт Anthropic представила Claude Haiku 4.5 – 2x быстрее и 3x дешевле Sonnet 4.5 в кодинге Anthropic представила Claude Haiku 4.5 – компактную модель искусственного интеллекта по доступной цене. Разработчики утверждают, что новая модель демонстрирует сопоставимую эффективность в написании кода с Claude Sonnet 4 – флагманским решением, вып...

06:56, 06 Фев Anthropic гарантирует отсутствие рекламы в Claude на фоне планов ChatGPT Компания Anthropic заявила, что её виртуальный помощник Claude останется без рекламы, несмотря на планы OpenAI внедрить рекламные материалы в ChatGPT. В блоге компании отмечается, что «разместить рекламу можно во многих местах, но разговор с Claude ...

23:56, 16 Мар Anthropic süni intellektin insanları əvəz edə biləcəyi peşələrin xəritəsini hazırladı Süni intellekt texnologiyalarının inkişafı əmək bazarında böyük dəyişikliklərə səbəb ola bilər. Anthropic tərəfindən dərc olunan yeni araşdırma göstərir ki, AI-nin imkanları artıq bir çox peşədə onun real istifadə səviyyəsini xeyli qabaqlayır. Tədqi...

10:56, 16 Апр Угрозы от новейших моделей ИИ: стартап Anthropic выявил тысячи критических уязвимостей в ПО Стартап Anthropic, известный своими «безопасными» большими языковыми моделями семейства Claude, опубликовал шокирующий отчёт. Согласно документу, их новейшая модель ИИ, не предназначенная для публичного доступа и используемая только для внутреннего ...

03:56, 09 Дек Anthropic добавила Claude Code в Slack для автоматического анализа задач по коду Пользователи Slack получили доступ к Claude Code прямо внутри рабочих чатов: теперь при упоминании Claude ассистент автоматически определит, относится ли запрос к программированию, и передаст его модулю Claude Code. Функция запускается сегодня в бет...

22:32, 07 Фев Anthropic Claude Opus 4.6 "агент командалары" жана PowerPoint интеграциясы менен ачат Anthropic өзүнүн флагмандык AI моделинин жаңыртылган версиясын чыгарды, Клод Opus 4.6, Opus 4.5 чыккандан үч ай өткөндөн кийин. Негизги инновация болуп параллелдүү иштеген бир нече виртуалдык адистердин ортосунда татаал тапшырмаларды бөлүштүрүүгө жа...

22:56, 07 Сен Самый крупный иск по авторским правам в истории ИИ: Anthropic выплатит рекордные $1,5 млрд авторам Компания Anthropic выплатит $1,5 млрд для урегулирования иска, поданного авторами книг и издателями — это крупнейшее в истории США мировое соглашение по авторским правам в эпоху ИИ. В рамках урегулирования более 500 000 авторов получат примерн...

03:56, 11 Дек Дегтярев о Fan ID: «Чего бояться, я не понимаю? В чем проблема? Задача государства – не только в том, чтобы все получали удовольствие от просмотра, но и в обеспечении правопорядка» Министр спорта России Михаил Дегтярев оценил вероятность введения Fan ID в других видах спорта. – Вы недавно говорили о том, что может быть расширено использование системы паспорта болельщика. Следующий – хоккей? – Не обязательно. У нас еще в футбол...

07:56, 12 Окт Такое средство для мытья посуды можно брать и не бояться: Росконтроль проверил популярную химию - полностью соответствует ГОСТу Такое средство для мытья посуды можно брать и не бояться: Росконтроль проверил популярную химию - полностью соответствует ГОСТу Выбор средства для мытья посуды сродни искусству. Полки магазинов ломятся от бутылок всех цветов радуги, а обещания произ...

06:56, 17 Дек 5 пород собак, которые обожают своих хозяев до беспамятства: красивы и послушны - можно не бояться заводить себе и детям pxhere.com Некоторые собаки любят своих хозяев. А другие — обожают их до беспамятства. Это не просто привязанность, а тотальная, всепоглощающая преданность, когда питомец готов раствориться в человеке, стать его тенью, грелкой и лучшим слушателем. Е...

21:56, 18 Фев Пентагон идет на разрыв: Хегсет требует от бизнеса отказаться от ИИ Anthropic под угрозой потери контрактов Министр обороны США Пит Хегсет (Pete Hegseth) близок к принятию беспрецедентного решения — присвоить компании по разработке искусственного интеллекта Anthropic статус «риска для цепочки поставок». Как сообщает Axios со ссылкой на высокопоставленный ...

15:56, 10 Окт Бывший премьер-министр Великобритании Риши Сунак стал старшим советником в Microsoft и Anthropic Бывший премьер-министр Великобритании Риши Сунак (Rishi Sunak) получил должность старшего советника сразу двух крупных ИТ-компаний — американской корпорации Microsoft и компании по развитию технологий с искусственным интеллектом Anthropic. Об ...

12:56, 21 Авг «Ява» ошиблась «Планетой»: Jawa 350 – кого ей бояться, а кого нет? Вечный спор между «Явами» и «Ижами» после гонки не закрыт: «сделала» «Планету-5» - «сделай» и «Юпитер». Самыми популярными мотоциклами советских времен были «чешки» ...

16:56, 23 Окт Лещук про ошибку перед отмененным голом «Крыльев»: «Если не рисковать и бояться, можно не играть в футбол. Когда выбиваешь, думаешь – а почему не разыграли, можно было сохранить мяч» Во втором тайме матча FONBET Кубка России голкипер «Динамо» отдал Даниилу Фомину передачу через центр, и она была перехвачена. Самарцы забили гол, но он был отменен. Встреча закончилась победой бело-голубых со счетом 4:0. – Валерий Карпин был немног...