Anthropic заплатит до $15 000 хакерам, которые найдут уязвимости в её ИИ-системах

2 Min Read

Инициатива направлена на поиск «универсальных методов обхода», то есть способов взлома, которые могли бы последовательно обходить меры безопасности ИИ в таких областях высокого риска, как химические, биологические, радиологические и ядерные угрозы, а также в области киберпространства. Как сообщает ресурс VentureBeat, компания Anthropic пригласит этичных хакеров для проверки своей системы ещё до её публичного запуска, чтобы сразу предотвратить потенциальные эксплойты, которые могут привести к злоупотреблению её ИИ-системами.

Интересно, что данный подход отличается от стратегий других крупных игроков в области ИИ. Так, OpenAI и Google имеют программы вознаграждений, но они больше сосредоточены на традиционных уязвимостях программного обеспечения, а не на специфических для ИИ-индустрии эксплойтах. Кроме того, компания Meta недавно подверглась критике за относительно завуалированную позицию в области исследований безопасности ИИ. Напротив, явная нацеленность Anthropic на открытость устанавливает новый стандарт прозрачности в этом вопросе.

Однако эффективность программ поиска уязвимостей в решении всего спектра проблем безопасности ИИ остаётся спорной. Эксперты отмечают, что может потребоваться более комплексный подход, включающий обширное тестирование, улучшенную интерпретируемость и, возможно, новые структуры управления, необходимые для обеспечения глобального соответствия систем искусственного интеллекта человеческим ценностям.

Программа стартует как инициатива по приглашению (закрытое тестирование) в партнёрстве с известной платформой HackerOne, но в будущем Anthropic планирует расширить программу, сделав её открытой и создав отдельную независимую модель для отраслевого сотрудничества в области безопасности ИИ.

Share This Article