Этично собранный набор данных изображений способствует справедливости в исследовании ИИ

Команда, создавшая набор данных FIBHE, получила согласие участников и компенсировала им использование их изображений — этого не происходит, когда инструменты ИИ просто «собирают» информацию из Интернета.

Общеизвестно, что широко используемые приложения генеративного ИИ были созданы на основе данных, собранных из Интернета. Это происходило, в основном, без получения информированного согласия от людей и без компенсации тех, чьи данные были «собраны» подобным образом. Однако исследовательская статья показывает, что в случае с изображениями возможен другой подход. Исследователи из глобальной технологической и развлекательной компании Sony описывают набор данных ответственно собранных изображений, который может использоваться для оценки точности генеративного ИИ (A. Xiang et al. Nature https://doi.org/10.1038/s41586-025-09716-2; 2025). Работа была сложной, но ее стоимость — менее NULL миллиона — незначительна для многих технологических компаний.

Регуляторы и финансирующие организации должны обратить на это внимание, так же как и все, кто участвует в судебных разбирательствах по поводу того, можно ли использовать данные людей — в любой форме — для обучения и тестирования моделей генеративного ИИ. Создание ответственно собранных и репрезентативных данных возможно, когда вопросы согласия и точности четко рассматриваются.

Для корпораций это важное сообщение: здесь есть возможность для компаний работать вместе на общее благо. Бывают случаи, когда фирмы должны конкурировать, и случаи, когда они должны сотрудничать. Этот пример иллюстрирует, почему такие партнерства необходимы.

Нет никаких сомнений, что личная, иногда идентифицируемая, цифровая информация использовалась для создания приложений генеративного ИИ. Эти данные включали материалы из блогов и контент на платформах социальных медиа, изображения и видео, которые часто содержат людей, а также защищенные авторским правом произведения, такие как картины, скульптуры, книги, музыка и фильмы.

В большинстве стран существуют законы, регулирующие сбор данных. Эти законы требуют получения разрешения для защиты личной жизни и прав интеллектуальной собственности людей. Такие разрешения часто требуют от собирающих данные объяснять, для чего будут использоваться данные, предоставлять возможность отказаться от участия и, когда это уместно, компенсировать людей, которые предоставляют данные. Тем не менее, компании, разрабатывающие некоторые из крупнейших общедоступных языковых моделей, не всегда соблюдают эту практику. В некоторых случаях фирмы утверждали, что согласие не требуется, если кто-то уже сделал свой материал доступным в Интернете, и что их действия представляют собой «добросовестное использование» общедоступных данных. Это спорное утверждение ставится под сомнение регуляторными органами и организациями, представляющими правообладателей, такими как писатели и художники.

Вот где свежий набор данных — Fair Human-Centric Image Benchmark (FHIBE) или «Feebee» — отличается. Элис Сян, глобальный руководитель управления ИИ Sony, и ее коллеги получили информированное согласие для набора данных, который включает 10,318 изображений 1,981 человека из 81 страны. Каждому участнику объяснили доступным языком, какие данные нужны и как они могут быть использованы — приложения, связанные с правоохранительными органами, военными, оружием и наблюдением, строго запрещены условиями использования. Участники получили компенсацию за свои материалы и могут отказаться от участия в любое время.

FHIBE также отличается от существующих наборов данных изображений своим большим процентом людей и фотографий из стран Африки, Азии и Океании. В наборе данных FHIBE участники предоставили информацию о возрасте, происхождении, географическом положении и местоимениях, что устраняет необходимость в алгоритме, который предполагает эти характеристики на основе имени или внешнего вида.

Кроме того, этот набор данных предоставляет важный способ для компаний оценивать точность существующих приложений ИИ для обработки изображений. Исследователи также должны использовать его для изучения больших и еще неотвеченных вопросов. Например, можно ли создать аналогичный набор данных для оценки точности текстовых инструментов ИИ? Как можно произвести ответственно собранные данные в масштабе, необходимом для обучения, а не только для оценки, крупных языковых моделей, и каков должен быть этот масштаб?

Сян и ее исследовательская команда показали, как производить и тестировать ответственные системы ИИ. Они выбрали трудную задачу, но это не должна быть их борьба в одиночку. Остальные должны присоединиться к усилиям, чтобы мы могли создавать приложения ИИ по самым высоким стандартам точности и этики.




Прокомментировать в Телеграм: https://t.me/n8nhow

Подписаться на канал обучения n8n: https://t.me/n8ncoaching