Почему Midjourney некорректно генерирует руки и должны ли нейросети обучаться на своих же изображениях?

Все, наверное, уже наслышаны про широкое применение нейросетей не только в обычной жизни, но и работе. С появлением ChatGPT (нейросети, которая генерирует текст), ставшей одной из самых популярных в обсуждениях, за последние полгода в широком доступе оказались новые инструменты.

Основной принцип моделей ИИ, таких как ChatGPT, является обучение на огромных наборах данных, включающих тексты из интернета. Этот скоп информации используется, чтобы научить такие модели предсказывать следующее слово или предложение на основе предшествующего контекста. Появились и нейросети, которые по этому же принципу генерируют изображения по вашему запросу.

Продукт, производимый подобными нейросетями, мягко говоря, далеко не идеален. Однако он уходит в народ и также появляется на просторах интернета, откуда сами эти нейросети и берут информацию.

И тут возник весьма логичный вопрос, которым задался Forbes: что будет, если обучать искусственный интеллект на текстах, написанных его же «коллегой»? И, забегая вперед, сразу отвечу — будет еще больше ошибок.

А теперь давайте подробнее.

Проблема «шумных» данных была в машинном обучении всегда, начиная с классических моделей. Однако в данный момент ей стали уделять более пристальное внимание. Связано это с тем, что такой выход модели как «текст» или «изображение» человеку проще оценить критически, нежели некоторые числовые выходы.

В общих чертах исходные «шумные» данные имеют ошибки, которые неизбежно воспроизводятся моделями. При этом при переиспользовании результатов одной модели в рамках другой эта ошибка будет только накапливаться.

Одной из самых известных на данный момент ошибок стала некорректная генерация рук нейросетью Midjourney. Представим, что эти данные считаются корректными и опубликовываются в открытых источниках. Тогда все последующие модели, которые будут получать для обучения такие примеры, будут считать их вполне релевантными, при этом накапливая также иные ошибки. Таким образом, ошибки накапливаются в прогрессии. Поэтому проблема, о которой говорилось в исследовании британских и канадских ученых, серьёзная, но далеко не новая.

В конечном итоге исследуемая проблема может привести к тому, что сгенерированные моделями объекты не будут иметь какого-то смысла в человеческом понимании или в худших случаях не будут соответствовать нормам морали.

Другой вопрос заключается в том, насколько и для кого такие проблемы будут являться критичными. И в данном случае все очень сильно упирается в предметную область применения нейросетей. Если генерация «некрасивых картинок» для личного пользования не ведёт ни к чему плохому, то некорректное описание медицинского диагноза и его лечения может стоить человеку жизни.

Основной способ решения данной проблемы, на мой взгляд, это качественный контроль экспертами исходных данных. При невозможности изучения больших объёмов информации ориентироваться так или иначе стоит на выходной результат модели. Для этого существуют специальные методики тестирования, по которым с определенной степенью достоверности можно говорить о качестве работы той или иной модели.

Искусственный интеллект

На эти и другие вопросы о перспективах развития общедоступных нейросетей отвечает Константин Романов