Automated System for Evaluating 2D-Image Compositional Characteristics: Concept

Al Akkad M.A., Gazimzyanov F.F.

Abstract


This paper is devoted to the development of the concept and architecture of an automated system for evaluating 2D-images compositional characteristics. The importance of image evaluation in terms of human perception and aesthetics using computer is justified. After a brief review of the development of this topic and related classical methods, only one scientific work in this field was found, in which a computer was used to assess the aesthetic characteristics of paintings, the advantages and disadvantages of this research and the developed methods were discussed. Then, Arnheim methodology was introduced and proposed as the basis for creating the suggested image evaluation system. The results of experiments prove that the chosen methodology accurately reflects the mechanisms of human perception.

Keywords


R. Arnheim; image analysis; compositional characteristics; aesthetics; automation

Full Text

Введение Последние достижения в области распознавания образов, обработки изображений и видео с помощью нейронных сетей вызывают в обществе сильный резонанс и восторг: разрушается устойчивое убеждение в невозможности применить информационные технологии в таком «человеческом» поле деятельности. Может показаться, что компьютерные системы начали эффективно решать поставленные задачи, однако в такой человеко-ориентированной области результат решения поставленной задачи должен оцениваться с точки зрения человеческого восприятия и не может быть решен так же, как поиск похожих изображений или выделение определенных признаков. Поэтому достигнутые результаты не позволяют решить некоторые задачи в полной мере: стало возможным найти изображение конкретного объекта в массиве данных, но мы не сможем выбрать лучшее изображение с точки зрения человеческого восприятия и эстетики; мы можем придать фото или видео стиль работ великих художников, но ни одна система не сможет оценить получившийся результат и его художественную ценность. Мы можем генерировать 2D- и 3D-сцены, но автоматически отсеять некачественный контент будет невозможно. Очевидно, что необходима система, которая сможет производить оценку эстетических и композиционных характеристик изображений. Именно такой дополнительный модуль в системах распознавания позволит более полно решить те задачи, которые сейчас пытаются решать обычными методами распознавания или при участии человека. Существующие методы оценки изображений Стремление понять человеческое восприятие и существо эстетики присутствует уже в работах античных философов. Диалог Платона «Гиппий Больший», посвященный идее прекрасного, является ярким тому примером [1]. Развитие знаний и понимания факторов, которые влияют на человеческое восприятие, в первую очередь выражалось в самих произведениях искусства и творчестве. Наличие школ, направлений, преемственность и передача приемов и стиля от учителя к ученику хотя и не подразумевало создание и существование универсальных базовых систематизированных методологий, но явно показывало, что в области существует своя система оценки и понимания эстетического качества произведения [2]. Из первых теоретических попыток объяснить феномен восприятия и эстетики важно упомянуть «Трактат о живописи» - сборник записей Леонардо да Винчи, составленный Франческо Мельци. Помимо практических знаний по живописи, рисунку и обучению художников в трактате присутствует описание аппарата суждений, которым оперирует живописец, а также рассматривается вопрос создания качественных работ при помощи использования этих структур [3]. Поздние теоретические работы вбирали в себя знания геометрии и математики. Позже, при становлении психологии и развитии этой области, появились новые попытки систематизации. Современные авторы, такие как Р. Арнхейм и С. М. Даниэль, используя накопленные теоретические научные и практические знания, попытались создать универсальные методы оценки произведений искусств, оперирующие базовыми понятиями, связанными с человеческим восприятием. Появление ЭВМ и новых информационных методов в обработке данных позволили подойти к этому вопросу с новой стороны. После анализа исследований и разработок в данной области была найдена научная работа «Aesthetic Visual Quality Assessment of Paintings» [4]. Стоит сразу отметить, что авторы вышеназванной работы нашли лишь отдаленно связанные с этой темой научные работы, объектом изучения которых были фотографии. Предложенный подход хорошо автоматизирован и задействует современные методы машинного обучения. Он показывает приемлемый результат, однако мы видим в этом подходе несколько существенных недостатков. Во-первых, выбор параметров для оценки эстетического качества работы художника обоснован, на наш взгляд, скорее, техническими возможностями, чем предметной областью. В этом несложно убедиться, обратившись к описанию традиционных академических методов оценки произведений искусств [5, 6]. Также сомнительным кажется решение избегать анкетирования специалистов и делать выбор в пользу обычных людей, что делает систему настроенной на «популярное», а не на действительно качественное и профессиональное восприятие. Во-вторых, разработанная таким образом система не позволяет нам лучше понять человеческое восприятие и остается в некоторой мере черным ящиком. Это свойственно для систем, которые задействуют машинное обучение. Несмотря на успехи в интерпретации нейронных сетей [7], разработка «точных» методов, когда это возможно, позволяет нам достичь бόльшей производительности и понимания процесса, с которым мы работаем, предметной области. И, в-третьих, разработанная система, при высоком уровне автоматизации не претендует на универсальность и основательность. Это следует из предыдущих двух пунктов: поскольку выбранные методы не основаны на традиционных для предметной области методологиях, а сама система использует машинное обучение, то решение задачи является в значительной мере эвристическим, чем точным. Как было верно отмечено, это субъективная задача, и элементы эвристики будут присутствовать в любом случае, но там, где это возможно, стоит оперировать точными и формальными понятиями и методами. Исследования Рудольфа Арнхейма Рудольф Арнхейм в своей книге «Искусство и визуальное восприятие» [8] предлагает систему оценки художественных произведений, основанную на гештальт-психологии [9, с. 46] и принципах человеческого восприятия. Все принципы и зависимости автор обосновывает исследованиями в области человеческого восприятия [10, с. 25, 27; 11], когнитивным опытом [12, с. 41], биологическими процессами и перцептивными особенностями человека [13, с. 35; 14]. Приводятся примеры анализа художественных работ [15, с. 49], схемы, автор книги ссылается на исследования специалистов и ученых, опыт преподавателей, которые пытались систематизировать процесс обучения [16]. Арнхейм разделяет восприятие изображения человеком на уровни в зависимости от сложности описываемых процессов. Точно так же разделена и сама книга по главам: «Равновесие»; «Очертания»; «Форма»; «Развитие»; «Пространство»; «Свет»; «Цвет»; «Движение»; «Выразительность». Например, в разделе, посвященном равновесию, Арнхейм оперирует сравнительно простыми понятиями, такими как «вес» и «направление», плоской структурной моделью. А если обратиться к разделу «Пространство», то мы увидим объемную структурную модель и такое понятие, как «кручение», «искажение», «глубина», «оверлеппинг». «Выразительность» Арнхейм считает «венцом» перцептивных категорий и последним шагом в процессе визуального восприятия. Заметим, что все заключения Рудольфа Арнхейма составляют стройную систему и стараются нести под собой как можно более весомое обоснование и причины. Отталкиваясь от структурного плана, автор вводит систему отсчета и зависимости. Это позволяет построить математическую модель для методов и утверждений, изложенных в книге, речь о которой пойдет в следующей статье. Это также позволит создать единый формат для работы и обмена данными между различными системами. Такой язык сможет быть использован человеком для изучения результатов и отладки системы. Ближайшим примером может служить Json [17] или XML [18]. При создании математического аппарата важно ввести в него коэффициенты влияния различных параметров. Они нужны для точной настройки системы относительно человеческого восприятия. После реализации методов системы планируется провести анкетирование среди разных групп людей. Оценки респондентов будут использованы для настройки соответствующих коэффициентов системы методом, например, наименьших квадратов. Система будет состоять из двух модулей. Модуль построения декларативного описания сцены будет иметь открытый интерфейс, и в него можно будет загружать сцены из разных источников (рисунок). Например, можно разметить картину художника, как это делал Арнхейм [19, с. 51], автоматически распознать изображение, либо спроецировать 3D-сцену в виде примитивов. Полученная сцена будет загружаться в модуль построения декларативного описания. Сгенерированное описание может быть изучено человеком или отправлено в модуль анализа описания сцены (или в любую совместимую систему). Результатом работы будет количественная оценка этой сцены с точки зрения человеческого восприятия. В зависимости от задачи, можно получить общую оценку и/или оценку по таким параметрам, как композиция или работа с цветом. Результаты экспериментов Для проверки работы новых методов были составлены 6 сцен, состоящих из точки и квадрата, и 9 сцен, состоящих из двух точек и квадрата. Была проведена оценка этих композиций людьми по шкале от 1 до 5. Затем в электронной таблице эти же сцены были оценены с использованием методов, предложенных Арнхеймом в первой главе его книги. Каждый параметр получил числовое представление от 0 до 1 или от 0 до 0,5 с шагом 0,1. Была посчитана эстетическая оценка для каждой сцены. В табл. 1 и 2 приведены результаты экспериментов. Столбцы h1, h2 и т. д. содержат оценки людей; столбец ha - среднее от человеческих оценок; столбец s - оценка системы; h, % и s, % - средняя человеческая оценка и оценка системы в процентах; dev, % - отклонение от человеческой оценки в процентах. Таблица 1. Квадрат и одна точка h1 h2 h3 h4 ha s h, % s, % dev, % 5 5 5 5 5,00 0,70 100 100 0 3 3 4 5 3,75 0,45 69 64 -4 2 2 2 3 2,25 0,21 31 30 -1 3 2 3 4 3,00 0,36 50 51 1 1 1 1 3 1,50 0,12 13 17 5 3 4 4 5 4,00 0,50 75 71 -4 Таблица 2. Квадрат и две точки h1 h2 h3 h4 h5 h6 h7 h8 ha s h, % s, % dev, % 1 2 4 5 4 4 4 1 3,13 0,64 68,00 65,38 -2,62 4 3 5 4 4 5 5 3 4,13 0,98 100,00 100,00 0,00 2 4 3 2 5 5 1 1 2,88 0,68 60,00 69,74 9,74 3 3 4 1 5 4 2 2 3,00 0,69 64,00 70,26 6,26 3 1 3 3 3 2 2 1 2,25 0,42 40,00 43,08 3,08 4 5 2 3 4 2 1 1 2,75 0,65 56,00 66,67 10,67 0 5 1 2 4 1 1 1 1,88 0,36 28,00 36,62 8,62 5 2 4 5 4 4 4 3 3,88 0,75 92,00 76,92 -15,08 3 5 2 4 3 1 3 2 2,88 0,62 60,00 63,64 3,64 Небольшой процент отклонения показывает, что методы Р. Арнхейма достаточно точно представляют механизмы нашего восприятия, и эти методы можно использовать для создания автоматизированной системы. Заключение Подводя итог, можно заключить, что тема оценки эстетических и композиционных характеристик изображения или сцены при помощи компьютерных систем является очень актуальной. На данный момент мы имеем очень разрозненные методы оценки произведений искусств человеком и лишь одну работу, в которой эту задачу решали при помощи ЭВМ [20]. Данная работа при наличии положительных результатов и высокой степени автоматизации имеет вышеописанные минусы. Нами был предложен новый метод, основанный на исследованиях Рудольфа Арнхейма. Эксперименты показали, что методы Р. Арнхейма достаточно точно представляют механизмы нашего восприятия, и эти методы можно использовать для создания автоматизированной системы.

Galleys

PDF (Русский)
References References

Платон. Гиппий Больший. Соч. в 4 т. - Т. 1. - М. : Мысль, 1994.

Дмитриева Н. А. Краткая история искусств. В 3 т. - Т. 1. - М. : Искусство, 1985.

Леонардо да Винчи, Франческо Мельци. Трактат о живописи / пер. А. Губарева. - Харьков : Фолио, 2013. - 224 с.

Li C. and Chen T. Aesthetic Visual Quality Assessment of Paintings, IEEE Journal of Selected Topics in Signal Processing, Volume: 3, Issue: 2, April 2009.

Дмитриева Н. А. Указ. соч.

Киплик Д. Техника живописи. - В. Шевчук, 2008. - 536 с.

Zeiler M. D., Fergus R. Visualizing and Understanding Convolutional Networks [Электронный ресурс] // Arxiv.org: e-print archive. ID 1311.2901 (Nov 28, 2013). - URL: https://arxiv.org/pdf/1311.2901v3.pdf

Арнхейм Р. Искусство и визуальное восприятие. - Б. : БГК им. И. А. Бодуэна де Куртене, 2000. - 392 с.

Там же. - С. 46.

Там же. - С. 25, 27.

XML.com [Электронный ресурс] // Страница спецификации стандарта XML. - URL: http://www.xml.com

Арнхейм Р. Указ. соч. - С. 41.

Там же. - С. 35.

Langfeld H. S. The Aesthetic Attitude. N. Y. 1920. 330 с.

Арнхейм Р. Указ. соч. - С. 49.

J. van Pelt. The Essentials of Composition as applied to art. - N. Y., 1913. - 273 с.

JSON [Электронный ресурс] // Страница спецификации стандарта JSON. - URL: http://www.json.org/json-ru.html

XML.com [Электронный ресурс].

Арнхейм Р. Указ. соч. - С. 51.

Li C. and Chen T. Op. cit.




DOI: http://dx.doi.org/10.22213/2413-1172-2017-2-160-162

Article Metrics

Metrics Loading ...

Metrics powered by PLOS ALM


Copyright (c) 2017 Bulletin of Kalashnikov ISTU

Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.


ISSN 1813-7903 (Print)
ISSN 2413-1172 (Online)