AUTOMATED SYSTEM FOR EVALUATING 2D-IMAGE COMPOSITIONAL CHARACTERISTICS: CONFIGURING THE MATHEMATICAL MODEL

Al Akkad M.A., Gazimzyanov F.F.

Abstract


The paper is devoted to the development of an automated system for evaluating the compositional characteristics of a 2D image. It presents a special genetic algorithm designed to customize the mathematical model described in the previous paper by the authors - «Automated system for evaluating 2D-image compositional characteristics: mathematical model». The whole system is based on the research of R. Arnheim, the first paper of the cycle is devoted to the description of the general concept - «Automated system for evaluating 2D-image compositional characteristics: concept». A review of methods potentially suitable for solving the problem is given, the selected method is justified, the adaptation of the selected method to the specifics of a specific task is given. A mathematical model adapted to work with the existing mathematical model using the new method is presented. The structure of the training sample, the special aspects of data collection are described. Data analysis and sorting is performed using the developed genetic algorithm by code reuse; the choice of method is justified. The obtained results are analyzed, visualization of the compositional parameters of simple scenes is presented for different groups of respondents identified during data sorting and analysis. The similarity with the results obtained and demonstrated by R. Arnheim in his book without the use of information and automated methods are demonstrated. Results of the research are presented.

Keywords


Arnheim; analysis; images; composition; characteristics; aesthetics; automation; gene; algorithm

Full Text

Введение В первой статье цикла [1] авторы предложили общую концепцию автоматизированной системы оценки композиционных характеристик 2D-изображений, разработанную на основе исследований Рудольфа Арнхейма. Во второй статье [2] авторами был предложен вариант математической модели для первой главы книги Р. Арнхейма «Равновесие» [3, с. 23], которая позволит получить композиционные характеристики объектов, расположенных внутри «структурного плана» изображения. Выбор метода настройки коэффициентов математической модели Для точной работы системы функции (понятие перцептивной силы, которое вводит Р. Арнхейм на странице 25 своей книги) структурного плана должны быть настроены соответствующе особенностям человеческого восприятия. Из книги Рудольфа Арнхейма невозможно выяснить точные значения, по которым можно было бы построить график такой функции (за исключением, возможно, значения, при котором объект «стоит» на источнике структурного плана). Однако возможно собрать данные об оценке различных композиционных сцен людьми, а потом использовать их для настройки функции . Существует несколько различных методов решения этой задачи. Метод наименьших квадратов Варианты использования метода наименьших квадратов (Метод наименьших квадратов // Википедия. URL:http://ru.wikipedia.org?oldid=85286075 (дата обращения: 16.06.17)) и основные подходы в обработке статистических данных с помощью этого метода описывает Ю. В. Линник [4]. Разработанная математическая модель может быть выражена при помощи уравнения, а проведение опроса предоставит статистические данные для настройки коэффициентов этого уравнения. Метод наименьших квадратов может быть применен по аналогии с уравниванием по элементам, приведенным Линником в главе VIII на cтраницах 203-211 своей книги. Градиентный спуск Метод градиентного спуска (Градиентный спуск // Википедия. URL: http://ru.wikipedia.org/?oldid=85325553 (дата обращения: 16.06.2017)) также видится пригодным к использованию, поскольку разработанная математическая модель структурного плана может быть представлена в виде сложной функции, плоскость множества решений которой можно исследовать и найти необходимый минимум, при котором параметры уравнения структурного плана будут настроены в соответствии с человеческим восприятием. Существует множество реализаций этого метода для удобного использования в информационных системах, в частности, так решаются задачи выпуклого программирования, решение которых описал И. Л. Акулич [5, c. 290-311]. Искусственная нейронная сеть Стоит отметить универсальность подхода с использованием искусственной нейронной сети (Искусственная нейронная сеть // Википедия. URL: http://ru.wikipedia.org?oldid=85944182 (дата обращения: 16.06.17)), как и его избыточность в некоторых случаях (об этом ниже). Однако он может быть применен для решения задачи подбора коэффициентов для источников перцептивных сил структурного плана [6]. Собранные данные человеческой оценки композиционных сцен будут являться обучающей выборкой. Генетический алгоритм Генетические алгоритмы (Генетический алгоритм // Википедия. URL: http://ru.wikipedia.org? oldid=84199916 (дата обращения: 16.06.17).) и подобный подход используются при обучении нейронных сетей, а также как самостоятельный метод оптимизации. В данном случае речь идет о самостоятельном методе. Важно также отметить, что, несмотря на то, что генетические алгоритмы работают схожим с градиентным спуском образом, они не требуют строгой определенности математической модели. Обоснование выбранного метода Задача настройки функций имеет свою специфику. Использование введенного Арнхеймом на странице 28 своей книги, о которой говорилось выше, визуального веса, упоминаемого во второй статье цикла, может немного сбивать с толку, особенно при проведении оценки в композиции. В связи с отсутствием других параметров, кроме влияния структурного плана, можно временно пренебречь спецификой визуального веса, чтобы избежать обратной пропорциональности при сравнении человеческой оценки и оценки с помощью методологии Арнхейма. Поэтому можно отказаться от деления в формуле (1) из второй статьи цикла, использовать величину напрямую и остановиться на следующей формуле оценки: (1) где - значение погрешности, при котором можно считать влияние точечных источников структурного плана равными нулю; - влияние точечных источников структурного плана на объект; - влияние линейных источников структурного плана на объект. Функции определения относительно точечных и линейных источников структурного плана имеют параметры (формулы (2) и (3)). При использовании ИНС можно назначить каждому такому параметру свой выход на последнем слое нейронной сети и создать входы для параметров дистанций от объектов структурного плана. В качестве обучающей выборки можно использовать данные, собранные в результате опросов. Однако такой подход видится избыточным, поскольку нейронной сети придется реализовать требуемые математической моделью зависимости во внутренних слоях. В результате мы получим две системы: математическую модель с настроенными параметрами и нейронную сеть, возможно, очень массивную, поскольку количество параметров в математической модели довольно большое. В ней будет содержаться много информации о зависимостях между человеческим восприятием и структурным планом, а также другими параметрами впоследствии, однако мы не сможем использовать и изучить эти данные. Таким образом, можно сделать шаг навстречу недостаткам научной работы [7], упомянутой в первой статье цикла. Использование метода наименьших квадратов и градиентного спуска подразумевает нахождение производных от уравнения, коэффициенты которого необходимо настроить. Однако параметры являются не множителями или слагаемыми, как, например, , и в квадратном уравнении, а опорными точками графика для интерполяции сплайном Акимы: (2) (3) где и - функция расчета величины влияния перцептивных сил определенного линейного или точечного источника структурного плана на объект; - дистанция до центра масс объекта внутри структурного плана; - параметр функции источника структурного плана. Интерполяция сплайном Акимы [8] - это довольно сложный по структуре алгоритм, включающий в себя использование четырех опорных точек для геометрического вычисления наклона графика, а также несколько частных случаев для краев графика, где опорные точки не существуют. При работе с такими методами придется, скорее всего, вводить систему производных для всех условий, которые описывает метод интерполяции Акимы, а также производить преобразования самого метода. Использование же генетического алгоритма для оптимизации позволит избежать таких сложностей - нам не нужно будет видоизменять сам метод интерполяции, находить производные и вообще каким-либо образом влиять на существующую математическую модель. С другой стороны, в отличие от использования ИНС подсистема настройки не будет хранить в себе никакой избыточной информации и будет представлять собой лишь направленное развитие в сторону наиболее оптимизированного уравнения. Кроме того, генетический подход предоставляет удобный изолированный слой абстракции над существующими методами. Более того, он позволяет оперировать атомарными единицами и довольно простыми понятиями из генетики для управления процессом обучения. Эмпирические результаты эффективности показывают несравнимо более высокую эффективность, чем случайный поиск решения (документация библиотеки Jenetics, раздел “Evolution performance”, с. 64) [9]. Однако, конечно, такой подход проиграет по скорости любому аналитическому решению, такому как МНК или безусловная оптимизация. Метод настройки коэффициентов структурного плана Описание метода Принцип работы ДНК, переноса генов от родителей к детям и направленного развития генетических систем описывает Ричард Докинз в своей книге «Эгоистичный ген» [10, с. 60-94]. Автор дает определение гену как носителю определенной генетической информации, признаку, который, однако, не имеет определенных физических границ в последовательности хромосомы. Такое определение отлично работает в объяснении теории эгоистичного гена и таких сложных концепций, как эволюционно-стабильное состояние (ЭСС), описанное Докинзом на с. 128 своей книги. Однако в нашем случае мы оперируем атомарными числовыми параметрами, точно так же они определены в памяти компьютера. Поэтому удобнее будет отождествить понятия гена и цистрона - области хромосомы, ограниченной определенными последовательностями, обозначающими начало и конец цистрона (понятие объясняется Докинзом на с. 69). Тогда хромосома - это, соответственно, последовательность генов. Генотип - это определенный набор хромосом, а понятие фенотипа можно свести к совокупности генотипа и факторов внешней среды. В самом типичном случае новый носитель ДНК появляется в результате скрещивания двух родительских ДНК. На место каждой хромосомы наследника претендует одна из соответствующих хромосом родителей (понятием аллелей и рецессивных/доминантных генов пока можно пренебречь). Далее новые носители ДНК попадают в среду, в которой оценивается их приспособленность. Наиболее приспособленные особи имеют больше шансов оставить потомство, неприспособленные, неоптимальные комбинации отсеиваются. Таким образом, происходит направленная эволюция и оптимизация сложных систем. Применим все это к настройке разрабатываемой системы. Снова обратимся к формуле (1). Каждое и может быть представлено в контексте генетического алгоритма как хромосома. В свою очередь, параметры из формул (2) и (3) могут быть определены как гены. Весь структурный план тождественен генотипу. Соответственно, задав некоторые начальные «гены» «ДНК» для нашей математической модели структурного плана, создав «родителей», мы можем получить модели-«наследники» с различными вариациями -функций источников структурного плана. Для определения их качества необходима функция приспособленности (fitness-функция), в роли которой можно использовать формулу (1), а также данные опросов для сравнения результата человеческой оценки и результата функции для определенной графической композиции. Эта разница и будет определять качество комбинации генов. Для полученной из опросов обучающей выборки можно получать суммарную разницу по всем данным сценам. Вместе с генотипом функция приспособленности образует фенотип. Представим все более формально: (4) (5) (7) (8) где - ген; - значения опорных точек графика из формулы (2) или (3); - хромосома; - генотип; - фенотип; - функция приспособленности; - оценка определенной сцены; формула (1), в которой, соответственно, используются гены данного генотипа как параметры для функций; - человеческая оценка. Программная реализация Для программной реализации этого метода выбрана библиотека Jenetics. Данная библиотека хорошо документирована, разработана с использованием Java Stream API, что позволяет эффективно использовать многопоточность JVM, а также обеспечивает высокий уровень совместимости с уже разработанными системами, в которых реализовано управление потоками, и позволяет использовать популярные паттерны при разработке. Из минусов можно отметить то, что библиотека предоставляет для работы неизменяемые (immutable) сущности, что может несколько смутить пользователя, не знакомого с паттернами Builder и Factory [11]. Анализ данных опросов Методы анализа данных Для получения данных для настройки был проведен опрос. Людям было предложено оценить графические композиции из простых геометрических объектов, как в первой главе книги Рудольфа Арнхейма «Искусство и визуальное восприятие». Для оценки использовалась шкала от 1 (раздражает) до 5 (приятно смотреть). Примеры композиций приведены на рис. 1. Всего в бланках было представлено 76 композиций, бланки были распечатаны на листах А4, чтобы восприятие сцен людьми было максимально идентичным, чего не могут предоставить различные размеры и параметры экранов устройств при программной реализации опросов. Также на бланках было предложено отметить пол, возраст и наличие художественных навыков. Примеры заполнения бланков представлены на рис. 2. Рис. 1. Примеры графических композиций Рис. 2. Примеры заполненных бланков Собранные данные были занесены в сервис Google Sheets в виде таблицы, содержащей оценки людей для каждой из 76 композиций. Для использования полученных данных их нужно проанализировать, чтобы выделить основные тенденции в оценке определенных композиций и найти (или не найти) какие-либо закономерности среди ответов опрошенных людей. Получение средней оценки для каждой сцены неинформативно, поскольку среднеквадратическое отклонение в оценках очень велико. Так как объем данных в таблице невозможно привести в формате статьи, для удобства представлена мини-карта значений (рис. 3), в которой столбцы соответствуют первым 40 композиционным сценам из опросов. Первый блок - это среднеквадратическое отклонение (1-я строка) и спектр ответов для каждой сцены (строки 2-6, оценки, соответственно, от 5 до 1). Если посмотреть на распределение значений человеческих оценок для одной сцены, спектр ответов, то будет видно, что зачастую в сценах есть тенденции к разным ответам, например, 2 и 5, и нахождение среднего просто не позволит увидеть этих особенностей. Рис. 3. Мини-карта спектра и сортировки опросов Нахождение моды из множества всех оценок по определенной сцене позволит увидеть самые сильные тенденции. Такой подход позволит получить интересную обучающую выборку. Однако если предположить, что в массе опрашиваемых существуют некие вкусовые группы со схожими склонностями в оценке, которые могут пересекаться, то нахождение мода также не обеспечит нам представления всех существующих закономерностей. Массив полученных данных из опросов можно представить как трехмерную плоскость, поскольку они являются двумерной таблицей, каждая ячейка которой содержит определенное значение, которое можно интерпретировать как «высоту» - координату z. Если предположить, что у людей существуют общие стремления в восприятии данных сцен, то сглаживание этой плоскости путем перестановки строк таблицы поможет сгруппировать данные и позволит увидеть нужные зависимости, которые позволят настроить систему. Несмотря на то, что существует аналитический подход к задаче сглаживания поверхностей через достаточные условия гладкости [12, с. 72], имеется уже настроенная система для оптимизации генетическим алгоритмом, которая хорошо себя зарекомендовала. Поскольку задача получить наиболее быстрый алгоритм не стоит, попробуем отсортировать данные при помощи направленного отбора. В данном случае каждая хромосома будет содержать один ген - идентификатор определенной строки. Кроме того, все хромосомы должны содержать уникальный набор генов-идентификаторов, строки таблицы не должны повторяться. Библиотека Jenetics предоставляет средства для работы с подобными задачами при помощи упорядоченных множеств и селекторов, которые сводят процесс перебора к рекомбинации, а не кроссинговеру. Кодек позволяет получить из генотипа набор идентификаторов, выстроенных в определенном порядке, по которым впоследствии можно построить новый вариант таблицы. Функция приспособленности может работать несколькими способами: можно считать сумму модулей разностей соседних элементов по вертикали или пройтись по таблице вертикальным окном, считая сумму среднего значения для окрестности каждого элемента. В каждом случае меньший результат будет означать наиболее гладкую поверхность, а значит, ответы людей, вероятно, будут сгруппированы по общим тенденциям. Программная реализация такой сортировки не отличается от реализации оптимизации генетическим алгоритмом из главы «Программная реализация». Используется специальный тип генов EnumGene, для кроссовера используется PartiallyMatchedCrossover, который гарантирует, что каждый ген будет встречаться в хромосоме только один раз. Результаты анализа данных опросов Анализ данных, полученных из проведенных опросов, произведен с использованием сервиса Google Sheets и библиотеки Jenetics. Из распределения человеческих оценок видно, что большинство сцен имеют склонность к одной или двум каким-то оценкам, и лишь некоторые не имеют тенденции, и ответы распределены равномерно. Для визуализации значений в разных частях структурного плана создан программный метод, позволяющий изобразить в виде цветовой карты значения перцептивных сил в пространстве сцены. Для этого используется класс canvas библиотеки JavaFX, на который последовательно для каждой координаты наносится значение , конвертированное в цвет путем смены значения H в цветовом пространстве HSV. Построенная по модам карта изображена на рис. 4. Рис. 4. Карта по всем оценкам, построенная по модам Результат согласовывается с экспериментами Арнхейма: более «стабильными» областями является правая часть квадрата, а также нижние источники структурного плана. Правый нижний угол является наиболее стабильным. Также внутри структурного плана относительно вертикальной линии симметрии видно преобладание в правую и нижнюю части. Визуальное допущение области для визуального центра также сдвинуто в правую нижнюю часть. Во втором и третьем блоке на рис. 3 приведены результаты сортировки по всем ответам при помощи вертикальной суммы разностей. Визуально в отсортированных данных можно выделить группы отвечающих, склонные к негативной (это в основном девочки-художницы подросткового возраста) и к позитивной (какой-либо закономерности в этой группе отчетливо не видно) оценкам. Также у мужчин среднего возраста без художественных навыков замечена склонность к более сдержанным, средним оценкам. Оценка для мод негативной тенденции изображена на рис. 5, для нейтральной - на рис. 6 и для позитивной - на рис. 7. Рис. 5. Карта для группы отвечающих, склонных к негативной оценке Рис. 6. Карта для группы отвечающих, склонных к нейтральной оценке Рис. 7. Карта для группы отвечающих, склонных к позитивной оценке Видно, что каждая группа имеет свою специфику при построении -карты. Однако общие тенденции вроде более высокой стабильности в правой и нижней части сохраняются. Это служит подтверждением того, что созданная математическая модель корректно реализует методы Арнхейма, а также еще раз подтверждает корректность самой оригинальной методологии. Сортировка генетическим алгоритмом по среднему значению оценки в группах ввиду небольшого количества опросов не является информативной. Возможно, более масштабные опросы и дополнительные параметры опрашиваемых позволят выделить зависимости и по среднему значению, но более эффективным представляется именно выделение тенденций. Если провести более точный многомерный анализ, который бы позволил группировать результаты опросов не в одной плоскости, то возможно выделить среди людей определенные «вкусы», согласно которым система может быть настроена. Это позволит решить проблему субъективности подобных систем и методологий. Полученные результаты и выводы Выбранный метод оптимизации генетическим алгоритмом является подходящим выбором для проведения исследований. Он оказался достаточно универсальным и для настройки коэффициентов математической модели, и для сортировки данных при общей простоте подхода, а также прост в реализации и интеграции. Анализ теоретических значений математической модели подтвердил, что она является корректным представлением для изложенной в первой главе книги Рудольфа Арнхейма методологии. Имеется очевидная схожесть в визуализированных результатах из книги и в полученной -карте. Анализ данных позволил сделать вывод, что оперирование средними значениями в этой предметной области неинформативно. Нахождение мод от результатов опросов показало лучшее представление для распределения оценок. Анализ спектра ответов позволил сделать вывод, что в ответах людей имеются определенные тенденции, поэтому была проведена сортировка результатов разработанным методом. Настройка системы согласно данным опросов и визуализация такого -поля показали, что принципы, описанные Арнхеймом, проявляются даже при анализе небольших групп. Созданная система готова для более серьезного анализа данных и расширения математической модели и программных инструментов, что даст более точные результаты исследований.

Galleys

PDF (Русский)
References References

Аль Аккад М. Айман, Газимзянов Ф. Ф. Автоматизированная система оценки композиционных характеристик 2D-изображения: концепция // Вестник ИжГТУ имени М. Т. Калашникова. 2017. Т. 20, № 2. С. 160-162. doi: 10.22213/2413-1172-2017-2-160-162

Аль Аккад М. Айман, Газимзянов Ф. Ф. Автоматизированная система оценки композиционных характеристик 2D-изображения: математическая модель // Интеллектуальные системы в производстве. 2017. Т. 15, № 2. С. 105-108. doi: 10.22213/2410-9304-2017-2-105-108

Арнхейм Р. Искусство и визуальное восприятие. Благовещенск : БГК им. И. А. Бодуэна де Куртене, 2000. 392 с.

Линник Ю. В. Метод наименьших квадратов и основы математико-статистической теории обработки наблюдений. 2-е изд., испр. и доп. М. : Математическая теория, 1962. 349 с.

Акулич И. Л. Математическое программирование в примерах и задачах. М. : Высш. шк. 1986. С. 298-311.

Коробейников А. В. Программирование нейронных сетей. Ижевск : Ижевский государственный технический университет, 2012. 14 с.

Li C. and Chen T. Aesthetic Visual Quality Assessment of Paintings. IEEE Journal of Selected Topics in Signal Processing, 2009, vol. 3, is. 2, pp. 236-252.

Akima H.A. New Method of Interpolation and Smooth Curve Fitting Based. Journal of the ACM (JACM), 1970, pp. 589-602.

Wilhelmstötter F. Jenetics library user's manual. Jenetics, 2017. Available at: http://jenetics.io/manual/ manual-3.8.0.pdf (accessed 19.06.17).

Докинз Р. Эгоистичный ген / пер. с англ. Н. Фоминой. М. : Corpus, 2013. 506 с.

Приемы объектно-ориентированного проектирования. Паттерны проектирования / Э. Гамма, Р. Хелм, Р. Джонсон, Д. Влиссидес ; пер. с англ. СПб. : Питер, 2016. 89 с.

Позняк Э. Г., Шишкин Е. В. Дифференциальная геометрия: первое знакомство. М. : Изд-во МГУ, 1990. 382 с.




DOI: http://dx.doi.org/10.22213/2410-9304-2019-1-26-33

Article Metrics

Metrics Loading ...

Metrics powered by PLOS ALM

Refbacks

  • There are currently no refbacks.


Copyright (c) 2019 Аль Аккад М.А., Газимзянов Ф.Ф.

Creative Commons License
This work is licensed under a Creative Commons Attribution 4.0 International License.

ISSN 1813-7911