Мы все видели неуклюжие веб-сайты, на которых искусство и текст не совпадали. Текст скрывает важную часть изображения, противоречие визуальных стилей или композиция кажется несбалансированной.
Но Salesforce, похоже, находится на пороге автоматизированного средство. Изучив 20 000 изображений без авторских прав, собранных с Unsplash, его группа разработчиков UX-исследований обнаружила, что проприетарное программное обеспечение для обнаружения объектов может выделять и классифицировать тонкие различия в медиафайлах, векторной графике и форматированном тексте.
Это исследование может иметь широкое применение в отрасли, — сказал Сёнке Роде, вице-президент, возглавляющий команду, особенно для компаний и внутренних отделов, у которых нет собственных графических дизайнеров или дизайнеров UX.
«Мы можем начать расширять творческий процесс», — сказал Роде. «Вместо того, чтобы вручную создавать набор вариантов дизайна для проведения многомерного теста или для полной персонализации, вы можете использовать так называемые генеративные варианты дизайна для преобразования процесса».
Авторы опубликованного внутри компании отчета «Copyspace: где писать на изображениях» предполагают, что модели обнаружения объектов могут быть объединены с возможностями глубокого обучения системы генеративного дизайна Salesforce. Einstein Designer чтобы помочь компаниям создавать персонализированные почтовые баннеры, главные страницы и призывы к действию. Более того, эти активы можно настроить так, чтобы они отражали идентичность бренда, бизнес-цели и ожидания конкретных пользователей.
«Очень распространенный подход к дизайну — размещение контента на — верх изображения, — сказал Род. «У вас может быть заголовок — обычно у вас есть кнопка с призывом к действию. И чтобы автоматизировать их создание, вы должны найти лучшее место или лучшие места для размещения контента ».
Подробнее о генеративном дизайне Вот чему нас учат рамки проектирования с поддержкой искусственного интеллекта
* * *
Эта история является первой в Built In Серия ' s « Designer ' s Playbook » в которой исследуются наиболее важные новые тенденции и навыки в области дизайна и пользовательского интерфейса. профессионалов в 2021 году.
Сцена из мультфильма Тома и Джерри аннотированный отделом исследований и разработок Salesforce Design, вкратце иллюстрирует, как работает эта технология. Когда Том приходит в ярость и бросает пару бильярдных шаров в лицо Джерри, бесстрашная мышь отбивает их бейсбольной битой, попадая прямо в глазницы кошки. Сцена заканчивается тем, что Тома сбивают с машины с холодными напитками, где его уплотняют и выплевывают в виде бутылки с содовой. Помните беззаботное легкомыслие старых мультфильмов?
Это дерзкое, хотя и мрачное, мультяшное веселье, но это также проблеск того, где «лучшие места» для телевидения кредиты могут быть. По мере развертывания мультфильма в негативном или скрытом пространстве появляются ограничительные рамки зеленого и пурпурного цветов. Эти поля делятся на четыре класса в зависимости от сложности, с которой программное обеспечение определяет их как оптимальные места для добавления слов. Это более сложная задача, чем простое разделение переднего и заднего планов.
«Итак, вместо объекта мы ищем не объект. И это действительно то, о чем была статья », — сказала Джессика Лундин, ведущий специалист по данным из группы исследований и разработок UX и ведущий автор статьи. показывает, что простые монохромные поверхности, такие как черный желоб в мультфильме, относительно легко распознаются программным обеспечением как первоочередная языковая недвижимость. Более богато слоистые пространства, а также пространства, близкие к Тому и Джерри, труднее изолировать.
Перспективы и ограничения обнаружения пространства копирования
Модели глубокого обучения, в том числе основанные на регрессии Yolo (You Only Look Once) и сеть региональных предложений Faster R-CNN лежат в основе проекта. Со временем эти модели учатся предсказывать, где лучше всего разместить копию.
Однако сначала их нужно обучить. Чтобы наложить заполнители там, где копия будет выглядеть лучше всего, Лундин работал с командой разработчиков UX, чтобы аннотировать изображения, собранные из Unsplash. Как показано на рисунке выше, прямоугольник ограничивающие рамки, расположенные в желаемых по композиции местах, используются для обучения программного обеспечения.
«Модель, конечно, просто делает то, что ей говорят, но по сути она обучается «Где на изображении низкоэнергетическое пространство?» — сказал мне Лундин.
«Модель, конечно, просто работает. то, что в нем говорится, но по сути он изучает: «Где на изображении пространство с низким энергопотреблением?» »
Из пяти протестированных моделей, Yolo версии 5 имеет наивысший балл MAP (средняя средняя точность). Проще говоря, он смог надежно предсказать местоположение копий для изображений с 407 слоями с разрешением 640 x 640 пикселей.
Тем не менее, предстоит еще многое сделать.
«Одна проблема, с которой мы сталкиваемся, применяя эти модели обнаружения объектов для копирования пространства, заключается в том, что если нет четко определенного объекта — существует нет кота или бейсбольного мяча, вокруг которых можно аккуратно провести линию — наши модели часто предлагали вполне правдоподобное решение для копирования пространства, но оно не соответствовало аннотации », — сказал Лундин.
Другими словами, модель обнаружила скрытое пространство — зеленые ограничивающие прямоугольники — а не пространство, которое исследователи хотели найти — розовые ограничивающие прямоугольники. Чем больше времени и данных для обучения, тем выше точность системы.
Подробнее о типографике Что делает шрифт хорошим для программирования?
«Эта статья действительно была такой:« Сможем ли мы это сделать? »И ответ был:« Да, даже с очень небольшим количеством изображений мы смогли проделать довольно хорошую работу ». Но закончить это как продукт, есть еще кое-что, что нужно сделать. Например, точное размещение текста в этом пространстве для копии ».