Технологии people-face-classification-to-measure-the-audience-and-archive-search

    Published on 10.03.2015 | by Мила Марченко

    Классификация людей по лицу для измерения аудитории и поиска в архиве

    Классификация людей по лицу является активно развивающимся направлением видеоаналитики. В особенности это актуально для измерения аудитории и поиска в видеоархиве — для торговых и бизнес-центров, крупных объектов транспортной инфраструктуры

    Из изображения лица человека можно извлечь много полезной информации, например пол и возраст, цвет волос, наличие и цвет головного убора, наличие очков, усов и пр. Часть этой информации является инвариантной, то есть постоянно присущей данному человеку (пол или возраст, если трактовать его как год рождения). Другая часть — временная характеристика человека (цвет волос). Такая информация может представлять интерес или сама по себе, например для биометрического профайлинга посетителей — оценки демографического состава аудитории, или опосредованно — для ускорения поиска людей в видеоархиве.

    Принцип работы классификации людей по лицу

    Большинство алгоритмов классификации людей по изображению лица используют одинаковую последовательность действий:

    1. Выделение лица на изображении (Face Detection).
    2. Выделение антропометрических точек на лице (Face Features Detection).
    3. Нормализация изображения лица (Face Normalization). Данный этап включает в себя как геометрическую нормализацию — приведение лица в стандартное положение для уменьшения отличий, вызванных позой и мимикой, так и нормализацию освещения. Наиболее стандартной геометрической нормализацией является просто поворот лица в плоскости изображения, при котором линия между глазами становится горизонтальной, а также масштабирование и обрезание изображения. Более сложные алгоритмы пытаются исправить позу лица, оценивая 3D-положение головы.
    4. Вычисление дескриптора изображения лица (Feature Extraction). Это ключевой этап алгоритма, именно им по большей части определяются различия систем от разных производителей. Получаемый дескриптор обычно кодирует информацию о геометрии и текстуре конкретного лица
    5. Непосредственно классификация лица (Classification). Как правило, на этом этапе используется один из алгоритмов машинного обучения, который по большой размеченной выборке изображений автоматически обучается зависимости между признаками (дескриптором лица) и классифицируемым атрибутом (например, полом человека). Размер и репрезентативность обучающей выборки сильно влияют на точность итогового алгоритма.
    people-face-classification-to-measure-the-audience-and-archive-search-ru-1

    рис. 1. Последовательность обработки изображения при классификации лица

    Описанная последовательность действий проиллюстрирована на рис. 1 на примере изображения из базы LFW1. Как видно, принцип работы таких алгоритмов очень напоминает алгоритмы идентификации людей по изображению лица Единственное отличие — на пятом этапе, где вместо классификации человека по дескриптору лица осуществляется сравнение двух дескрипторов с целью оценки похожести людей. Некоторые системы, например face.com2, используют одинаковые дескрипторы для обеих задач.

    В случае работы с видеопотоком добавляются задачи сопровождения лица между кадрами (или сопоставления выделенных на разных кадрах лиц) и выбора наилучшего кадра для классификации (см. рис. 2). Сама классификация обычно выполняется либо по одному, либо по нескольким наилучшим кадрам.

    Как и в случае идентификации людей по лицу, на точность классификации сильно влияют разрешение изображения, поворот лица, четкость картинки, освещение, мимика. В разных системах накладываются разные минимальные требования на разрешение лица — от 30 до 75 пкс между глазами человека.

    people-face-classification-to-measure-the-audience-and-archive-search-ru-2

    рис. 2. Выбор наилучшего кадра для классификации

    Применение классификации людей по лицам

    Одним из первых применений классификации людей по лицу была аннотация изображений в Интернете для улучшения поиска. В первую очередь это обусловлено более простыми входными данными — качество большинства индексируемых изображений значительно лучше кадров с камер видеонаблюдения, для них характерны более фронтальные ракурсы, хорошее освещение, большие разрешение и четкость.

    Классификация зрителей

    Первым практическим применением классификации в видеопотоке стал анализ зрителей для систем Digital Signage — цифровых экранов, установленных в общественных местах, в основном для распространения рекламы. Благодаря анализу количества зрителей и их половозрастного состава появилась возможность объективно оценивать эффективность конкретных экранов и рекламных роликов. Поскольку для решения этой задачи достаточно определять только людей, смотрящих в экран в течение как минимум пары секунд, то изображения лиц, подающиеся на вход классификации, получаются относительно фронтальными и четкими.

    Подобные решения уже довольно распространены и предлагаются рядом компаний. В первую очередь стоит выделить систему Intel AIM Suite3 — она создана на основе разработок канадской компании CognoVision, купленной Intel в 2010 г. за 25 млн долл. Intel использует модель Software as a Service (SaaS), предлагая услугу анализа аудитории по цене 20 долл. за один экран (одну камеру) в месяц.

    Альтернативные решения предлагаются в том числе израильской компанией TruMedia Technologies4, испанскими AITech5 и Inspecta6, российской Rhonda Software7.

    Анализ покупателей и посетителей

    В последнее время растет интерес к анализу аудитории для торговых и бизнес-центров, банков, ресторанов и пр. В случае бизнес-центров количество и половозрастной состав посетителей являются важной информацией для потенциальных арендаторов и рекламодателей. Для ритейла анализ динамики таких показателей дополнительно позволяет оценивать эффективность маркетинговых акций, лучше подстраивать свою ценовую политику (время скидок).

    В России активно распространяются системы, позволяющие решить часть задачи — оценить количество посетителей. Это достигается за счет использования потолочных камер, направленных вертикально вниз. Благодаря такому ракурсу получается надежно подсчитывать людей даже при плотном потоке. Соответствующие решения предлагают уже многие российские компании — itseez8, «Синезис»9, «ЭЛВИС-НеоТек»10, «Сателлит Инновация»11, Rhonda Software12 и др. Однако во всех этих системах отсутствует возможность классификации людей, поскольку лица человека при таком ракурсе не видно совсем.

    Задача классификации посетителей усложняется по сравнению с классификацией зрителей Digital Signage — камеры обычно установлены дальше от людей, а люди не останавливаются и не смотрят в направлении камеры, что резко снижает четкость и разрешение изображений лиц, усложняет ракурсы. Тем не менее в последние годы в мире появляются системы, решающие данную задачу. В качестве примеров стоит привести Demographics Analytic13 от компании 3VR, библиотеку FaceVACS-VideoScan14 от немецкой Cognitec Systems (один из мировых лидеров в области алгоритмов идентификации людей по лицу) и Business Intelligence Kit15 от компании Panasonic.

    Поиск в видеоархиве

    Не менее перспективным направлением является использование классификации для поиска людей в видеоархивах. Это особенно актуально для таких объектов, как крупные бизнес-центры, объекты транспортной инфраструктуры, торговые центры. Для подобных объектов характерна высокая плотность потока людей и наличие ряда «узких горлышек» — входов/выходов, эскалаторов, лифтовых холлов, через которые все люди обязательно проходят. В случае какого-либо происшествия, например кражи или теракта, найти преступника по приметам или, если он был замечен на одной из камер, отследить его на других камерах, за короткое время практически невозможно. Не помогает и стандартная видеоаналитика — она не позволяет автоматически сопровождать людей при такой плотности. Но при размещении видеокамер в «узких горлышках» можно получить фотографии большинства посетителей, классифицировать людей по лицам и на порядок ускорить поиск — скажем, сузив его до определенных параметров: например, белый мужчина, 30-40 лет, в черной кепке и в темных очках.

    Среди примеров систем, ускоряющих подобным образом поиск в архивах, можно указать разработки компании IBM16 и IntuVision17. В системе от IBM в качестве атрибутов для поиска используется цвет одежды, наличие очков, головного убора и усов или бороды. В системе от компании IntuVision применяются разные признаки в зависимости от размера и ракурса человека — если он виден вдали или сзади, то будет использоваться только цвет одежды, если же видно лицо, то еще пол и раса.

    Точность классификации

    Важным вопросом является точность классификации людей существующими системами Поскольку результаты классификации зачастую используются для сбора общей статистики, то цена ошибки здесь ниже, а значит ниже и требования к точности по сравнению с системами идентификации людей. Тем не менее от достижимой точности зависит возможное применение классификации.

    Для корректной оценки и сравнения систем необходимо вместе с точностью указывать и точную выборку изображений или видеороликов, на которых происходило тестирование. Без спецификации выборки можно достичь практически 100%-ной точности, если ограничиться максимально простыми условиями съемки, а тем более если обучать систему только на очень похожих данных. К сожалению, в отличие от области идентификации людей по фотографии лица, устоявшихся баз изображений и протоколов для сравнения алгоритмов классификации людей на данный момент нет. Поэтому заявляемые всеми производителями характеристики систем стоит оценивать скептически. Особенно это актуально для оценки возраста человека. Дело в том, что для оценки пола намного легче сделать выборку, в которой в одинаковых пропорциях представлены мужчины и женщины. А для возраста баланс зачастую нарушен, например когда большая часть посетителей объекта, где собиралась выборка, от 20 до 35 лет. В данном случае простая оценка всех людей в 27,5 года дает вполне адекватную ошибку около 7,5 года

    Текущий научный уровень

    Для оценки возможностей современных систем имеет смысл рассмотреть как текущий уровень научных статей, так и заявленные характеристики коммерческих продуктов.

    Вероятно, наиболее высокой заявленной точностью классификации пола на базе Labeled Faces in the Wild (LFW), активно используемой для сравнения алгоритмов верификации людей, является 94,81%18. Данная база автоматически собрана из фотографий в Интернете, на которых находились лица алгоритмом Viola-Jones19, и состоит из 13 233 изображений 5749 человек. Среднее расстояние между глазами составляет около 40-50 пкс. В указанной статье из этой выборки были оставлены лишь 7443 изображения без точного указания, какие именно. Однако и на полной базе есть близкие результаты, например 93,6%20.

    Наименьшая ошибка оценки возраста составляет порядка 3-4 года21, в зависимости от выборки. Но все открытые используемые базы либо сильно неравномерны по возрасту, либо содержат слишком мало изображений для достоверной оценки. Поэтому остается вопрос об экстраполяции данных результатов на произвольные изображения, не говоря уже о видео, для которого характерны более сложные ракурсы и условия съемки.

    Примеры коммерческих систем

    Большая часть компаний открыто не приводит точность своей классификации. 3VR заявляет о средней ошибке в оценке возраста в 7 лет22 TruMedia говорит о точности классификации пола в 90% и классификации на 3 возрастные группы (молодой, взрослый, пожилой) в 85%23. В статье разработчиков из компании ntuVision заявляется о точности классификации пола в 90% при размере лиц в 60×60 пкс и 70-75% при 30×30 пкс24. Как уже было сказано, без конкретных выборок эти цифры дают не много информации, точность могла подгоняться под ожидаемые заказчиками показатели. Тем не менее данные числа можно использовать в качестве верхнего ориентира точности данных систем в целевых сценариях видеонаблюдения. В качестве субъективного резюме: точность классификации пола достигает 90%, но скорее всего только при хороших условиях съемки. Для оценки возраста кажется более реалистичной точность 85% при классификации на 3 возрастные группы.

    Практические выводы

    Классификация людей по лицу является активно развивающимся направлением видеоаналитики.

    1. Наиболее перспективные ее приложения — измерение аудитории и поиск в видеоархиве Они особенно актуальны для торговых и бизнес-центров, крупных объектов транспортной инфраструктуры, где высокая плотность потока людей зачастую делает малоприменимыми другие алгоритмы видеоаналитики.
    2. Принцип работы алгоритмов классификации людей по лицу очень близок к алгоритмам идентификации человека. Похожи и требования на ракурсы видеосъемки, освещение сцены.
    3. Одной из проблем, препятствующих объективной оценке точности современных систем, является отсутствие общепризнанных репрезентативных баз и протоколов сравнения алгоритмов.
    4. В качестве грубой оценки точности существующих систем можно назвать 90% для классификации пола и 85% для классификации людей на 3 возрастные группы.

    1. http://vis-www.cs.umass.edu/lfw/.
    2. www.facebook.com/Face.com.
    3. www.intel.ru/content/www/ru/ru/retail/retail-aim-suite.html.
    4. www.trumedia.co.il/.
    5. www.aitech.es/.
    6. www.inspecta.es/en/project/37.
    7. www.myaudience.com/.
    8. http://itseez.com/index.php?page=vcount.
    9. http://synesis.ru/solutions/cassiopeia/podschet-posetitelej-v-torgovyix-setyax-i-bankax.
    10. http://подсчет-посетителей.рф/.
    11. http://macroscop.com/products/Intelligent_modules/.
    12. www.rhondasoftware.com/software-solutions/computer-vision.
    13. www.3vr.com/products/videoanalytics/demographics.
    14. www.cognitec-systems.de/FaceVACS-VideoScan.20.0.html.
    15. http://ssbu-t.psn-web.net/Library/Presentation_Material/English/WJ-NVF20/English/NVF20_introduction_v1.00.pdf.
    16. Vaquero D.A. et. al. Attribute-based people search in surveillance environments // WACV, 2009.
    17. www.intuvisiontech.com/products/softbiometry.php.
    18. Shan С. Learning local binary patterns for gender classification on real-world face images // Pattern Recognition Letters, 33(4): 431-437, 2012.
    19. Viola P., Jones M. J. Robust Real-Time Face Detection // Int’l J. Computer Vision, 57(2): 137-154, 2004
    20. Perez C. et. al. Gender classification from face images using mutual information and feature fusion // Int. J. Optomechatronics, 6(1):92-119, 2012.
    21. Chang K.-Y. et. al. Ordinal Hyperplanes Ranker with Cost Sensitivities for Age Estimation // IEEE Conf. on Computer Vision and Pattern Recognition, 2011; El Deeb M., El-Saban M. Human Age Estimation Using Enhanced Bio-Inspired Features (EBIF) // ICIP, 2010.
    22. http://ipvm.com/updates/1711.
    23. www.slideshare.net/PRaKEIKSMAS/trumedia-icapture#btnNext.
    24. Demirkus M. et. al. Automated person categorization for video surveillance using soft biometrics // SPIE Defense and Security Conference, 2010.

    Главное фото: www.rodrigob.github.io

    www.secuteck.ru

    Якщо ви помітили помилку, будь даска, повідомте нас, натиснувши Ctrl+Enter.

    Метки: ,


    About the Author

    Главный редактор Digital Signage UA Review до августа 2017



    Back to Top ↑

    Сообщить об опечатке

    Текст, который будет отправлен нашим редакторам: