Технології people-face-classification-to-measure-the-audience-and-archive-search

    Published on 10.03.2015 | by Міла Марченко

    Класифікація людей за обличчям для вимірювання аудиторії і пошуку в архіві

    Класифікація людей за обличчям — напрямок відеоаналітики, що активно розвивається. Особливо це актуально для вимірювання аудиторії і пошуку в відеоархіві – для торгових і бізнес-центрів, великих об’єктів транспортної інфраструктури.

    З зображення обличчя людини можна зчитати багато корисної інформації, наприклад, стать і вік, колір волосся, наявність і колір головного убору, наявність окулярів, вусів тощо. Частина цієї інформації є інваріантною, тобто постійно притаманною даній людині (стать або вік, якщо трактувати його як рік народження). Інша частина – тимчасова характеристика людини (колір волосся). Така інформація може становити інтерес або сама по собі, наприклад для біометричного профайлінга відвідувачів – оцінки демографічного складу аудиторії, або опосередковано – для прискорення пошуку людей у відеоархіві.

    Принцип роботи класифікації людей за обличчям

    Більшість алгоритмів класифікації людей за зображенням обличчя використовують однакову послідовність дій:

    1. Виділення обличчя на зображенні (Face Detection).
    2. Виділення антропометричних точок на обличчі (Face Features Detection).
    3. Нормалізація зображення обличчя (Face Normalization). Даний етап включає в себе як геометричну нормалізацію – приведення обличчя в стандартне положення для зменшення відмінностей, викликаних позою і мімікою, так і нормалізацію освітлення. Найбільш стандартною геометричною нормалізацією є просто поворот обличчя в площині зображення, при якому лінія між очима стає горизонтальною, а також масштабування і обрізання зображення. Більш складні алгоритми намагаються виправити позу обличчя, оцінюючи 3D-положення голови.
    4. Обчислення дескриптора зображення обличчя (Feature Extraction). Це ключовий етап алгоритму, саме їм здебільшого визначаються відмінності систем від різних виробників. Отриманий дескриптор зазвичай кодує інформацію про геометрію і текстуру конкретного обличчя.
    5. Безпосередньо класифікація обличчя (Classification). Як правило, на цьому етапі використовується один з алгоритмів машинного навчання, який по великій розміченій вибірці зображень автоматично навчається залежності між ознаками (дескриптором особи) і класифікованим атрибутом (наприклад, статтю людини). Розмір і репрезентативність навчальної вибірки сильно впливають на точність підсумкового алгоритму.
    people-face-classification-to-measure-the-audience-and-archive-search-1

    рис.1 Послідовність обробки зображення при класифікації обличчя

    Описана послідовність дій проілюстрована на рис. 1 на прикладі зображення з бази LFW1. Як видно, принцип роботи таких алгоритмів дуже нагадує алгоритми ідентифікації людей за зображенням обличчя. Єдина відмінність – на п’ятому етапі, де замість класифікації людини за дескриптором обличчя здійснюється порівняння двох дескрипторів з метою оцінки схожості людей. Деякі системи, наприклад face.com2, використовують однакові дескриптори для обох завдань.

    У випадку роботи з відеопотоком додаються завдання супроводу обличчя між кадрами (або зіставлення виділених на різних кадрах облич) і вибір найкращого кадру для класифікації (див. рис. 2). Сама класифікація зазвичай виконується або за одним, або за декількома найкращими кадрами.

    Як і у випадку ідентифікації людей по обличчю, на точність класифікації сильно впливають дозвіл зображення, поворот обличчя, чіткість картинки, освітлення, міміка. У різних системах накладаються різні мінімальні вимоги на дозвіл обличчя – від 30 до 75 пкс між очима людини.

    people-face-classification-to-measure-the-audience-and-archive-search-2

    рис. 2 Вибір найкращого кадру для класифікації

    Застосування класифікації людей за обличчями

    Одним з перших застосувань класифікації людей за обличчям була анотація зображень в Інтернеті для поліпшення пошуку. В першу чергу це обумовлено більш простими вхідними даними – якість більшості індексованих зображень значно краще кадрів з камер відеоспостереження, для них характерні більш фронтальні ракурси, хороше освітлення, великі дозвіл і чіткість.

    Класифікація глядачів

    Першим практичним застосуванням класифікації в відеопотоці став аналіз глядачів для систем Digital Signage – цифрових екранів, встановлених у громадських місцях, в основному для розповсюдження реклами. Завдяки аналізу кількості глядачів та їх статі/віку з’явилася можливість об’єктивно оцінювати ефективність конкретних екранів і рекламних роликів. Оскільки для вирішення цього завдання досить визначати тільки людей, що дивляться в екран протягом як мінімум пари секунд, то зображення осіб, що подаються на вхід класифікації, виходять відносно фронтальними і чіткими.

    Подібні рішення вже досить поширені і пропонуються низкою компаній. У першу чергу варто виділити систему Intel AIM Suite3 – вона створена на основі розробок канадської компанії CognoVision, купленої Intel в 2010 р. за 25 млн. дол. Intel використовує модель Software as a Service (SaaS), пропонуючи послугу аналізу аудиторії за ціною 20 дол. за один екран (одну камеру) на місяць.

    Альтернативні рішення пропонуються в тому числі ізраїльською компанією TruMedia Technologies4, іспанськими AITech5 і Inspecta6, російської Rhonda Software7.

    Аналіз покупців і відвідувачів

    Останнім часом зростає інтерес до аналізу аудиторії для торгових і бізнес-центрів, банків, ресторанів та ін. У разі бізнес-центрів кількість і статево-віковий склад відвідувачів є важливою інформацією для потенційних орендарів і рекламодавців. Для рітейлу аналіз динаміки таких показників додатково дозволяє оцінювати ефективність маркетингових акцій, краще підлаштовувати свою цінову політику (час знижок).

    У Росії активно поширюються системи, що дозволяють вирішити частину завдання – оцінити кількість відвідувачів. Це досягається за рахунок використання камер на стелі, спрямованих вертикально вниз. Завдяки такому ракурсу виходить надійно підраховувати людей навіть при щільному потоці. Відповідні рішення пропонують вже багато російських компаній – itseez8, “Сінезіс”9, “ЕЛВІС-Неотек”10, “Сателіт Інновація”11, Rhonda Software12 та ін. Однак у всіх цих системах відсутня можливість класифікації людей, оскільки обличчя людини при такому ракурсі не видно зовсім.

    Завдання класифікації відвідувачів ускладнюється в порівнянні з класифікацією глядачів Digital Signage – камери зазвичай встановлені далі від людей, а люди не зупиняються і не дивляться в напрямку камери, що різко знижує чіткість і дозвіл зображень облич, ускладнює ракурси. Проте в останні роки в світі з’являються системи, що вирішують це завдання. В якості прикладів варто навести Demographics Analytic13 від компанії 3VR, бібліотеку FaceVACS-VideoScan14 від німецької Cognitec Systems (один зі світових лідерів в області алгоритмів ідентифікації людей за обличчям) і Business Intelligence Kit15 від компанії Panasonic.

    Пошук в відеоархіві

    Не менш перспективним напрямком є ​​використання класифікації для пошуку людей в відеоархівах. Це особливо актуально для таких об’єктів, як великі бізнес-центри, об’єкти транспортної інфраструктури, торгові центри. Для подібних об’єктів характерна висока щільність потоку людей і наявність ряду “вузьких шийок” — входів/виходів, ескалаторів, ліфтових холів, через які всі люди обов’язково проходять. У разі будь-якої події, наприклад, крадіжки або теракту, знайти злочинця за прикметами або, якщо він був помічений на одній з камер, відстежити його на інших камерах за короткий час практично неможливо. Не допомагає і стандартна відеоаналітіка – вона не дозволяє автоматично супроводжувати людей при такій щільності. Але при розміщенні відеокамер в “вузьких горлечках” можна отримати фотографії більшості відвідувачів, класифікувати людей за обличчями і в рази прискорити пошук – скажімо, звузивши його до певних параметрів: наприклад, білий чоловік, 30-40 років, у чорній кепці і в темних окулярах.

    Серед прикладів систем, що прискорюють подібним чином пошук в архівах, можна вказати розробки компанії IBM16 і IntuVision17. В системі від IBM в якості атрибутів для пошуку використовується колір одягу, наявність окулярів, головного убору і вусів або бороди. В системі від компанії IntuVision застосовуються різні ознаки в залежності від розміру та ракурсу людини – якщо його видно вдалині або позаду, то буде використовуватися тільки колір одягу, якщо ж видно обличчя, то ще стать і раса.

    Точність класифікації

    Важливим питанням є точність класифікації людей існуючими системами. Оскільки результати класифікації найчастіше використовуються для збору загальної статистики, то ціна помилки тут нижче, а значить нижче і вимоги до точності в порівнянні з системами ідентифікації людей. Проте від досяжної точності залежить можливе застосування класифікації.

    Для коректної оцінки та порівняння систем необхідно разом з точністю вказувати і точну вибірку зображень чи відеороликів, на яких відбувалося тестування. Без специфікації вибірки можна досягти практично стовідсоткової точності, якщо обмежитися максимально простими умовами зйомки, а тим більше якщо навчати систему тільки на дуже схожих даних. На жаль, на відміну від області ідентифікації людей за фотографією обличчя, сталих баз зображень і протоколів для порівняння алгоритмів класифікації людей на даний момент немає. Тому оголошені всіма виробниками характеристики систем варто оцінювати скептично. Особливо це актуально для оцінки віку людини. Справа в тому, що для оцінки статі набагато легше зробити вибірку, в якій в однакових пропорціях представлені чоловіки і жінки. А для віку баланс часто порушений, наприклад, коли більша частина відвідувачів об’єкта, де збиралася вибірка, від 20 до 35 років. В даному випадку проста оцінка всіх людей в 27,5 року дає цілком адекватну помилку близько 7,5 років.

    Поточний науковий рівень

    Для оцінки можливостей сучасних систем є сенс розглянути як поточний рівень наукових статей, так і заявлені характеристики комерційних продуктів.

    Ймовірно, найбільш високою заявленої точністю класифікації статі на базі Labeled Faces in the Wild (LFW), активно використовуваної для порівняння алгоритмів верифікації людей, є 94,81%18. Дана база автоматично зібрана з фотографій в Інтернеті, на яких знаходилися особи алгоритмом Viola-Jones19, і складається з 13 233 зображень 5749 людей. Середня відстань між очима становить близько 40-50 пкс. У зазначеній статті з цієї вибірки були залишені лише 7443 зображення без точної вказівки, які саме. Однак і на повній базі є близькі результати, наприклад 93,6%20.

    Найменша помилка оцінки віку становить близько 3-4 роки21 залежно від вибірки. Але всі відкриті використовувані бази або сильно нерівномірні за віком, або містять занадто мало зображень для достовірної оцінки. Тому залишається питання про екстраполяцію даних результатів на довільні зображення, не кажучи вже про відео, для якого характерні більш складні ракурси й умови зйомки.

    Приклади комерційних систем

    Велика частина компаній відкрито не наводить точність своєї класифікації. 3VR заявляє про середню помилку в оцінці віку в 7 років22, TruMedia говорить про точність класифікації статі в 90% і класифікації на 3 вікові групи (молодий, дорослий, літній) в 85%23. У статті розробників з компанії ntuVision заявляється про точність класифікації статі в 90% при розмірі обличчя в 60×60 пкс і 70-75% при 30×30 пкс24. Як вже було сказано, без конкретних вибірок ці цифри дають не багато інформації, точність могла підганятися під очікувані замовниками показники. Проте дані числа можна використовувати в якості верхнього орієнтира точності даних систем в цільових сценаріях відеоспостереження. В якості суб’єктивного резюме: точність класифікації статі досягає 90%, але, швидше за все, тільки при хороших умовах зйомки. Для оцінки віку здається більш реалістичною точність 85% при класифікації на 3 вікові групи.

    Практичні висновки

    Класифікація людей за обличчям — напрямком відео аналітики, що активно розвивається.

    1. Найбільш перспективні її застосування – вимірювання аудиторії і пошук в відео архіві. Вони особливо актуальні для торгових і бізнес-центрів, великих об’єктів транспортної інфраструктури, де висока щільність потоку людей часто робить маловживаними інші алгоритми відеоаналітики.
    2. Принцип роботи алгоритмів класифікації людей за обличчям дуже близький до алгоритмів ідентифікації людини. Схожі і вимоги на ракурси відеозйомки, освітлення сцени.
    3. Однією з проблем, що перешкоджають об’єктивній оцінці точності сучасних систем, є відсутність загальновизнаних репрезентативних баз і протоколів порівняння алгоритмів.
    4. В якості грубої оцінки точності існуючих систем можна назвати 90% для класифікації статі і 85% для класифікації людей на 3 вікові групи.

    1. http://vis-www.cs.umass.edu/lfw/.
    2. www.facebook.com/Face.com.
    3. www.intel.ru/content/www/ru/ru/retail/retail-aim-suite.html.
    4. www.trumedia.co.il/.
    5. www.aitech.es/.
    6. www.inspecta.es/en/project/37.
    7. www.myaudience.com/.
    8. http://itseez.com/index.php?page=vcount.
    9. http://synesis.ru/solutions/cassiopeia/podschet-posetitelej-v-torgovyix-setyax-i-bankax.
    10. http://подсчет-посетителей.рф/.
    11. http://macroscop.com/products/Intelligent_modules/.
    12. www.rhondasoftware.com/software-solutions/computer-vision.
    13. www.3vr.com/products/videoanalytics/demographics.
    14. www.cognitec-systems.de/FaceVACS-VideoScan.20.0.html.
    15. http://ssbu-t.psn-web.net/Library/Presentation_Material/English/WJ-NVF20/English/NVF20_introduction_v1.00.pdf.
    16. Vaquero D.A. et. al. Attribute-based people search in surveillance environments // WACV, 2009.
    17. www.intuvisiontech.com/products/softbiometry.php.
    18. Shan С. Learning local binary patterns for gender classification on real-world face images // Pattern Recognition Letters, 33(4): 431-437, 2012.
    19. Viola P., Jones M. J. Robust Real-Time Face Detection // Int’l J. Computer Vision, 57(2): 137-154, 2004
    20. Perez C. et. al. Gender classification from face images using mutual information and feature fusion // Int. J. Optomechatronics, 6(1):92-119, 2012.
    21. Chang K.-Y. et. al. Ordinal Hyperplanes Ranker with Cost Sensitivities for Age Estimation // IEEE Conf. on Computer Vision and Pattern Recognition, 2011; El Deeb M., El-Saban M. Human Age Estimation Using Enhanced Bio-Inspired Features (EBIF) // ICIP, 2010.
    22. http://ipvm.com/updates/1711.
    23. www.slideshare.net/PRaKEIKSMAS/trumedia-icapture#btnNext.
    24. Demirkus M. et. al. Automated person categorization for video surveillance using soft biometrics // SPIE Defense and Security Conference, 2010.

    Головне фото: www.rodrigob.github.io

    www.secuteck.ru

    Якщо ви помітили помилку, будь даска, повідомте нас, натиснувши Ctrl+Enter.

    Теґи: ,


    About the Author

    Головний редактор Digital Signage UA Review до серпня 2017



    Back to Top ↑

    Повідомити про помилку

    Текст, який буде надіслано нашим редакторам: