В эпоху развития передовых технологий компьютеры могут не только совершать арифметические и логические операции, но и видеть практически как люди. Машины учатся выполнять ряд задач, связанных с визуальным определением различных объектов и тем самым упрощают жизнь компаниям в различных отраслях. Это возможно благодаря компьютерному зрению, о котором мы расскажем в этой статье.
Компьютерное (машинное) зрение: что это, как работает
Компьютерное зрение (Computer Vision, CV) — область искусственного интеллекта, нацеленная на анализ визуального контента. Благодаря нейронным сетям и машинному обучению вычислительные машины учатся понимать содержимое видеофайлов или изображений, интерпретировать полученную информацию и на основе результатов принимать решения. По сути, компьютерное зрение имитирует человеческое, только работает в разы быстрее. CV-системы способны за доли секунд идентифицировать различные объекты, анализировать предметы на огромных площадях, распознавать незаметные глазу дефекты и т.д.
Чтобы компьютер понял, какой именно перед ним объект, необходимо сначала получить изображение. Для этого в системах компьютерного зрения есть фото- и видеокамеры. Затем с помощью специального ПО происходит обработка входных данных и уже потом — анализ. Давайте более подробно разберем эти этапы.
|
Сбор визуальных данных |
Обработка захваченных изображений |
Анализ |
|
Захват данных с помощью сенсоров и камер, преобразование собранной визуальной информации в цифровой формат |
Выделение признаков — обнаружение на фото или видео отдельных элементов. Это необходимо для корректной идентификации изображенных объектов |
Распознавание, сегментация и классификация объектов с помощью предварительно обученных сверточных нейросетей, предназначенных для обработки снимков или видео |
|
Предварительная подготовка собранных данных: цветокоррекция, изменение размеров изображений, коррекция контрастности и яркости |
Сравнение выявленных признаков с имеющимися шаблонами, идентификация объектов по ранее изученным паттернам |
Повышение способности систем компьютерного зрения почти со стопроцентной точностью интерпретировать объекты происходит за счет машинного обучения. Какие варианты могут быть:
- Supervised Learning — обучение с учителем. Такой подход подразумевает использование набора учебных данных. Обучаемые модели вычленяют закономерности в этих данных и применяют их к идентифицируемым объектам на изображениях
- Unsupervised Learning — обучение без учителя. В рамках этого метода модели компьютерного зрения не используют каких-либо меток и обнаруживают в предоставленных данных паттерны или естественные закономерности.
- Deep Learning — глубокое обучение. Такой подход предполагает создание многослойных нейронных сетей, изучающих сложные закономерности в больших массивах данных. Особенно эффективно с изображениями работают сверточные нейросети — Convolutional Neural Networks. Они способны безошибочно идентифицировать объекты, распознавать лица и силуэты, выполнять разметку сцен.
Краткая история развития технологий компьютерного зрения
Впервые о компьютерном зрении заговорили еще в 1955 году, когда вышла статья «Глаза и уши компьютера». Практически в этот же период заговорили об искусственном интеллекте. Чуть позже (в 1958 году) эти два понятия пересеклись в одной точке, когда ученый Ф.Розенблатт создал перцептрон — кибернетическую модель мозга, которая в 1960 году была воплощена в виде электронной машины «Марк-1».
В 1970-х годах начали использоваться экспериментальные системы обработки изображений с помощью компьютеров, но до активного развития технологий компьютерного зрения было еще далеко — оно началось только в 1990-х годах. Тогда стали применяться первые программы для распознавания лиц на снимках и видео.
В последние 10 лет рынок решений и сфер применения систем компьютерного зрения значительно расширился. Решения сильно выросли в плане возможностей и стали использоваться практически повсеместно, особенно в связи с ростом применения биометрии.
Основные задачи компьютерного зрения
Выделим несколько ключевых задач:
- Классификация визуальной информации — присвоение определенного класса объектам на входных изображениях. Например, благодаря системе компьютерного зрения компьютеры могут определять, что на фото человек, животное, транспорт и т.д.
- Обнаружение определенных объектов на изображении или видео, определение их точной локализации.
- Сегментация изображений — разделение изображений на несколько сегментов, которые соответствуют определенным объектам.
- Распознавание лиц и силуэтов для идентификации личности в различных системах: платежных, корпоративных и др.
- Анализ видео с целью распознавания действий и событий, отслеживания конкретных объектов.
Технологии компьютерного зрения дают возможность практически в реальном времени обрабатывать изображения и видео. Это позволяет решать перечисленные задачи с минимальными задержками, что критически важно для некоторых отраслей.
Где применяется компьютерное зрение
Решения на базе технологий машинного зрения нашли применение во многих отраслях, поэтому разберем основные:
- Финансы. В этой сфере системы на основе компьютерного зрения позволяют улучшать клиентский сервис, обеспечивать дистанционное обслуживание, предотвращать фрод, контролировать безопасность банковских офисов, внедрять оплату по биометрии.
- Транспорт. Здесь компьютерное зрение помогает управлять пассажирским потоком и пропускными системами, оптимизировать нагрузки на дорожные сети, анализировать поведение водителей и пассажиров.
- Ритейл. В этой отрасли технологии позволяют формировать персонализированные предложения для клиентов, следить за поведением покупателей, внедрять оплату по лицу.
- Образование. Здесь CV используется для оценки вовлеченности учащихся, автоматизации прокторинга экзаменов, повышения безопасности в образовательных учреждениях.
- Промышленность. В разных отраслях промышленности технологии компьютерного зрения помогают контролировать доступ сотрудников на предприятия, отслеживать перемещения по территории, выявлять внештатные ситуации.
- Медицина. Здесь решение на основе CV применяются для идентификации пациентов, анализа рентгеновских снимков, мониторинга состояния больных.
Вызовы и ограничения технологий компьютерного зрения
С какими сложностями можно столкнуться при использовании решений на базе компьютерного зрения:
- Необходимость в мощных вычислительных ресурсах. Это нужно для быстрой обработки фото или видео, точной интерпретации данных. Помогут графические процессоры и оптимизированные алгоритмы, предназначенные для мгновенного анализа входных данных
- Плохое качество исходных данных, которое негативно влияет на правильность интерпретации объектов. Проблемой могут стать слабое освещение, загроможденный фон, нечеткие детали. Варианты решения: улучшенный захват изображений с помощью высококачественных камер, использование фильтров, предварительная обработка контента.
- Необходимость маркировки изображений, которая имеет критическое значение для надежности модели. Проблема решается использованием автоматизированных методов маркировки.
Также в контексте применения компьютерного (машинного) зрения поднимается вопрос этики работы с конфиденциальными данными. Чтобы избежать проблем и соблюсти требования отраслевых регуляторов, нужно установить четкие правила сбора и хранения информации, продумать механизмы получения согласия на использование данных.

Роль компании VisionLabs в развитии технологий компьютерного зрения
VisionLabs — разработчик и поставщик комплексных решений в области распознавания объектов и лиц. Предлагаем продукты для таких отраслей, как транспорт, финансы, ритейл, безопасность и др. Специализируемся на создании решений с человекоориентированной технологией Human Centric на базе компьютерного зрения.
Наши решения:
- Технологии распознавания лиц: детекция и аутентификация, распознавание атрибутов и свойств лица (пола, возраста, эмоций, направления взгляда и др)
- Liveness — технология для распознавания атак на биометрическое предъявление. Она позволяет определить, что перед камерой не живой человек, а фото, бумажная или объемная маска.
- DeepFake-детектор — технология для выявления различных видов DeepFake-атак на биометрические системы.
- Технология проверки изображений, качества изображений и параметров лица на соответствие требованиям регуляторов.
Некоторые наши продукты на основе компьютерного (машинного) зрения: LUNA PLATFORM 5 — автоматизированная система распознавания лиц, LUNA ID — BioSDK для распознавания на мобильных устройствах, LUNA PASS — модуль для проверки видео с web-камер на Liveness & Deepfake, LUNA KIOSK — биометрический модуль для устройств самообслуживания. Все биометрические продукты разработаны на базе собственных алгоритмов, которые признаны одними из лучших на российском рынке.
Заключение
Рынок систем компьютерного зрения — часть стремительно растущего в мире рынка искусственного интеллекта. В России он пока не очень велик, зато высококонкурентен. Компьютерное зрение уже нашло широкое применение в платформах распознавания лиц, программно-аппаратных комплексах, интеллектуальных транспортных системах и др. VisionLabs играет важную роль в развитии технологий, поставляя на рынок передовые решения на базе собственных алгоритмов.



