Другие журналы

научное издание МГТУ им. Н.Э. Баумана

НАУКА и ОБРАЗОВАНИЕ

Издатель ФГБОУ ВПО "МГТУ им. Н.Э. Баумана". Эл № ФС 77 - 48211.  ISSN 1994-0408

Адаптация алгоритма локализации текстовых областей для видеопотока

# 11, ноябрь 2016
DOI: 10.7463/1116.0850126
Файл статьи: SE-BMSTU...o112.pdf (1321.79Кб)
авторы: Рудаков И. В.1, Ломовской И. В.1, Сёмина В. А.1,*

УДК 004.932.75

1 МГТУ им. Н.Э. Баумана, Москва, Россия

Данная работа посвящена адаптации алгоритма локализации текстовых областей на изображении для видеоряда. Предложенное решение состоит из двух шагов: выделение ключевых или опорных кадров (фреймов) видео и проведение локализации для отобранных изображений. Поиск опорных кадров проводится с помощью метода, базирующегося на анализе разницы граничной информации фреймов. Для локализации текстовых областей на изображениях взят алгоритм, относящийся к классу гибридных. Такой выбор обусловлен тем, что данная группа алгоритмов способна справляться с тексом различной ориентации, инвариантна к языку текста и предназначена для обработки изображений со сложным фоном.
Особое внимание в работе уделяется двум этапам собственно алгоритма локализации текста, а именно: фильтрации регионов и объединению оставшихся областей в пары. Для реализации этих шагов использовались некоторые эвристические правила. Адаптация алгоритма заключается в добавлении двух эвристик для этих этапов с целью улучшения качества обнаружения текстовых областей.
Для оценки качества локализации использовались известные метрики (вероятность ошибки первого и второго рода, вероятность потери данных, полнота, точность и f1 - мера). В качестве тестовых данных выступала видео подборка ICDAR 2015. В результате проведения экспериментов было установлено, что предложенное решение справляется с обнаружением текста различного типа шрифта, языка и ориентации, а также способно обрабатывать кадры со сложным фоном. Также было проведено исследование, которое доказало улучшение качества локализации текстовых областей как для видео с простым, так и со сложным фоном, а также для различных его разрешений.
Результатом данной работы является адаптированный алгоритм локализации текстовых областей в видеопотоке.
Результатом же проведенных исследований является набор рекомендаций относительно значений некоторых эвристик в зависимости от типа шрифта, языка, ориентации текста и сложности фона кадров видеоряда.
Перспективным направлением развития работы является добавление новых или модификация уже используемых эвристических правил для сокращения количества ложных срабатываний алгоритма.

Список литературы
  1. Dutta A., Pal U., Shivakumara P., Ganduli A., Bandyopadhya A., Tan C.L. Gradient based approach for text detection in video frames.  Available at:  https://www.comp.nus.edu.sg/~tancl/publications/c2009/ICSIP2009-3.pdf, accessed 17.09.2016.
  2. Зотин А.Г. Методы и алгоритмы обнаружения наложенных текстовых символов в системах распознавания изображений со сложной фоновой структурой. Режим доступа:
    http://www.dissercat.com/content/metody-i-algoritmy-obnaruzheniya-nalozhennykh-tekstovykh-simvolov-v-sistemakh-raspoznavaniya (дата обращения 17.09.2016).
  3. Никитин И.К. Обзор методов комплексного ассоциативного поиска видео. Режим доступа:https://www.researchgate.net/publication/274732904_obzor_metodov_kompleksnogo_associativnogo_poiska_video (дата обращения: 17.09.2016).
  4. Wolf W. Key frame selection by motion analysis // IEEE Intern. Conf. on Acoustics, Speech and Signal Processing: ICASSP’ 96: Proceedings. Wash.: IEEE, 1996. Vol. 2. DOI: 10.1109/ICASSP.1996.543588
  5. Khushboo Khurana, Chandak M.B. Key frame extraction methodology for video annotation. Available at: https://www.academia.edu/3255959/KEY_FRAME_EXTRACTION_METHODOLOGY_FOR_VIDEO_ANNOTATION, accessed 17.09.2016.
  6. Фраленко В.П. Локализация текстовых фрагментов на смешанном фоне: краткий научный обзор. Режим доступа:http://psta.psiras.ru/read/psta2014_2_33-45.pdf (дата обращения: 17.09.2016).
  7. Горьков А. О цветовых пространствах. Режим доступа:https://habrahabr.ru/post/181580/ (дата обращения: 17.09.2016).
  8. Canny J.A computational approach to edge detection. Available at:https://perso.limsi.fr/vezien/PAPIERS_ACS/canny1986.pdf, accessed 17.09.2016.
  9. Буй Т.Т.Ч., Спицын В.Г. Анализ методов выделения краев на цифровых изображениях. Режим доступа:http://www.tusur.ru/filearchive/reports-magazine/2010-2-2/221.pdf (дата обращения: 17.09.2016).
  10. Epstein B., Ofek E., Wexler Y. Detecting text in natural scenes with stroke width transform. Available at: https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/1509.pdf, accessed 17.09.2016.
  11. Connected component labelling. Available at: http://aishack.in/tutorials/connected-component-labelling/, accessed 17.09.2016.
  12. Троелсен Э. Язык программирования C# 5.0 и платформа .NET 4.5. 6- е изд .  М .:  Вильямс , 2013. 1312  с . [Troelsen A. Pro C#5.0 and the .NET 4.5 framework. 6thed. Berk .: Acad . Press, 2012. 1312 p. ]
  13. .NET: Develop high performance application in less time, on any platform. Available at:https://www.microsoft.com/net/, accessed 17.09.2016.
  14. Open CV: Open source computer vision. Available at:  http://opencv.org/, accessed 17.09.2016.
  15. Main page: Emgu CV. Available at:    http://www.emgu.com/wiki/index.php/Main_Page, accessed 17.09.2016.
  16. F1 score. Available at: https://en.wikipedia.org/wiki/F1_score, accessed 17.09.2016.
  17. ICDAR 2015. Robust reading competition. Available at: http://rrc.cvc.uab.es/?ch=3&com=introduction, accessed 17.02.2016.
  18. Рукописные шрифты. Режим доступа:http://www.fonts-online.ru/fonts/handwritten (дата обращения: 17.09.2016).
  19. Наглядная классификация шрифтов. Режим доступа:http://infogra.ru/typography/naglyadnaya-klassifikatsiya-shriftov (дата обращения: 17.09.2016).
  20. Классификация [шрифтов]. Режим доступа:http://www.paratype.ru/help/class/ (дата обращения: 17.09.2016).
  21. Список наиболее распространенных языков. Режим доступа:https://ru.wikipedia.org/wiki/Список_наиболее_распространённых_языков (дата обращения: 17.09.2016).
Поделиться:
 
ПОИСК
 
elibrary crossref ulrichsweb neicon rusycon
 
ЮБИЛЕИ
ФОТОРЕПОРТАЖИ
 
СОБЫТИЯ
 
НОВОСТНАЯ ЛЕНТА



Авторы
Пресс-релизы
Библиотека
Конференции
Выставки
О проекте
Rambler's Top100
Телефон: +7 (915) 336-07-65 (строго: среда; пятница c 11-00 до 17-00)
  RSS
© 2003-2017 «Наука и образование»
Перепечатка материалов журнала без согласования с редакцией запрещена
 Тел.: +7 (915) 336-07-65 (строго: среда; пятница c 11-00 до 17-00)