본문 바로가기
논문/text detection

TextFuseNet: Scene Text Detection with Richer Fused Features

by dohunNewte 2024. 7. 1.
반응형

Abstract

자연스러운 장면에서 Arbitary shape text detection은 도전적인 과제입니다.

이논문은 feature representation의 한계가 있는 기존 논문들과는 달리 다른 접근방식을 사용합니다.

저자들은 세가지의 단계를 사용합니다.

1. character-

2. word-

3. global-level

proposal-free 방식의 텍스트 세그멘테이션 모델들이 단일 수준의 특징만을 활용했던 것에 비해, 이 모델은 문자, 단어, 글로벌 수준의 다양한 특징을 융합하여 더 강력한 텍스트 탐지 성능을 달성하고자 합니다.

 

multi-level feature representation은 각각의 characters를 세분화하면서 전반적인 의미정보를 유지해 적절하게 텍스트를 묘사할 수 있습니다.

TextFuseNet은 multi-path fusion 아키텍쳐를 사용하면서 다른 레벨의 text' features를 융합합니다.

 

Introduction

두가지 형태의 방법이 존재합니다.

1.character-based methods

2. word-based methods

 

character-based methods는 여러개의 characters의 균형으로써의 text를 고려합니다.

저자들은 character detectors로  characters를 추출합니다. 그러고나서 words를 그룹화합니다.

그러나 character-based methods는 많은 시간이 필요합니다.

반면에 word-based methods는 객체 탐지 파이프라인을 활용하여 단어를 직접 탐지하는 방식입니다. 이 단어기반 방식이 훨씬더 간단하고 효과적입니다. 그러나 이 방식은 임의의 모양을 가진 텍스트를 효과적으로 탐지하는데 실패하는 경우가 많습니다.

이러한 문제를 극복하기위해 일부 word-based methods는 instance segmentation을 추가로 적용했습니다.

이러한 방식은 좋은 결과를 보이지만 여전히 두가지의 한계점이 있습니다.

1. 이 방식들은 전역적인 문맥을 고려하지 않고 단일 관심 영역(Rol)만을 기반으로 텍스트를 감지하기 때문에, 제한된 시각 정보로 인해 부정확한 탐지 결과를 산출할 수 있습니다.

2.기존 방식들은 단어의 다양한 의미 수준을 모델링하지 않아 잘못된 탐지가 발생할 수 있습니다.

 

 

저자들은 character-, word-level features를 추출하기 위해서 Mask R-CNN을 파이프라인을 사용합니다.

기존의 Mask R-CNN논문과 달리 제안하는 방식은 탐지 및 Mask branches에서 단어 인스턴스뿐만 아니라 문자 인스턴스도 탐지하고 segmentation 합니다. 이를 통해 문자 수준과 단어 수준의 다중 표현을 제공할 수 있게 되어, 더 정확한 텍스트 탐지와 인식이 가능합니다.

 

three-level fusion후에 저자들은  multi-path feature fusion architecture를 소개합니다. 이것은 multi-path fusion nework를 통해 character-, word, global-level features를 섞습니다.

 

detection branch에서는 RPN으로부터 얻은 텍스트 제안들을 기반으로 글로벌 수준과 단어 수준의 특징을 추출하여 융합합니다. 이를 통해 단어와 문자 수준의 텍스트 탐지 결과를 얻습니다.

 

Mask branch에서는 각 단어 인스턴스에 대해 문자, 단어, 글로벌 수준의 특징을 융합합니다.

 

multi-path fusion architecture

4가지의 Loss를 Sum

성능비교표

728x90

댓글