Abstract
자연스러운 장면에서 Arbitary shape text detection은 도전적인 과제입니다.
이논문은 feature representation의 한계가 있는 기존 논문들과는 달리 다른 접근방식을 사용합니다.
저자들은 세가지의 단계를 사용합니다.
1. character-
2. word-
3. global-level
proposal-free 방식의 텍스트 세그멘테이션 모델들이 단일 수준의 특징만을 활용했던 것에 비해, 이 모델은 문자, 단어, 글로벌 수준의 다양한 특징을 융합하여 더 강력한 텍스트 탐지 성능을 달성하고자 합니다.
multi-level feature representation은 각각의 characters를 세분화하면서 전반적인 의미정보를 유지해 적절하게 텍스트를 묘사할 수 있습니다.
TextFuseNet은 multi-path fusion 아키텍쳐를 사용하면서 다른 레벨의 text' features를 융합합니다.
Introduction
두가지 형태의 방법이 존재합니다.
1.character-based methods
2. word-based methods
character-based methods는 여러개의 characters의 균형으로써의 text를 고려합니다.
저자들은 character detectors로 characters를 추출합니다. 그러고나서 words를 그룹화합니다.
그러나 character-based methods는 많은 시간이 필요합니다.
반면에 word-based methods는 객체 탐지 파이프라인을 활용하여 단어를 직접 탐지하는 방식입니다. 이 단어기반 방식이 훨씬더 간단하고 효과적입니다. 그러나 이 방식은 임의의 모양을 가진 텍스트를 효과적으로 탐지하는데 실패하는 경우가 많습니다.
이러한 문제를 극복하기위해 일부 word-based methods는 instance segmentation을 추가로 적용했습니다.
이러한 방식은 좋은 결과를 보이지만 여전히 두가지의 한계점이 있습니다.
1. 이 방식들은 전역적인 문맥을 고려하지 않고 단일 관심 영역(Rol)만을 기반으로 텍스트를 감지하기 때문에, 제한된 시각 정보로 인해 부정확한 탐지 결과를 산출할 수 있습니다.
2.기존 방식들은 단어의 다양한 의미 수준을 모델링하지 않아 잘못된 탐지가 발생할 수 있습니다.

저자들은 character-, word-level features를 추출하기 위해서 Mask R-CNN을 파이프라인을 사용합니다.
기존의 Mask R-CNN논문과 달리 제안하는 방식은 탐지 및 Mask branches에서 단어 인스턴스뿐만 아니라 문자 인스턴스도 탐지하고 segmentation 합니다. 이를 통해 문자 수준과 단어 수준의 다중 표현을 제공할 수 있게 되어, 더 정확한 텍스트 탐지와 인식이 가능합니다.
three-level fusion후에 저자들은 multi-path feature fusion architecture를 소개합니다. 이것은 multi-path fusion nework를 통해 character-, word, global-level features를 섞습니다.
detection branch에서는 RPN으로부터 얻은 텍스트 제안들을 기반으로 글로벌 수준과 단어 수준의 특징을 추출하여 융합합니다. 이를 통해 단어와 문자 수준의 텍스트 탐지 결과를 얻습니다.
Mask branch에서는 각 단어 인스턴스에 대해 문자, 단어, 글로벌 수준의 특징을 융합합니다.

multi-path fusion architecture


성능비교표
'논문 > text detection' 카테고리의 다른 글
SRFormer: Text Detection Transformer with Incorporated Segmentation andRegression (0) | 2024.07.04 |
---|
댓글