본문 바로가기

논문29

SRFormer: Text Detection Transformer with Incorporated Segmentation andRegression Abstract현재 text detetion분야는 segmentation-based 와 regression-based 방법이 있습니다.저자들은 segmentation과 regression을 혼합한 DETR-base모델을 사용합니다.저자들의 주요한 분석은 우수한 decoder layer에서 우수한 segmentation 예측을 얻을수 있음을 나타냅니다.이점을 고려해서 저자들은 segmentation branch를 초기 몇 개의 디코더 층에만 포함시키고, 이후 점진적인 회귀 개선을 사용하여 mask로인한 computation load를 최소화하며 성능 향상을 달성했습니다.게다가 저자들은 Mask-informed Query Enhancement module을 제안합니다.저자들은 segmentation 결과를 .. 2024. 7. 4.
TextFuseNet: Scene Text Detection with Richer Fused Features Abstract자연스러운 장면에서 Arbitary shape text detection은 도전적인 과제입니다.이논문은 feature representation의 한계가 있는 기존 논문들과는 달리 다른 접근방식을 사용합니다.저자들은 세가지의 단계를 사용합니다.1. character-2. word-3. global-levelproposal-free 방식의 텍스트 세그멘테이션 모델들이 단일 수준의 특징만을 활용했던 것에 비해, 이 모델은 문자, 단어, 글로벌 수준의 다양한 특징을 융합하여 더 강력한 텍스트 탐지 성능을 달성하고자 합니다. multi-level feature representation은 각각의 characters를 세분화하면서 전반적인 의미정보를 유지해 적절하게 텍스트를 묘사할 수 있습니다.Te.. 2024. 7. 1.
High-Resolution Image Synthesis with Latent Diffusion Models Abstract이미지 형성 과정을 denoising autoencoders의 순차적 적용으로 분해함으로써 diffusion models(DMs)는 sota를 성취했습니다.게다가 그들의 함수는 재학습없이 이미지 generation을 컨트롤 하기 위한 매커니즘을 guide하는 것을  항상 허락합니다. 픽셀 공간에서 직접 작동하는 denoise autoencoder 기반의 이미지 생성 모델은 계산 복잡도가 높아 실용적인 활용에 어려움이 있습니다.그래서 저자들은 강력한 pretrain된 autoencoder의 latent space를 적용했습니다.이전의 연구와는 대조적으로 diffusion model을 특정한 representation에서 학습하는것이 복잡도 감소와 세부 정보 보존 간의 최적점을 달성할 수 있습.. 2024. 6. 25.
FeatureBooster: Boosting Feature Descriptors with a Lightweight NeuralNetwork 논문 Abstract 저자들은 같은 이미지 내에서 keypoints들의 묘사를 개선시키기 위해서 lightweight network를 소개합니다.이 network는 input으로 원래의 descriptor와 key points들의 기하학적인 특성을 가지고 MLP 기반인 self-boosting stage와 Transformer기반인 cross-boosting stage를 이 descriptors를 향상시키기 위해 사용합니다.boosted된 descriptor는 real-valued 또는 binary ones가 가능합니다.저자들은 boost를 위해 발표된 네트워크인 hand-crafted(ORB, SIFT) 와 learning-based descriptors에서 sota를 찍은 모델(SuperPoint, LIK.. 2024. 5. 13.