반응형

Machine Learning 18

PDFTranslate FastAPI 구현

오늘은 최근에 중국 Baidu에서 나온 PDFTranslate를 활용하여 FastAPI를 구현했습니다. PDFMathTranslate는 (수학) 논문 PDF를 번역하고, 원본 문서와 번역된 문서를 비교할 수 있는 기능을 제공합니다. 특히 수식, 차트, 목차, 주석 등 원본의 구조를 유지하면서 번역 결과를 제공하고 있어 수학 분야를 비롯한 자연 과학 분야의 논문들을 번역하기에 좋습니다. 다양한 언어 및 외부 번역 서비스 등을 지원하며, 명령줄 도구, GUI, Docker 환경 등 다양한 방식으로 활용할 수 있습니다. pdfTranslate의 주요 특징으로는 아래와 같습니다.구조 보존: 수식, 차트, 목차 등의 구조를 손실 없이 번역다양한 번역 서비스 지원: Google Translate 및 DeepL 등과..

Machine Learning 2025.02.04

Stable Diffusion FastAPI 구현

오늘은 Stable Diffusion 코드를 활용하여 FastAPI를 구현했습니다. 이전에 Grounding-DINO를 이용하여 FastAPI 구현 및 실행하는 글을 작성하였습니다. 2024.12.06 - [Machine Learning] - Grounding-DINO FastAPI 구현 이번에는 Stable Diffusion에 대해서 어떻게 코드를 작성해서 사용하는 지에 대한 글을 작성하겠습니다.Stable Diffusion은 텍스트 프롬프트를 기반으로 이미지를 생성하는 딥러닝 모델로, Latent Diffusion Model(LDM)을 활용하여 노이즈를 점진적으로 제거하는 방식으로 동작합니다. 이 모델은 GPU 메모리 사용을 최적화하여 비교적 적은 자원으로도 실행할 수 있으며, 오픈소스로 제공되어 다..

Machine Learning 2025.02.03

Document Attention Networks (DAN)

Coquenet, Denis, Clément Chatelain, and Thierry Paquet. "Dan: a segmentation-free document attention network for handwritten document recognition."IEEE transactions on pattern analysis and machine intelligence45.7 (2023): 8227-8243.https://arxiv.org/pdf/2203.12273v4오늘은 Document OCR에 대한 논문을 (필요하다 생각하는 정보만) 정리해봤습니다.Detection 없이 E2E를 구현한 논문으로 네트워크 구조는 특별한게 없었지만 아이디어가 매우 신선한 논문이였습니다.공식코드는 여기 에서 확인해 ..

Grounding-DINO FastAPI 구현

오늘은 Grounding-DINO 코드를 활용하여 FastAPI를 구현했습니다. 이전 글에도 적어놓았지만 Grounding-DINO는 multi-modal 모델입니다. 이미지와 텍스트를 입력하여 원하는 결과를 얻을 수 있게 됩니다. 이를 잘 활용한다면 귀찮은 annotation 수작업 없이 모델 하나만을 통해 모든 데이터를 1차적으로 annotation할 수 있는 편리함을 가지게 됩니다. 그런데 매번 쓸 때마다 다시 다운로드 받고 설정하는 게 귀찮아서 API로 만들면 어떨까 하는 생각에 만들게 되었습니다. 한번 만들어놓고 잘 활용한다면 정말 좋은 API고 자동으로 labeling도 해줄 수 있어서 편리합니다.세부적인 코드 주석은 달지 않았지만 틀린 부분이 있으면 언제든 댓글로 말씀해주시면 수정하겠습니다...

Machine Learning 2024.12.06

DBNet - Real-time Scene Text Detection with Differentiable Binarization

오늘은 DBNet이라는 논문에 대해서 리뷰하겠습니다. 최근에 OCR 관련 업무를 진행하면서 찾은 논문인데 꽤 오래전에 나왔던 논문이지만 기술적으로 도움이 많이 될 것 같아서 정리합니다. 2021년에는 DBNet++라는 논문도 나왔는데 해당 기술도 같이 언급드리도록 하겠습니다.세부적인 내용들은 찾아보시는 걸 권장하고 틀린 부분이 있으면 언제든 댓글로 말씀해주시면 수정하겠습니다. "Real-time Scene Text Detection with Differentiable Binarization",Minghui Liao, Zhaoyi Wan, Cong Yao, Kai Chen, Xiang Bai (2019)https://arxiv.org/abs/1911.08947 Abstract이 논문은 실시간 장면 텍스트 ..

Efficient DETR

" data-ke-type="html">HTML 삽입미리보기할 수 없는 소스 DEER 이론의 마지막 시리즈가 될 것 같습니다.현재 학습을 진행중이고, 최대한 코드 정리를 해서 깃허브에 업로드 예정입니다.그럼 바로 시작하겠습니다.Yao, Zhuyu, et al. "Efficient detr: improving end-to-end object detector with dense prior." arXiv preprint arXiv:2104.01318 (2021).https://arxiv.org/pdf/2104.01318 AbstractDETR 및 Deformable DETR과 같은 E2E Transformer detector는 6개의 Decoder Layer를 쌓아 Object Queries를 반복적으로 업데..

Panoptic SegFormer

" data-ke-type="html">HTML 삽입미리보기할 수 없는 소스 오랜만에 글을 게시해봅니다.DEER를 구현하는 과정에 있어서 Decoder(Character Recognition)는 시행착오가 있었으나 학습이 잘 되는데, Encoder(Segmentation)은 도저히 학습이 진행되지 않아 DEER에서 참고한 논문들(Efficient DETR)을 정리해봤습니다. Li, Zhiqi, et al. "Panoptic segformer: Delving deeper into panoptic segmentation with transformers."Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022..

Conditional-DETR : for Fast Training Convergence

오늘은 Conditinal-DETR이라는 논문에 대해서 리뷰하겠습니다. 해당 논문은 헝가리안 알고리즘에 대한 기초 지식을 알고 있다는 전제하에 작성한 글입니다. 따로 헝가리안 알고리즘에 대해 정리하겠지만 미리 공부하고 보면 더 도움이 될 것입니다.그리고 이전에 작성했던 DAB-DETR, DN-DETR, Deformable-DETR의 기초가 되는 논문이니 그 전에 읽어보시는 것을 권장합니다.세부적인 내용들은 찾아보시는 걸 권장하고 틀린 부분이 있으면 언제든 댓글로 말씀해주시면 수정하겠습니다. "Conditional DETR for Fast Training Convergence",Depu Meng, Xiaokang Chen, Zejia Fan, Gang Zeng, Houqiang Li, Yuhui Yuan,..

GLIP : Grounded Language-Image Pre-training

오늘은 GLIP(Grounded Language-Image Pre-training)이라는 논문에 대해서 리뷰하겠습니다. 본 논문은 CLIP 등에 대한 기초 지식을 알고 있다는 전제하에 작성한 글입니다. 따로 해당 논문들에 대해에 대해 정리하겠지만 미리 공부하고 보면 더 도움이 될 것입니다.세부적인 내용들은 찾아보시는 걸 권장하고 틀린 부분이 있으면 언제든 댓글로 말씀해주시면 수정하겠습니다.(위의 언급된 기초지식들은 해당 블로그 다른 글에 작성되어있습니다.) Github : https://github.com/microsoft/GLIPPaper : https://arxiv.org/abs/2112.03857 Abstract본 논문에서는 객체 수준, 언어 인식 및 의미론적으로 풍부한 시각적 표현을 학습하기 위한..

Machine Learning 2024.07.26
반응형