Use este identificador para citar ou linkar para este item: http://bibliotecadigital.anvisa.gov.br/jspui/handle/anvisa/19495
Registro completo de metadados
Campo DCValorIdioma
dc.rights.licenseEscolha o acesso:::ACESSO ABERTO (CC BY-NC-SA 4.0) - A Regulação Autoral da Biblioteca Digital da Anvisa permite o reconhecimento da produção intelectual como sendo de acesso aberto, adotando-se assim, a Creative Commons Attribution-NonCommercial-sharealike 4.0 International. Concedendo a outros que remixem, adaptem e criem a partir do seu trabalho para fins não comerciais, desde que atribuam ao autor o devido crédito e que licenciem as novas criações sob termos idênticos.pt_BR
dc.contributor.advisorFrança, Anderson-
dc.contributor.authorBorba, Aline da Cruz-
dc.contributor.authorCoelho, Danielle de Menezes Maciel-
dc.contributor.authorMatos, Raquel Adjafre da Costa-
dc.date.accessioned2025-12-09T18:30:40Z-
dc.date.available2025-12-09T18:30:40Z-
dc.date.issued2025-
dc.identifier.urihttp://bibliotecadigital.anvisa.gov.br/jspui/handle/anvisa/19495-
dc.description.abstractDescreve o desenvolvimento de uma solução inteligente, baseada em Ciência de Dados e Inteligência Artificial, para automatizar e acelerar esse fluxo crítico. Inicialmente adotou-se uma abordagem tradicional com OCR (Tesseract) e Regex, aplicados a PDFs processados com PyMuPDF e OpenCV. Contudo, ruído, baixa resolução, inclinação e diversidade de layouts degradaram a qualidade do OCR e expuseram a rigidez das Regex, produzindo baixa taxa de extração para campos essenciais, como “Valor Total”. Numa fase intermediária, integrou-se, condicionalmente, Modelos de Linguagem Grande (LLMs), como o GPT-4o, como fallback quando as Regex falhavam. Mesmo com préprocessamento aprimorado e engenharia de prompt, persistiu o gargalo: a perda informacional inerente à conversão imagem-texto via OCR. A fase final adotou uma abordagem verdadeiramente multimodal, pivotando para o GPT-4o Vision. As páginas dos PDFs foram renderizadas como PNGs de alta resolução e enviadas ao modelo com instruções para extrair campos em JSON estruturado, priorizando precisão. Ao “ver” o documento em sua forma original, o modelo interpretou layout, ignorou ruídos visuais, lidou com variações tipográficas e contextualizou informações com robustez superior. O pipeline resultante mostrou precisão consistente na extração de todos os campos e maior tolerância a qualidade variável e múltiplos formatos, ao mesmo tempo que simplificou o código. A metodologia iterativa e adaptativa justifica o custo operacional adicional pelo ganho em acurácia, confiabilidade e transparência, liberando profissionais para atividades de maior valor agregado no contexto do PROADI-SUS.pt_BR
dc.language.isoptpt_BR
dc.publisherFaculdade de Educação e Ciências da Saúde do Hospital Alemão Oswaldo Cruzpt_BR
dc.titleDesenvolvimento de uma solução de automação na validação de documentos fiscais do PROADI-SUS por meio da inteligência artificial multimodalpt_BR
dc.typeProjetopt_BR
dc.rights.holderAgência Nacional de Vigilância Sanitáriapt_BR
dc.localSão Paulo ; Brasíliapt_BR
dc.description.physical26 p.pt_BR
dc.description.abstractenDescribes the development of an intelligent solution, grounded in Data Science and Artificial Intelligence, to automate and accelerate this critical workflow. We initially adopted a traditional approach with OCR (Tesseract) and regular expressions, applied to PDFs processed with PyMuPDF and OpenCV. However, noise, low resolution, skew, and diverse layouts degraded OCR quality and exposed the rigidity of regex, yielding low extraction rates for essential fields such as “Total Amount.” In an intermediate phase, we conditionally integrated Large Language Models (LLMs), such as GPT-4o, as a fallback whenever regex failed. Even with improved pre-processing and prompt engineering, the bottleneck persisted: information loss inherent to image-to-text conversion via OCR. The final phase embraced a truly multimodal approach, pivoting to GPT-4o Vision. PDF pages were rendered as high-resolution PNGs and sent to the model with instructions to extract fields in structured JSON, prioritizing precision. By “seeing” the document in its original form, the model interpreted layout, ignored visual noise, handled typographic variations, and contextualized information with superior robustness. The resulting pipeline achieved consistent accuracy in extracting all fields and greater tolerance to variable quality and multiple formats, while simultaneously simplifying code. The iterative, adaptive methodology justifies the additional operational cost through gains in accuracy, reliability, and transparency, freeing professionals for higher-value activities in the PROADI-SUS context. It also enhances auditability, supports governance and compliance requirements, and provides a scalable foundation for future extensions across fiscal document types in Brazil.pt_BR
dc.subject.keywordNota fiscalpt_BR
dc.subject.keywordInteligência artificialpt_BR
dc.subject.keywordCiência de dadospt_BR
dc.subject.keywordPrograma de Apoio ao Desenvolvimento Institucional do Sistema Único de Saúde (PROADI-SUS)pt_BR
dc.rights.accessRestricted accesspt_BR
dc.publisher.programEspecialização em Ciência de Dados e Inteligência Artificialpt_BR
dc.publisher.initialsFECSpt_BR
dc.itemdestaqueNãopt_BR
Aparece nas coleções:Gestão do Conhecimento



Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.