Desenvolvimento de uma solução de automação na validação de documentos fiscais do PROADI-SUS por meio da inteligência artificial multimodal

Borba, Aline da Cruz; Coelho, Danielle de Menezes Maciel; Matos, Raquel Adjafre da Costa

Use este identificador para citar ou linkar para este item: http://bibliotecadigital.anvisa.gov.br/jspui/handle/anvisa/19495

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
Desenvolvimento de uma solução de automação na validação de documentos fiscais do PROADI-SUS por meio da Inteligência Artificial Multimodal.pdf Restricted Access		854.37 kB	Adobe PDF	Visualizar/Abrir

Registro completo de metadados

Campo DC	Valor	Idioma
dc.rights.license	Escolha o acesso:::ACESSO ABERTO (CC BY-NC-SA 4.0) - A Regulação Autoral da Biblioteca Digital da Anvisa permite o reconhecimento da produção intelectual como sendo de acesso aberto, adotando-se assim, a Creative Commons Attribution-NonCommercial-sharealike 4.0 International. Concedendo a outros que remixem, adaptem e criem a partir do seu trabalho para fins não comerciais, desde que atribuam ao autor o devido crédito e que licenciem as novas criações sob termos idênticos.	pt_BR
dc.contributor.advisor	França, Anderson	-
dc.contributor.author	Borba, Aline da Cruz	-
dc.contributor.author	Coelho, Danielle de Menezes Maciel	-
dc.contributor.author	Matos, Raquel Adjafre da Costa	-
dc.date.accessioned	2025-12-09T18:30:40Z	-
dc.date.available	2025-12-09T18:30:40Z	-
dc.date.issued	2025	-
dc.identifier.uri	http://bibliotecadigital.anvisa.gov.br/jspui/handle/anvisa/19495	-
dc.description.abstract	Descreve o desenvolvimento de uma solução inteligente, baseada em Ciência de Dados e Inteligência Artificial, para automatizar e acelerar esse fluxo crítico. Inicialmente adotou-se uma abordagem tradicional com OCR (Tesseract) e Regex, aplicados a PDFs processados com PyMuPDF e OpenCV. Contudo, ruído, baixa resolução, inclinação e diversidade de layouts degradaram a qualidade do OCR e expuseram a rigidez das Regex, produzindo baixa taxa de extração para campos essenciais, como “Valor Total”. Numa fase intermediária, integrou-se, condicionalmente, Modelos de Linguagem Grande (LLMs), como o GPT-4o, como fallback quando as Regex falhavam. Mesmo com préprocessamento aprimorado e engenharia de prompt, persistiu o gargalo: a perda informacional inerente à conversão imagem-texto via OCR. A fase final adotou uma abordagem verdadeiramente multimodal, pivotando para o GPT-4o Vision. As páginas dos PDFs foram renderizadas como PNGs de alta resolução e enviadas ao modelo com instruções para extrair campos em JSON estruturado, priorizando precisão. Ao “ver” o documento em sua forma original, o modelo interpretou layout, ignorou ruídos visuais, lidou com variações tipográficas e contextualizou informações com robustez superior. O pipeline resultante mostrou precisão consistente na extração de todos os campos e maior tolerância a qualidade variável e múltiplos formatos, ao mesmo tempo que simplificou o código. A metodologia iterativa e adaptativa justifica o custo operacional adicional pelo ganho em acurácia, confiabilidade e transparência, liberando profissionais para atividades de maior valor agregado no contexto do PROADI-SUS.	pt_BR
dc.language.iso	pt	pt_BR
dc.publisher	Faculdade de Educação e Ciências da Saúde do Hospital Alemão Oswaldo Cruz	pt_BR
dc.title	Desenvolvimento de uma solução de automação na validação de documentos fiscais do PROADI-SUS por meio da inteligência artificial multimodal	pt_BR
dc.type	Projeto	pt_BR
dc.rights.holder	Agência Nacional de Vigilância Sanitária	pt_BR
dc.local	São Paulo ; Brasília	pt_BR
dc.description.physical	26 p.	pt_BR
dc.description.abstracten	Describes the development of an intelligent solution, grounded in Data Science and Artificial Intelligence, to automate and accelerate this critical workflow. We initially adopted a traditional approach with OCR (Tesseract) and regular expressions, applied to PDFs processed with PyMuPDF and OpenCV. However, noise, low resolution, skew, and diverse layouts degraded OCR quality and exposed the rigidity of regex, yielding low extraction rates for essential fields such as “Total Amount.” In an intermediate phase, we conditionally integrated Large Language Models (LLMs), such as GPT-4o, as a fallback whenever regex failed. Even with improved pre-processing and prompt engineering, the bottleneck persisted: information loss inherent to image-to-text conversion via OCR. The final phase embraced a truly multimodal approach, pivoting to GPT-4o Vision. PDF pages were rendered as high-resolution PNGs and sent to the model with instructions to extract fields in structured JSON, prioritizing precision. By “seeing” the document in its original form, the model interpreted layout, ignored visual noise, handled typographic variations, and contextualized information with superior robustness. The resulting pipeline achieved consistent accuracy in extracting all fields and greater tolerance to variable quality and multiple formats, while simultaneously simplifying code. The iterative, adaptive methodology justifies the additional operational cost through gains in accuracy, reliability, and transparency, freeing professionals for higher-value activities in the PROADI-SUS context. It also enhances auditability, supports governance and compliance requirements, and provides a scalable foundation for future extensions across fiscal document types in Brazil.	pt_BR
dc.subject.keyword	Nota fiscal	pt_BR
dc.subject.keyword	Inteligência artificial	pt_BR
dc.subject.keyword	Ciência de dados	pt_BR
dc.subject.keyword	Programa de Apoio ao Desenvolvimento Institucional do Sistema Único de Saúde (PROADI-SUS)	pt_BR
dc.rights.access	Restricted access	pt_BR
dc.publisher.program	Especialização em Ciência de Dados e Inteligência Artificial	pt_BR
dc.publisher.initials	FECS	pt_BR
dc.itemdestaque	Não	pt_BR
Aparece nas coleções:	Gestão do Conhecimento

Mostrar registro simples do item