CDMS | Artigo Científico: O contributo do MinatoLoader para a eficiência do treino de modelos de IA
- anaelias39
- Jan 13
- 3 min read
Updated: 3 days ago
O projeto CDMS – Claim Denials Management Solution nasce de uma premissa clara: a inovação só gera impacto real quando é aplicada a problemas concretos, com utilidade prática para as organizações. No contexto da saúde, isso passa por repensar profundamente a forma como são geridas as devoluções de faturas, os litígios com seguradoras e as perdas evitáveis de receita que afetam a sustentabilidade financeira das instituições.
É neste enquadramento que a investigação científica desempenha um papel central. Para desenvolver soluções de inteligência artificial robustas, eficientes e fiáveis, é necessário garantir não apenas bons modelos, mas também infra-estruturas de treino capazes de lidar com dados complexos, heterogéneos e de grande escala, como é típico no setor da saúde.
Investigação académica no âmbito do projeto CDMS
No âmbito deste projeto, desenvolvido pelos co-promotores EFFY, Randy Labs e INESC TEC, em parceria com a CUF, a investigação conduzida pelo INESC TEC resultou em avanços científicos relevantes, agora publicados no artigo “MinatoLoader: Accelerating Machine Learning Training Through Efficient Data Preprocessing”.
O artigo foi co-assinado pelo investigador Ricardo Macedo, do High Assurance Software Laboratory (HASLab) do INESC TEC, e por Rahma Nouaji, Stella Bitchebe e Oana Balmau, da McGill University e será apresentado na 21.ª ACM European Conference on Computer Systems (EuroSys’26), que terá lugar entre 27 e 30 de abril de 2026, em Edimburgo.

A problemática abordada
Durante o treino de modelos de machine learning, especialmente em cenários reais como os que caracterizam dados clínicos e administrativos da área da saúde, verifica-se que uma parte significativa do tempo pode ser desperdiçada antes mesmo do cálculo na GPU. A razão está no carregamento e pré-processamento dos dados, cujo tempo pode variar consideravelmente de amostra para amostra.
Os data loaders tradicionais assumem tempos de processamento relativamente homogéneos. Quando essa premissa não se verifica, a GPU fica frequentemente à espera da amostra mais lenta, ficando sub-utilizada e comprometendo a eficiência global do treino dos modelos. Este fenómeno torna-se particularmente crítico em projetos como o CDMS, onde a escala, a complexidade e o custo computacional são fatores determinantes.
O contributo do MinatoLoader
O MinatoLoader surge como resposta direta a este problema. Trata-se de um substituto genérico e transparente do DataLoader padrão do PyTorch, que pode ser integrado sem alterações estruturais ao código existente.
A sua abordagem baseia-se num mecanismo de priorização dinâmica das amostras, que permite identificar, em tempo de execução, diferenças nos tempos de pré-processamento, priorizar as amostras mais rápidas na construção dos batches e processar as mais lentas em paralelo, evitando bloqueios no pipeline de treino.
Esta estratégia reduz significativamente o tempo de inatividade da GPU e melhora a eficiência do treino sem comprometer a lógica do modelo ou a qualidade dos dados.
Resultados e conclusões
Os resultados experimentais apresentados no artigo demonstram que o MinatoLoader pode acelerar o treino de modelos em até 7,5 vezes, ao mesmo tempo que aumenta de forma substancial a taxa média de utilização da GPU. Importa salientar que estes ganhos são alcançados sem impacto negativo na precisão ou na qualidade dos modelos treinados.
As conclusões reforçam uma ideia central para o projeto CDMS: otimizar a infraestrutura de treino é um passo essencial para tornar soluções de inteligência artificial mais eficientes, escaláveis e economicamente viáveis. Ao atacar um gargalo frequentemente negligenciado, o MinatoLoader contribui de forma direta para a construção de sistemas de apoio à decisão mais rápidos, fiáveis e preparados para responder a desafios reais no setor da saúde.
O artigo completo está disponível ao público, em inglês, no arXiv e pode ser consultado, aqui: https://arxiv.org/pdf/2509.10712





Comments