“`html
Introdução à Classificação de Imagem de Lâmina Completa
A classificação de Imagem de Lâmina Completa (Whole Slide Image – WSI) em patologia digital apresenta vários desafios críticos devido ao tamanho imenso e à natureza hierárquica das WSI. As WSI contêm bilhões de pixels e, portanto, a observação direta é computacionalmente inviável. As estratégias atuais baseadas em Aprendizado de Múltiplas Instâncias (Multiple Instance Learning – MIL) são eficazes no desempenho, mas dependem consideravelmente de grandes quantidades de dados anotados em nível de saco, cuja aquisição é problemática, particularmente no caso de doenças raras.
Desafios na Classificação de Imagem de Lâmina Completa
Além disso, as estratégias atuais são fortemente baseadas em insights de imagem e enfrentam problemas de generalização devido às diferenças na distribuição dos dados entre hospitais. Os recentes avanços nos Modelos de Visão-Linguagem (Vision-Language Models – VLMs) introduzem priori linguístico por meio de pré-treinamento em larga escala de pares de imagem-texto; no entanto, as estratégias atuais não conseguem abordar insights específicos do domínio relacionados à patologia. Além disso, a natureza computacionalmente cara do pré-treinamento de modelos e sua adaptação insuficiente com a característica hierárquica específica da patologia são outros obstáculos.
Métodos Baseados em Aprendizado de Múltiplas Instâncias
Os métodos baseados em MIL geralmente adotam um pipeline de três estágios: corte de patches a partir de WSI, extração de recursos com um codificador pré-treinado e agregação de recursos de nível de patch para nível de lâmina para fazer previsões. Embora esses métodos sejam eficazes para tarefas relacionadas à patologia, como subtipagem e estadiamento de câncer, sua dependência de conjuntos de dados anotados grandes e sua sensibilidade à mudança na distribuição dos dados os tornam menos práticos para uso.
Modelos Baseados em Visão-Linguagem
Os modelos baseados em VLM, como CLIP e BiomedCLIP, tentam aproveitar prioris linguísticos por meio de pares de imagem-texto em larga escala coletados de bancos de dados online. No entanto, esses modelos dependem de prompts de texto genéricos e criados manualmente que carecem da sutileza do diagnóstico patológico. Além disso, a transferência de conhecimento de modelos de visão-linguagem para WSI é ineficiente devido à natureza hierárquica e em larga escala das WSI, o que exige custos computacionais astronômicos e ajuste fino específico do conjunto de dados.
Novo Modelo de Aprendizado de Múltiplas Instâncias de Visão-Linguagem
Pesquisadores da Universidade Xi’an Jiaotong, do Laboratório Tencent YouTu e do Instituto de Computação de Alto Desempenho de Singapura introduzem um modelo de aprendizado de múltiplas instâncias de visão-linguagem em duas escalas, capaz de transferir eficientemente o conhecimento do modelo de visão-linguagem para a patologia digital por meio de prompts de texto descritivos projetados especificamente para patologia e decodificadores treináveis para ramos de imagem e texto. Em contraste com os prompts de nome de classe genéricos para métodos de visão-linguagem tradicionais, o modelo utiliza um modelo de linguagem grande congelado para gerar descrições específicas do domínio em duas resoluções.
Resultados e Contribuições
O modelo proposto se baseia no CLIP como modelo subjacente e utiliza várias adições para adaptá-lo às tarefas de patologia. As imagens de lâmina completa são segmentadas por patches nos níveis de magnificação 5× e 10×, enquanto a extração de recursos utiliza um codificador de imagem ResNet-50 congelado. Um modelo de linguagem GPT-3.5 grande congelado também é usado para gerar prompts descritivos específicos de classe para duas escalas com vetores aprendíveis para facilitar a representação eficaz de recursos. A aglomeração progressiva de recursos é suportada por um conjunto de 16 vetores de protótipo aprendíveis. Os recursos de patch e protótipo multi-granulares também ajudam a suportar as incorporações de texto, melhorando assim a alinhamento transmodal. A otimização do treinamento faz uso da perda de entropia cruzada com escores de similaridade de baixa e alta escala igualmente ponderados para suporte de classificação robusto.
Conclusão
Esse método demonstra um melhor desempenho em vários conjuntos de dados de subtipagem de câncer, superando significativamente os métodos atuais baseados em MIL e VLM em cenários de aprendizado de poucas amostras. O modelo registra ganhos impressionantes em AUC, pontuação F1 e precisão em três conjuntos de dados diversificados – TIHD-RCC, TCGA-RCC e TCGA-Lung – demonstrando a solidez do modelo em testes executados em configurações de único centro e multi-centro. Em comparação com as abordagens de ponta, são observados ganhos significativos na precisão de classificação, com aumentos de 1,7% a 7,2% em AUC e 2,1% a 7,3% na pontuação F1. O emprego de prompts de texto em duas escalas com um decodificador de patch orientado por protótipo e um decodificador de texto orientado por contexto ajuda a estrutura a aprender padrões morfológicos discriminativos eficazes, apesar da presença de poucas instâncias de treinamento. Além disso, as excelentes habilidades de generalização em vários conjuntos de dados sugerem uma adaptabilidade aumentada em relação à mudança de domínio durante testes entre centros. Essas observações demonstram os méritos da fusão de modelos de visão-linguagem com avanços especializados em patologia para a classificação de imagem de lâmina completa.
Avanços e perspectivas futuras em classificação de imagens de lâmina completa
A classificação de WSI, apesar dos avanços, ainda apresenta desafios e oportunidades significativas para pesquisa e desenvolvimento. A integração de informações genômicas e clínicas com dados de imagem é uma área promissora. A combinação de dados multi-ômicos pode fornecer uma compreensão mais completa da biologia do tumor e melhorar a precisão da classificação e do prognóstico. Estudos como o de Kather et al. (2016) no *Journal of Clinical Oncology* demonstram o potencial da integração de dados para prever a resposta à terapia.
Outra área de foco é o desenvolvimento de algoritmos de aprendizado profundo mais interpretáveis e explicáveis. A capacidade de entender o raciocínio por trás das decisões do modelo é crucial para a confiança e a adoção clínica. Técnicas como mapas de saliência e redes de atenção têm sido exploradas para visualizar as regiões da imagem que mais contribuem para a classificação. A pesquisa contínua nessa área é essencial para garantir a transparência e a confiabilidade dos modelos de IA em patologia.
A padronização de protocolos de aquisição e anotação de imagens também é fundamental para o progresso do campo. A variabilidade na qualidade da imagem e nas práticas de anotação entre diferentes instituições pode impactar significativamente o desempenho e a generalização dos modelos. Iniciativas como o consórcio *The Cancer Genome Atlas* (TCGA) têm contribuído para a criação de grandes conjuntos de dados padronizados, mas esforços contínuos são necessários para garantir a interoperabilidade e a reprodutibilidade da pesquisa.
Além disso, a validação clínica robusta e independente dos modelos de classificação de WSI é crucial antes da sua implementação na prática clínica. Estudos prospectivos e multicêntricos são necessários para avaliar o desempenho, a segurança e o impacto clínico desses modelos em cenários do mundo real. A colaboração entre pesquisadores, patologistas e clínicos é essencial para garantir que esses modelos sejam desenvolvidos e validados de forma responsável e ética.
Finalmente, a questão da privacidade e segurança dos dados do paciente é de suma importância. A utilização de dados de imagem para treinamento e validação de modelos de IA requer a implementação de medidas rigorosas para proteger a confidencialidade e a privacidade dos pacientes. Técnicas como aprendizado federado, que permitem o treinamento de modelos em dados distribuídos sem a necessidade de compartilhamento direto dos dados, estão sendo exploradas para mitigar os riscos de privacidade.
Em resumo, a classificação de imagem de lâmina completa está em constante evolução, com avanços contínuos em algoritmos de aprendizado profundo, integração de dados multi-ômicos e desenvolvimento de modelos interpretáveis. A superação dos desafios relacionados à padronização, validação clínica e privacidade dos dados será fundamental para o sucesso e a adoção generalizada dessa tecnologia na prática clínica, melhorando, assim, o diagnóstico e o tratamento de doenças.
“`