¿Dónde nos encontramos en la IA para el análisis de imágenes endoscópicas?  Descifrando brechas y direcciones futuras

Blog

HogarHogar / Blog / ¿Dónde nos encontramos en la IA para el análisis de imágenes endoscópicas? Descifrando brechas y direcciones futuras

Feb 25, 2024

¿Dónde nos encontramos en la IA para el análisis de imágenes endoscópicas? Descifrando brechas y direcciones futuras

npj Digital Medicine volumen 5, Número de artículo: 184 (2022) Cite este artículo 5830 Accesos 3 Citas 15 Detalles de métricas altmétricas Los desarrollos recientes en el aprendizaje profundo han permitido el uso de datos

npj Digital Medicine volumen 5, Número de artículo: 184 (2022) Citar este artículo

5830 Accesos

3 citas

15 altmétrico

Detalles de métricas

Los avances recientes en el aprendizaje profundo han permitido algoritmos basados ​​en datos que pueden alcanzar un rendimiento a nivel humano y más allá. El desarrollo y la implementación de métodos de análisis de imágenes médicas enfrentan varios desafíos, incluida la heterogeneidad de los datos debido a la diversidad de la población y los diferentes fabricantes de dispositivos. Además, se requiere más aportación de expertos para un proceso de desarrollo de métodos fiable. Si bien el crecimiento exponencial de los datos de imágenes clínicas ha permitido que florezca el aprendizaje profundo, aún es necesario explorar la heterogeneidad de los datos, la multimodalidad y los casos de enfermedades raras o discretas. Dado que la endoscopia depende en gran medida del operador y tiene resultados clínicos desalentadores en algunos casos de enfermedades, la guía del sistema automatizado confiable y preciso puede mejorar la atención al paciente. La mayoría de los métodos diseñados deben ser más generalizables a los datos objetivo invisibles, la variabilidad de la población de pacientes y las apariencias variables de las enfermedades. El artículo revisa trabajos recientes sobre análisis de imágenes endoscópicas con inteligencia artificial (IA) y enfatiza las inigualables necesidades actuales en este campo. Finalmente, describe las direcciones futuras de soluciones complejas de IA clínicamente relevantes para mejorar los resultados de los pacientes.

La endoscopia es un procedimiento de referencia para muchos órganos huecos. Se utiliza principalmente para la vigilancia de enfermedades, el seguimiento de la inflamación, la detección temprana del cáncer, la caracterización de tumores y procedimientos de resección, las intervenciones de tratamiento mínimamente invasivas y el seguimiento de la respuesta terapéutica. El análisis de imágenes endoscópicas ha comenzado a ganar más atención en los últimos años con un número excedente de métodos basados ​​en imágenes endoscópicas publicados en detección asistida por computadora (CADe)1,2,3,4,5, diagnóstico asistido por computadora (CADx)6 ,7,8,9,10,11 y cirugía asistida por ordenador (CAS)12,13,14,15,16. A diferencia de otros datos radiológicos (p. ej., rayos X, tomografía computarizada, resonancia magnética), las imágenes endoscópicas y su análisis son un tema altamente especializado y desafiante. Las imágenes endoscópicas tienen dependencias multifactoriales, incluida una gran dependencia del operador (p. ej., experiencia y capacitación), problemas relacionados con el alcance (p. ej., variabilidad de la calidad de las imágenes) y la dinámica de la escena subrayada (p. ej., corrupción inminente de fotogramas con artefactos graves, movimiento de órganos grandes y derivas superficiales17). Los estándares de calidad en las intervenciones endoscópicas gastrointestinales se analizan en varios estudios de guías notables18,19. Algunos trabajos recientes han explorado áreas de aprendizaje profundo para automatizar métricas para evaluar la calidad de la endoscopia. Estos son especialmente críticos a la hora de cuantificar los puntos ciegos20,21. Si bien se utilizó la reconstrucción 3D basada en SLAM para generar mapas de colon18, la longitud y el área del precursor del cáncer gastrointestinal (GI) superior, el esófago de Barrett, se cuantificaron mediante una técnica de estimación de profundidad basada en aprendizaje profundo22. De manera similar, la tarea más crucial para los procedimientos quirúrgicos mínimamente invasivos (p. ej., laparoscopia) es comprender e interpretar la escena subyacente.

Si bien una reconstrucción 3D de órganos huecos es vital, es difícil de lograr por varias razones, incluida la deformación de órganos altamente no lineal, el desorden de la escena (p. ej., flujo de líquido, sangre) y la oclusión (p. ej., grasa que rodea la cirugía hepática). Por tanto, la mayor parte de la investigación se centra en la evaluación de escenas locales utilizando métodos de clasificación, detección y segmentación. La detección y caracterización de lesiones junto con su delimitación es un enfoque principal en la endoscopia gastrointestinal1,2,3,4,5,6,7,8,9,10,11. De manera similar, la segmentación dirigida de cálculos y su caracterización es de enfoque principal en la ureteroscopia23 y la detección de tumores24 se ha explorado en la cistoscopia. Para las intervenciones laparoscópicas mínimamente invasivas, un área de enfoque ha sido la clasificación de herramientas quirúrgicas12, la detección y segmentación13, el reconocimiento de fases12,14, la segmentación de puntos de referencia asociados15 y la superposición de volumen 3D preoperatorio sobre laparoscopia 2D interoperatoria16. En la figura 1 se presenta un resumen representativo de los objetivos clave y diversas tareas de análisis de imágenes endoscópicas para diferentes intervenciones endoscópicas.

Los procedimientos endoscópicos ampliamente utilizados se presentan en categorías y subcategorías únicas separadas, mientras que el resto de los procedimientos se proporcionan en otros. Cada uno se divide en órgano de interés, tipo de intervención, objetivos y métodos asistidos por computadora que se están desarrollando para abordar algunos de los objetivos presentados en estos procedimientos endoscópicos.

La mayoría de los trabajos de revisión anteriores sobre aplicaciones impulsadas por inteligencia artificial (IA) para el análisis de imágenes endoscópicas se publican en revistas clínicas (22 frente a solo 11 publicadas en la revista técnica de 2020 a 2022). Los artículos de revisión clínica se centran principalmente en los sistemas CADe y CADx para lesiones en endoscopia gastrointestinal25,26, mientras que los artículos de revisión técnica se concentran principalmente en la cirugía laparoscópica27,28. Las revisiones sobre enfermedades del tubo digestivo superior (esófago de Barrett, carcinoma de células escamosas (CCE) y estómago25,29) y enfermedades del tubo digestivo bajo (pólipos colorrectales26,30,31 y colitis ulcerosa32,33) son dominantes en comparación con otros órganos. Además, aunque los títulos de algunas revisiones eran genéricos26,34, solo presentaban estudios de vigilancia endoscópica gastrointestinal y no cubrían otras áreas del análisis de imágenes endoscópicas. Hasta donde sabemos, las revisiones publicadas anteriormente cubren solo procedimientos endoscópicos específicos. No participan en un resumen completo, que incluya diversas modalidades, diversos desafíos de datos específicos de órganos, naturaleza de la lesión y desafíos de visualización.

A diferencia de revisiones anteriores, este artículo pretende descifrar el camino hacia la integración clínica, que sólo es posible reuniendo todos los trabajos relacionados con la endoscopia en un solo lugar y precisando los logros anteriores y actuales. Además, la revisión presentada es concisa y destaca los trabajos más importantes y completos con investigaciones similares recopiladas por separado (ver Tablas 1 y 2). La revisión ilustra métodos de aprendizaje profundo aplicados a diferentes conjuntos de datos endoscópicos, incluidas cistoscopia, ureteroscopia y endoscopia nasofaríngea, que no se trataron en estudios anteriores. Conocer los desafíos coexistentes e identificar las brechas en cada procedimiento endoscópico es esencial para determinar los desarrollos necesarios para una atención médica digital avanzada y clínicamente apropiada.

Los procedimientos endoscópicos dependen del operador, lo que los hace propensos a errores humanos que pueden resultar en tasas bajas de detección de adenomas (RAM) (p. ej., reportadas en colonoscopia35). Otras limitaciones incluyen el tamaño del tumor, la ubicación de la lesión y los desafíos técnicos como la oclusión durante la cirugía laparoscópica mínimamente invasiva36. Los procedimientos endoscópicos y los desafíos de obtención de imágenes varían de un órgano a otro. Se utilizan múltiples endoscopios rígidos para abordar el problema del campo de visión limitado en la cirugía laparoscópica mínimamente invasiva37. Sin embargo, el procedimiento es muy desafiante debido a la superposición de otros órganos. De manera similar, los procedimientos de detección colorrectal se realizan utilizando endoscopios flexibles debido a la peristalsis del colon y las deposiciones. Hay más evidencia de limitaciones de imagen muy similares en todos estos procedimientos. Durante la gastroscopia se eliminan las burbujas y, a veces, los residuos de comida para limpiar la mucosa. Además, se requiere una limpieza intestinal antes de obtener imágenes del colon. De manera similar, las paredes de la vejiga se lavan con solución salina durante la cistoscopia para hacer que la superficie sea más evidente. El líquido de irrigación se utiliza para limpiar la escena durante el procedimiento de fragmentación de cálculos renales. Las oclusiones de la escena son un factor desafiante importante en la endoscopia nasofaríngea (Fig. 2a-f). En un sentido algorítmico, el desorden de escenas afecta a casi todos los algoritmos de análisis de imágenes, incluidos los enfoques actuales de IA, es decir, el aprendizaje profundo. Esto se debe a que resulta difícil comprender la mucosa subyacente y caracterizar las anomalías que conducen a redes aprendidas confusas entrenadas con imágenes limpias. Para la ureteroscopia, los desechos flotantes dificultan la segmentación y caracterización de los cálculos renales. De manera similar, una disminución de las RAM se asocia con la preparación intestinal38. Esta preparación también es fundamental y puede afectar los enfoques de aprendizaje profundo. La variabilidad en la aparición de enfermedades de un órgano a otro presenta desafíos integrales. Sin embargo, algunos de estos desafíos pueden ser comunes. Por ejemplo, los problemas de calidad de las imágenes, los movimientos no uniformes de las manos y los movimientos de los órganos son comunes en la mayoría de los procedimientos endoscópicos. De manera similar, la detección de lesiones perdidas debido a oclusiones puede ser un factor limitante común en todos los procedimientos endoscópicos. La revisión de estos métodos en diferentes adquisiciones endoscópicas tiene como objetivo comprender los enfoques de aprendizaje profundo más comunes y las oportunidades únicas perdidas.

Un procedimiento de gastroscopia durante el cual se inserta un endoscopio flexible para visualizar la mucosa en las partes del esófago y el estómago del duodeno. Se puede observar que la escena varía bastante dependiendo de la ubicación del alcance. Del mismo modo, en la imagen superior izquierda se pueden observar burbujas rodeando la mucosa. b Los procedimientos de colonoscopia cubren el colon y el recto, durante los cuales se utilizan endoscopios flexibles para navegar por este complejo órgano retorcido. La limpieza intestinal es una preparación esencial ya que puede ocluir las lesiones. En la mayoría de las imágenes, la presencia de heces es una marca clara de anomalía ocluida. c Durante la laparoscopia, generalmente se insertan endoscopios rígidos a través de pequeños orificios de incisión. Se muestran imágenes que muestran la grasa que rodea el hígado, una vista clara del hígado, la presencia de herramientas durante la cirugía y la oclusión completa del hígado debido a la grasa. d Los endoscopios rígidos ampliamente utilizados se utilizan para investigar las paredes de la vejiga que se insertan a través de la uretra. Se muestran la modalidad de imagen de luz blanca convencional (tres primeras) y la modalidad de imagen de fluorescencia (azul)125. Se puede observar que las dos imágenes superiores están borrosas y muestran poca o ninguna estructura vascular. e Eliminación de cálculos renales mediante ureteroscopia y litotricia con láser. La diferencia en textura y desechos circundantes (arriba) y sangre (abajo) para imágenes in vivo71. f Un endoscopio flexible ingresa a través de las fosas nasales y puede ir desde la nariz hasta el área de la garganta y, por lo tanto, se denomina colectivamente endoscopia nasofaríngea. Las imágenes (a la izquierda) muestran una pequeña abertura y un campo de visión, junto con herramientas quirúrgicas para algunos casos126. Las fuentes de imágenes de endoscopia relevantes: imágenes de gastroscopia y colonoscopia en (ayb) se adquieren de los hospitales de la Universidad de Oxford con la referencia 16/YH/0247 y forman parte de conjuntos de datos de desafío de endoscopia publicados públicamente (EDD2020127 según CC-by-NC 4.0 y PolypGen128 bajo CC-by, el Dr. S. Ali es el creador de ambos conjuntos de datos). Los datos de la laparoscopia hepática se toman del desafío P2ILF realizado recientemente129 (el Dr. S. Ali es el creador de este conjunto de datos), mientras que los datos de cistoscopia y ureteroscopia se toman respectivamente de Tesis doctoral del Dr. S. Ali130 y un artículo publicado recientemente del que es coautor71. Del mismo modo, las imágenes nasofaríngeas corresponden al conjunto de datos UW-Sinus-Surgery-C/L disponible públicamente126 con una licencia desconocida.

Los enfoques de aprendizaje automático se basan en datos y se dirigen principalmente a minimizar (error de disimilitud) o maximizar (similitud) una función de pérdida L (Fig. 3a). Se utiliza un optimizador, generalmente un diferenciador, para encontrar valores localmente óptimos para la función de pérdida calculada de forma iterativa. La pérdida suele ser entre las etiquetas predichas y y la etiqueta de verdad fundamental ytrue (Fig. 3a). Las redes neuronales constan de filtros o neuronas (también conocidos como núcleos o pesos) que se pueden aprender, a diferencia de los filtros de procesamiento de imágenes clásicos que están predefinidos. Estos pesos obtenidos de núcleos de diferentes tamaños (por ejemplo, un núcleo de 3 × 3, K3×3 = {w1,..., w9}) luego se pasan a través de una función de activación no lineal a(.) que les permite aprender datos más complejos. características que de otro modo no serían identificadas. Los pesos de la red neuronal se ajustan en función de los resultados del optimizador en cada iteración. Las muestras de entrada se procesan principalmente en lotes, por lo que una iteración completa sobre todas las muestras se denomina época durante el entrenamiento. Los pesos del modelo aprendido se aplican luego al conjunto de datos de prueba (también conocido como inferencia o fase de prueba). La mayoría de los métodos optimizan las funciones de pérdida y utilizan conjuntos de validación para ajustar los hiperparámetros de la red θ. Sin embargo, dicha optimización se puede realizar para diversas configuraciones de tareas, como clasificación, detección y localización de lesiones, segmentación semántica (clasificación por píxel), segmentación de instancias (regresión de caja regional y clasificación por píxel), tareas de estimación de profundidad y otras. Un diagrama general con arquitecturas de aprendizaje profundo conocidas para la clasificación de neoplasias en el esófago de Barrett; detección, localización y segmentación de pólipos en colonoscopia; localización y segmentación de instrumentos quirúrgicos durante la cirugía laparoscópica; estimación de profundidad 3D y reconstrucción del esófago; y se demuestra la inclusión del contexto de video temporal en redes neuronales convolucionales (CNN) (Fig. 3b).

a Una representación conceptual de un sistema de aprendizaje profundo con un optimizador para minimizar una función de pérdida. Se proporciona un bloque de red neuronal convolucional (CNN) simplificado que comprende un núcleo de 3 × 3 y un peso calculado para cada píxel con pesos y sesgos del núcleo. También demuestra una función de activación no lineal aplicada para capturar características más complejas. La fase de entrenamiento y prueba consta de conjuntos de datos divididos donde el conjunto de validación se utiliza para garantizar que los parámetros aprendidos se generalicen y no se ajusten demasiado al conjunto de datos de entrenamiento. Se muestra un gráfico de sobreajuste del modelo que se regula mediante un conjunto de validación. b Se muestran algunas arquitecturas de aprendizaje profundo ampliamente utilizadas para diversas tareas en el análisis de imágenes endoscópicas. Para la red de clasificación, solo se utiliza una red de codificador que generalmente va seguida de un clasificador como softmax3. Para la detección, las características se extraen utilizando una red codificadora, que luego se extrae utilizando una red de propuesta de región para predecir tanto la clase como las representaciones del cuadro delimitador128. Para la segmentación semántica, las funciones del codificador se escalan para clasificar el tamaño de imagen por píxel. De manera similar, para la tarea de segmentación de instancias, se utilizan tanto las propuestas de región para cuadros delimitadores como las predicciones por píxel para máscaras131. La idea de una red de estimación de profundidad es comprender qué tan lejos está la cámara de una región anatómica que proporciona distancias en el sistema de coordenadas del mundo real22. Finalmente, las redes neuronales recurrentes (también conocidas como RNN) pueden incorporar información de video temporal para refinar las predicciones actuales de una red CNN64. Aquí, las entradas de cuadros secuenciales v1,..., vn se envían a la red CNN produciendo vectores de características visuales p1,..., pn, que luego se envían a la red RNN. La salida de RNN representa la relación temporal que proporciona predicciones conscientes del contexto para cada cuadro, de modo que la salida para el enésimo cuadro qn depende tanto de los cuadros actuales como de los anteriores, es decir, los vectores de características q(Vn) y todos los demás vectores de características anteriores q(Vu). ), tu < norte. Tanto las redes CNN como RNN se optimizan conjuntamente mediante una estrategia de impulso. Las fuentes de imágenes de endoscopia relevantes: imágenes de gastroscopia y colonoscopia en (a y b) se adquieren de los hospitales de la Universidad de Oxford con la referencia. 16/YH/0247 y forma parte de conjuntos de datos de desafío de endoscopia publicados públicamente (EDD2020127 bajo CC-by-NC 4.0 y PolypGen128 bajo CC-by, el Dr. S. Ali es el creador de ambos conjuntos de datos). Los datos del procedimiento quirúrgico se toman de ROBUST-MIS113.

Esta revisión identifica y analiza las tendencias en la aplicación de métodos de aprendizaje automático (en particular, aprendizaje profundo) en cada procedimiento específico de órgano. En segundo lugar, se descifran las brechas actuales que conducen a direcciones futuras. La búsqueda basada en la web reveló que la mayoría de los métodos optimizan las ponderaciones mediante tareas de aprendizaje supervisadas que consisten en CNN ampliamente utilizadas. Estas tareas incluyeron clasificación, detección, segmentación y estimación de profundidad. La literatura se seleccionó utilizando los criterios de búsqueda e inclusión proporcionados en la siguiente sección. El objetivo principal es considerar estudios recientes y comprender sus factores limitantes en cada procedimiento de imagen y método implementado. Nuestro objetivo es aprender métodos desarrollados en técnicas endoscópicas similares e identificar formas que puedan ser beneficiosas en otros campos. En desarrollos futuros, las brechas y desafíos existentes en imágenes endoscópicas pueden permitirnos establecer un plan estratégico y construir protocolos para métodos de imágenes endoscópicas confiables y aceptables.

Se utilizaron las bases de datos Medline, Embase, Springer, Web of Science e IEEE Xplore para buscar literatura relacionada. Para centrarse en órganos específicos, se utilizaron nombres de procedimientos endoscópicos (p. ej., endoscopia, colonoscopia, laparoscopia hepática, ureteroscopia). Además, se agregaron estudios computacionales (aprendizaje automático, inteligencia artificial y aprendizaje profundo) junto con nombres de procedimientos endoscópicos para condensar la búsqueda. Para esta revisión se seleccionan la mayoría de los estudios posteriores a 2018 hasta principios de junio de 2022. Solo para artículos de 'aprendizaje profundo de endoscopia' con filtros activos, en inglés, se encontraron 251 artículos en Medline y 1740 artículos en Embase (ya que 'Embase' también incluía artículos de revisión). También se eliminaron todos los duplicados. Nuestra búsqueda avanzada utilizando palabras clave como IA en endoscopia, aprendizaje profundo para endoscopia y clasificación de neoplasias reveló 33, 13 y 36 artículos, respectivamente. Por lo tanto, los artículos seleccionados provienen de una 'búsqueda básica' en lugar de una búsqueda avanzada. La búsqueda básica reveló un mayor número de artículos. Sin embargo, para reducirlos, aplicamos filtros adicionales que incluían boroscopio, pruebas, software, fotoacústica, tomografía computarizada, resonancia magnética, hardware, simulación, estudios humanos versus máquinas, microultrasonido, imágenes de portaobjetos completos, radiología, etc. También se consideran desde el año 2020 hasta 2022.

Una búsqueda en la web científica de intervenciones quirúrgicas laparoscópicas incluyó palabras clave como segmentación hepática laparoscópica y aprendizaje profundo para laparoscopia. Para ello se encontraron 56 artículos, entre ellos 36 artículos, de los cuales 12 artículos de revisión. La tendencia a una comprensión profunda en laparoscopia ha aumentado de 6 artículos en 2018 a 21 artículos en 2021. Además de casos de enfermedades específicas, informes que incluían calidad, clasificación/reconocimiento de la anatomía, otras modalidades (p. ej., Raman e (hiper)espectral) y profundidad o También se identificaron reconstrucciones 3D. Para abordar la creciente tendencia en las comunidades clínicas y técnicas en endoscopia gastrointestinal, la revisión presentada incluye contribuciones adicionales de métodos específicos. También se han agregado ocho trabajos de conferencias revisados ​​por pares para fortalecer las contribuciones técnicas en este campo.

El trabajo presentado tiene a continuación criterios de inclusión adicionales para que esta revisión sea más centrada, menos sesgada y refleje los métodos hacia la integración clínica:

Los artículos de investigación deben tener una gran cohorte de pacientes (en comparación con trabajos publicados anteriormente) o al menos compararse con unos pocos conjuntos de datos disponibles públicamente si se trata de un trabajo presentado técnicamente.

Los artículos de investigación deben tener conjuntos de pruebas, validación y capacitación específicos informados en el artículo para reducir el sesgo en los estudios.

Si los artículos de investigación incluían alguna novedad pero no se evaluaban exhaustivamente con los datos de los pacientes, entonces dichos estudios se descartaban o se incluían en las contribuciones de método.

Cada método rigurosamente evaluado se incluyó en la tabla principal. Aquí se eligieron modalidades únicas, enfermedades objetivo únicas y tareas individuales (por ejemplo, clasificación, segmentación, detección y localización). Al mismo tiempo, se proporcionan estudios similares en una columna separada para los lectores interesados.

Se ha incluido un apartado para la IA en otros procedimientos endoscópicos poco estudiados que abarca algunos trabajos sobre nasofaringe, broncoscopia y tiroidectomía.

Para la estimación del mapa de profundidad y la reconstrucción 3D, los trabajos se incluyen como una sección separada en aplicaciones adicionales, ya que no se evalúan en conjuntos de datos de pacientes más extensos. Bajo la misma Sección, también se incluyen para completar este estudio los estudios relacionados con el aseguramiento de la calidad en endoscopia y la clasificación de puntos anatómicos.

La esófago-gastro-duodenoscopia (OGD) se utiliza para realizar la vigilancia del tracto gastrointestinal superior (incluido el esófago, el estómago y el duodeno). Por el contrario, la colonoscopia y la sigmoidoscopia examinan los órganos gastrointestinales inferiores, incluidos el colon y el recto. Con los recientes avances en el aprendizaje profundo, se han producido varios crecimientos en la construcción de sistemas de detección y diagnóstico asistidos por computadora. En comparación con la OGD, más investigaciones se centran en la colonoscopia. Algunas revisiones recientes destacaron algunos trabajos de grupos seleccionados sobre GI25,26,30 superior e inferior; sin embargo, no se presentó la distinción entre el conjunto de datos de pruebas de entrenamiento o el tipo de método basado en el aprendizaje utilizado en estos estudios, o ambos. En la presentación de la mayoría de los artículos de revisión encontrados se utilizaron sistemas CADe y CADx más genéricos con términos de aprendizaje profundo (DL). Los métodos de DL para IG inferior se presentan en 31; sin embargo, estos se centran únicamente en los pólipos colorrectales. En esta revisión, la división de los datos de entrenamiento y prueba y el tipo de algoritmo desarrollado para una tarea específica se mencionan de manera clara y concisa para brindar a los lectores una idea tanto de las necesidades clínicas como de los desarrollos de métodos técnicos.

Para la OGD, con el preocupante aumento de pacientes con esófago de Barrett, una lesión precursora en el esófago ha sido el foco principal de muchos desarrollos actuales basados ​​en el aprendizaje automático. Se utilizó una arquitectura híbrida ResNet-UNet para clasificar el esófago de Barrett neoplásico y no displásico (NDBE)1 que proporcionó una precisión de más del 88 % en dos conjuntos de datos de prueba. de manera similar, para el SCC en el esófago, se utilizó una arquitectura de codificador-decodificador que utiliza la red VGG16 para la segmentación por píxeles39 que reportó una sensibilidad del 98,04 % con una especificidad del 95,03 %. La gastritis atrófica (GA) y la metaplasia intestinal gástrica (MI) son dos etapas principales en la progresión del adenocarcinoma gástrico40, causadas principalmente por infección por Helicobacter pylori o por gastritis autoinmune. DenseNet121 se entrenó con 5470 imágenes3 para caracterizar AG, lo que dio como resultado una precisión del 94,2 % en el conjunto de datos de prueba. de manera similar, se utilizó UNet++ con ResNet50 para clasificar AG, MI y hemorragia41. Para ello, se utilizaron 8.141 imágenes (4.587 pacientes) para el entrenamiento, mientras que para la etapa de prueba se utilizaron 258 pacientes externos y 80 vídeos.

En una colonoscopia, la mayoría de estos métodos tienen como objetivo identificar o caracterizar los precursores del cáncer conocidos, los "pólipos". Debido a su éxito, la mayoría de los métodos implementan CNN ampliamente utilizado. Por ejemplo, CNN 3D para la clasificación binaria de pólipos a nivel de fotograma42 con una precisión del 76%. Por el contrario, se utilizaron métodos de detección como YOLO43 y SDD6 para la localización y detección de pólipos con una precisión mucho mayor del 96 % para YOLO y se informó una sensibilidad superior al 90 % para el enfoque SSD. AutoML fue utilizado por Jin et al.9 que nos permite buscar redes neuronales eficientes utilizando técnicas de aprendizaje recurrente y por refuerzo. La red CNN optimizada constaba de celdas normales y de reducción, que utilizaban varias operaciones como convoluciones separables y capas de agrupación media y máxima. La red buscada obtuvo una precisión diagnóstica global para pólipos de difícil localización fue del 86,7%. También se informaron los resultados informados sobre la mejora del rendimiento de los endoscopistas novatos del 73,8% al 85,6%. Se utilizó Inception7 para clasificar los pólipos y caracterizarlos entre hiperplásicos y adenomatosos con una sensibilidad del 98% y una especificidad del 83%.

Sin embargo, ha habido intentos de clasificar la inflamación en el intestino, denominada "enfermedad inflamatoria intestinal", centrados tanto en la colitis ulcerosa (CU)11,44,45. Enfermedad de Crohn (EC)46,47. La EII sigue teniendo una variabilidad sustancial intra e interobservador en la clasificación de la gravedad de la enfermedad durante la endoscopia. Existen varios sistemas clínicamente aceptados para calificar estas gravedades que, hasta cierto punto, han mejorado la reproducibilidad y confiabilidad de la puntuación endoscópica. Sin embargo, el problema sigue siendo vago ya que estos sistemas de puntuación incluyen definiciones amplias. Se ha desarrollado una amplia gama de métodos de aprendizaje profundo para abordar estos problemas y minimizar la variabilidad del operador en el diagnóstico. Para la CU, la puntuación endoscópica clínica de Mayo (MCES) es el sistema más utilizado para estratificar a los pacientes y consta de un sistema de puntuación de 0 a 3, desde normal (0) hasta grave (3). Se utilizó un modelo inicial V3 para clasificar entre (0 o 1) y (2 o 3)11 con una precisión del 97 % y un VPP del 86 %. De manera similar, se desarrolló un modelo de control de calidad para distinguir entre marcos legibles e ilegibles y una red de aprendizaje profundo basada en CNN para la clasificación de UC en conjuntos de datos multicéntricos que informan un área bajo la curva de 0,84, 0,85 y 0,85, respectivamente para MCES ≥1, MCES ≥ 2, MCES ≥3 (clasificación binaria). La EC afecta principalmente al intestino delgado, donde los endoscopios convencionales son difíciles de alcanzar. Existen numerosos avances en la puntuación de CD que utilizan el aprendizaje profundo, pero para imágenes de videocápsula endoscópica (VCE). La ulceración y la mucosa normal se clasificaron utilizando el entrenamiento del modelo Xception CNN como validación cruzada de 5 veces que muestra una precisión superior al 95 % para cada pliegue46. Se entrenó un modelo de aprendizaje profundo que utilizó DenseNet48 de 169 capas en un gran conjunto de datos que comprende 28 071 imágenes con CCR (3176 pacientes) y 436 034 imágenes sin CCR (9003 pacientes). La prueba se realizó en tres conjuntos de prueba únicos que incluían el mismo centro y dos centros diferentes, lo que demuestra la generalización del modelo entrenado con alrededor del 75 % de sensibilidad en dos conjuntos de prueba invisibles.

El desarrollo de nuevos métodos de colonoscopia está bien documentado31,49. Esto puede deberse a la disponibilidad de conjuntos de datos públicos para la detección y segmentación de pólipos. Estos métodos se publican en su mayoría como actas de congresos y se han incluido aquí para que estén completos. La mayoría de los métodos actuales de detección y localización se pueden dividir en detectores de varias etapas50, detectores de una sola etapa51 y detectores sin anclaje52. En este contexto, para abordar la necesidad de detección de pólipos en tiempo real, Wan et al.51 utilizaron la red YOLOv5 junto con el mecanismo de autoatención en la capa superior de cada etapa de la red troncal de extracción de características para fortalecer las características informativas que muestran aumento de aproximadamente un 2 % en la puntuación de Dice y un tiempo de inferencia mejorado en dos conjuntos de datos. Si bien la mayoría de los detectores utilizan cuadros de anclaje predefinidos para tareas de localización, se utilizó el concepto de detector sin anclaje53 para abordar esto, lo que muestra una puntuación Dice competitiva y un tiempo de inferencia mejorado (casi 52,6 fotogramas por segundo) en comparación con varios métodos SOTA en cuatro conjuntos de datos públicos52. Recientemente, se ideó una red CNN híbrida 2D-3D para explotar la correlación espacial y temporal de las predicciones con una ganancia marginal en un conjunto de datos de pólipos en video, preservando al mismo tiempo la detección en tiempo real54. También se publicó como contribución técnica la detección de anomalías en el esófago de Barrett utilizando CNN 3D y memoria convolucional a largo plazo (ConvLSTM) que permite la captura de información espaciotemporal en vídeos55.

Para la segmentación, los desarrollos actuales se basan ampliamente en arquitecturas de codificador-decodificador56,57,58. Tomar et al.57 propusieron combinar la incrustación de etiquetas de texto como un mecanismo de atención para una segmentación eficaz de los pólipos y para mejorar la generalización. Durante el entrenamiento, la tarea de clasificación auxiliar para aprender características relacionadas con el tamaño y el número de pólipos se entrenó e integró con la red de segmentación y mostró una mejora de hasta el 2 % con respecto a los métodos SOTA en cuatro conjuntos de datos públicos. También se han introducido recientemente redes basadas en transformadores, a saber, TransFuse59 y ColonFormer60. TransFuse combinó transformadores con CNN en un estilo paralelo, lo que permitió la captura de detalles espaciales globales y de bajo nivel y demostró una ganancia de rendimiento de casi 1 a 2 % en cinco conjuntos de datos públicos en comparación con los métodos DL SOTA. Un trabajo reciente que muestra una mejora con respecto a TransFuse se presentó como ColonFormer, que utilizaba un codificador con una columna vertebral de transformador mixto, mientras que el decodificador consistía en un módulo de agrupación piramidal que permitía combinar mapas de características del codificador en toda la capa para un mapa global. Los valores de umbral ad hoc ampliamente utilizados para la predicción del mapa de segmentación final se abordaron proponiendo un ThresholdNet que utilizaba una combinación de múltiples guiada por confianza como aumento de datos que permitía un aprendizaje de umbral optimizado y mostraba grandes mejoras (casi hasta un 5%) con respecto a varios métodos SOTA.

Se realizaron metanálisis y artículos de revisión de intervenciones quirúrgicas en 8 de 33 artículos de revisión. La mayoría de estos trabajos fueron publicados en revistas técnicas. En la ref. se presentaron algoritmos de detección, segmentación y seguimiento de la visión de instrumentos quirúrgicos mínimamente invasivos utilizados para el análisis de las imágenes transmitidas por robots quirúrgicos. 27, mientras que los métodos de DL centrados en el análisis de vídeo laparoscópico se llevaron a cabo en profundidad en la ref. 28. El estudio28 utilizó 32 enfoques de aprendizaje profundo. La encuesta destacó que casi la mitad (45%) de los métodos desarrollados estaban destinados al reconocimiento y detección de instrumentos, con un 20% al reconocimiento de fase y casi un 15% al ​​reconocimiento de anatomía y acción. Sin embargo, los artículos minoritarios se centraron en el reconocimiento de la gasa (3%) y la predicción del tiempo de la cirugía (5%), mientras que los procedimientos más utilizados fueron la colecistectomía (cirugía de extirpación de la vesícula biliar, 51%) y la cirugía ginecológica (sistema reproductivo de la mujer, 26%). En esta revisión, se agregan artículos adicionales que se han publicado recientemente sobre detección, registro y laparoscopia aumentada de anomalías.

Se utilizó un método de segmentación de instancias denominado 'máscara R-CNN' para segmentar el útero, los ovarios y las herramientas quirúrgicas en las imágenes endoscópicas de un procedimiento ginecológico61. El conjunto de datos 'SurgAI' constaba de 461 imágenes. Otro estudio se centró en la detección de herramientas quirúrgicas en vídeos laparoscópicos y propuso una clasificación de etiquetas múltiples denominada LapTool-Net62. LapTool-Net aprovechó las correlaciones entre diferentes herramientas y tareas utilizando una red neuronal convolucional recurrente (RNN). Utilizaron conjuntos de datos de colecistectomía laparoscópica disponibles públicamente, incluidos M2CAI16 y Cholec80. Emplearon una técnica de sobremuestreo para clases subrepresentadas y un submuestreo de clases con muestras mayoritarias. Se utilizó un Inception V1 para la extracción de características con una unidad recurrente cerrada (GRU) como bloques RNN, seguido de dos clasificadores completamente conectados. Se utilizó una técnica de codificación automática como red aprendible para medir la distribución "normal" de los datos y detectar eventos anormales que se desvían de esta distribución como error de reconstrucción63. El entrenamiento se realizó utilizando el conjunto de datos Cholec80 y datos de video fantasma que muestran una recuperación y una precisión iguales al 78,4%, 91,5%, respectivamente, en Cholec80 y al 95,6%, 88,1% en el conjunto de datos fantasma. Otro estudio similar sobre el monitoreo automático del uso de herramientas durante la cirugía también explotó el contexto temporal junto con las características visuales (red recurrente, Fig. 3b)64. Un estudio reciente utilizó CASENet para predecir la silueta y los contornos de las crestas del hígado en un conjunto de datos de 5 pacientes que constaba de 133 imágenes65. Aunque el artículo se centró en el registro basado en contornos de 3D a 2D, el método se basó en la técnica clásica de visión por computadora utilizando el método Perspective-n-Point con RANSAC para la eliminación de valores atípicos.

Si bien muy pocos trabajos de investigación aplican directamente el aprendizaje profundo a las adquisiciones endoscópicas, este campo tiene un enorme potencial en el desarrollo de métodos automatizados sólidos para la detección de lesiones66,67 y la caracterización68 en cistoscopia. CystoNet67 se desarrolló utilizando cinco redes totalmente convolucionales para la predicción de píxel a píxel y una propuesta de región separada y una capa de agrupación de ROI para la predicción del cuadro delimitador. La formación se llevó a cabo en 95 pacientes que contenían 2.335 cuadros benignos y 417 cuadros verificados histológicamente que representaban tumores cancerosos. Además, se utilizaron 54 vídeos de pacientes con 31 de mucosa normal y los 23 vídeos de pacientes restantes con tumores para validar el modelo entrenado. Tanto los datos de entrenamiento como los de validación consistieron en cistoscopia con luz blanca y luz azul (BL). El estudio demostró que el algoritmo CystoNet podía identificar el cáncer de vejiga con una sensibilidad por cuadro del 90,9% y una especificidad del 98,6%, es decir, el algoritmo detectó 39 de 41 cánceres de vejiga. Se utilizó una estrategia de aprendizaje por transferencia para la cual se ajustó un conjunto de diferentes redes CNN profundas previamente entrenadas (Inception V3, red MobileNetV2, ResNet50 y VGG16) y se le agregaron capas adicionales encima de cada red68. El estudio tuvo como objetivo tareas de clasificación para imágenes de cistoscopia BL, incluidos tumores benignos versus malignos, clasificación de tumores (benignos, de bajo grado y alto grado) y la invasividad del tumor (benigno, CIS, Ta, T1 y T2). Los resultados demostraron una sensibilidad del 95,77% y una especificidad del 87,84% para la identificación de lesiones malignas, mientras que la sensibilidad media y la especificidad media de la invasividad del tumor fueron del 88% y 96,56%, respectivamente.

De manera similar, para la ureteroscopia se ha desarrollado la caracterización de los cálculos renales69,70 y su segmentación para la litotricia láser (fragmentación de los cálculos renales)71. Para la caracterización de los cálculos69, se obtuvieron cinco composiciones diferentes de un laboratorio de cálculos, incluyendo oxalato de calcio monohidrato (COM), ácido úrico (UA), fosfato de magnesio y amonio hexahidrato (MAPH/estruvita), hidrogenofosfato de calcio dihidrato (CHPD/brushita) y cistina. piedras. Para este estudio se utilizaron sesenta y tres cálculos renales humanos, con al menos dos imágenes para cada cálculo. Se utilizó el método de validación cruzada de dejar uno fuera para informar los resultados de la clasificación utilizando ResNet101. La especificidad y precisión para cada tipo de cálculo fueron (en porcentaje): UA [97,83, 94,12], COM [97,62, 95], estruvita [91,84, 71,43], cisteína [98,31, 75] y brushita [96,43, 75]. Gupta et al.23,71 desarrollaron un enfoque de segmentación basado en movimiento utilizando UNet para conjuntos de datos tanto in vivo como in vitro. Además del cálculo renal, los autores también segmentaron el instrumento láser, afirmando que es importante comprender el tamaño del cálculo y la distancia operativa del láser para la litotricia láser. El HybResUNet inducido por movimiento propuesto mejoró los resultados de la segmentación con un coeficiente de similitud de dados informado del 83,47 % para la piedra y del 86,58 % en muestras de prueba in vivo para la segmentación láser. Los resultados superaron a las redes de referencia (por ejemplo, UNet72) tanto en entornos in vivo como in vitro.

Algunos otros tipos de aplicaciones de aprendizaje profundo basadas en imágenes endoscópicas incluyen (a) detección de neoplasias malignas nasofaríngeas73 y segmentación de granulomas y ulceraciones en imágenes adquiridas mediante laringoscopia74, (b) un algoritmo de aprendizaje profundo de extremo a extremo para segmentar y medir los nervios laríngeos durante la tiroidectomía (un procedimiento quirúrgico)75, y (c) interpretación anatómica basada en el aprendizaje profundo de imágenes de videobroncoscopia76. Una revisión reciente y un artículo de metanálisis sobre endoscopia laríngea77 sugirieron que los modelos de IA presentaban una alta precisión general entre 0,806 y 0,997. Sin embargo, esta revisión no mostró detalles sobre ningún modelo de IA y utilizó tamaños de muestra.

Para este estudio se utilizaron muestras de pacientes confirmadas histológicamente que constan de 27.536 imágenes, de las cuales el 19,7% eran pacientes sanos, mientras que el resto presentaba diversas enfermedades patológicas, entre ellas carcinoma benigno (13,2%) y nasofaríngeo (66%). Se informó que su precisión general era del 88,7 % utilizando CNN íntegramente78. Aquí, se adoptó un enfoque de segmentación semántica, que arrojó un coeficiente de similitud de dados de 0,78 ± 0,24 y 0,75 ± 0,26 en conjuntos de pruebas retrospectivos y prospectivos, respectivamente. De manera similar, para la laringoscopia74, se anotaron varias lesiones en 127 imágenes de 25 pacientes para entrenar una arquitectura UNet que muestra una sensibilidad por píxel del 82 % para granulomas y del 62,8 % para ulceraciones. La segmentación del nervio laríngeo recurrente, responsable del habla humana, durante la cirugía (tiroidectomía) se logró utilizando el método ampliamente conocido de máscara R-CNN (segmentación de instancias)75. El conjunto de datos incluía varios escenarios desafiantes, como luz tenue, luz cercana, lejana y brillante y sus combinaciones. Los resultados de la segmentación oscilaron entre 0,343 y 0,707 con un intervalo de confianza del 95 % en 40 sujetos. Si bien los anestesiólogos suelen utilizar la videobroncoscopia durante la intubación, la profundidad y la orientación pueden ser difíciles de interpretar. El sistema de soporte de decisiones por videobroncoscopia que muestra las ubicaciones anatómicas en varias rotaciones se desarrolló utilizando un modelo EfficientNetB1 con una precisión de clasificación del 0,86 % (rama principal izquierda, rama principal derecha y clases de carina), para el cual se utilizaron 6806 imágenes para el entrenamiento y 511 para la prueba76.

Además de centrarse en la detección de enfermedades diana y su caracterización, la literatura reciente también muestra varios desarrollos de métodos relacionados con la asistencia al control de calidad del cribado endoscópico en el tubo digestivo, la detección del sitio anatómico de la mucosa y la estimación o reconstrucción de la profundidad en 3D para la visualización de la escena de la mucosa. Nuestra búsqueda mostró al menos diez artículos sobre la calidad de la adquisición endoscópica, cuatro sobre clasificación o detección de la anatomía y nueve sobre la estimación del mapa de profundidad y la reconstrucción tridimensional de la mucosa.

La calidad endoscópica es un obstáculo importante y puede ayudar a reducir las tasas de detección perdida18,19. Los trabajos se están centrando en procedimientos endoscópicos tanto del GI superior21,79 como del GI inferior80 en términos de evaluación de la calidad a través del aprendizaje profundo. Si bien el seguimiento de los puntos ciegos mediante la clasificación de los sitios fue un indicador del control de calidad21, artefactos como el desenfoque, las burbujas, la especularidad, la saturación y el contraste en los marcos endoscópicos fueron un indicador de la calidad en el otro estudio79. En artículos clínicos se utilizaron redes DCNN disponibles para el control de calidad21. Sin embargo, para el marco metodológico79 la propuesta fue combinar diferentes pesos de los cuadros delimitadores encontrados de un detector YOLOv3 con un método de agrupación de pirámide espacial para una puntuación de calidad agregada final y se propusieron otras técnicas de restauración para marcos parcialmente defectuosos con fines visuales. Para calificar la preparación intestinal80, se utilizó para el entrenamiento una red residual de atención dividida profunda. Los resultados de la prueba en 927 imágenes del conjunto de datos externo mostraron una precisión general del 96,7%. De manera similar, un estudio centrado en comprender el porcentaje de visualización de la mucosa en el intestino delgado durante la VCE utilizó una red neuronal convolucional simple y completamente conectada81. De manera similar, la mayoría de los trabajos de clasificación de hitos solo aplicaron redes CNN disponibles en el mercado que mostraban buena precisión en la clasificación de los sitios hitos (por ejemplo, valores de recuperación superiores al 90 % para 9 de 11 clases de sitios82), basándose ampliamente en los procedimientos OGD que incluyen el esófago, el estómago y el duodeno82,83.

Se desarrollaron redes de estimación de profundidad para casos monoculares (es decir, adquisición de una sola cámara ampliamente utilizada por la mayoría de los sistemas de endoscopia)22,84,85,86,87. Si bien se exploró una técnica de aprendizaje autosupervisada para la estimación de la profundidad utilizando una red siamesa de una herramienta SfM anterior basada en estimaciones de profundidad dispersas a partir de secuencias de video84, un trabajo reciente de Shao et al.87 exploró el supuesto de constancia del brillo para abordar la variabilidad de la iluminación de la escena endoscópica, pero nuevamente utilizando el marco de autosupervisión. El primero utilizó vídeos endoscópicos de los senos nasales que demostraban una diferencia relativa absoluta de 0,20 mm, mientras que el segundo se evaluó en cuatro conjuntos de datos públicos diferentes, incluido un tracto gastrointestinal (porcino ex vivo)86 donde el error de trayectoria absoluto fue de 0,13 en comparación con el 0,20 publicado anteriormente en Colon IV86. . Otro trabajo22 utilizó una red de estimación de profundidad totalmente supervisada para cuantificar la longitud del esófago de Barrett para estratificar el riesgo. Estas mediciones mostraron una buena correlación con su fantasma impreso en 3D tanto en longitud como en área, con un error relativo inferior al 5% en todos los casos (diferencia relativa máxima de 0,25 mm en longitud y 0,43 mm2 en área).

En general, la mayoría de los trabajos actuales sobre análisis de imágenes endoscópicas se adoptan de arquitecturas de visión por computadora y otras arquitecturas de imágenes médicas publicadas anteriormente. Algunas de estas redes populares incluyen arquitecturas Faster-R-CNN88, YOLO89, UNet72, DeepLab90 implementadas con redes troncales conocidas, incluidas VGG1991, ResNet92 y EfficientNet93. Sin embargo, los métodos informados en los artículos, desde la clasificación hasta la detección y la segmentación, han contribuido principalmente a su aplicabilidad al resolver problemas clínicos necesarios y una evaluación exhaustiva de conjuntos de datos de pacientes. Una perspectiva técnica proporcionada en la ref. 29 sugirieron el uso de transformadores visuales, más modelos híbridos, la inclusión de explicabilidad en los modelos de IA, el uso de enfoques no supervisados ​​y semisupervisados ​​y el uso de modelos generativos. La reproducibilidad y la prueba de los métodos en condiciones clínicas reales fueron las principales cuestiones planteadas en otra revisión técnica sobre los métodos de DL para pólipos colorrectales31.

Por lo tanto, a pesar de la eficacia reportada de estos métodos en datos seleccionados retrospectivamente1,2, los estudios de datos prospectivos no se realizan o tienen uno o unos pocos análisis basados ​​en centros94,95, lo que hace que la aplicabilidad clínica sea cuestionable. El avance de la IA ha tenido un impacto positivo en las oportunidades de aplicación de ayuda para procedimientos endoscópicos y análisis de datos endoscópicos. Por un lado, numerosos estudios publicados en revistas clínicas1,2,39 han demostrado sus posibilidades de aplicación. Sin embargo, no comparan rigurosamente otras arquitecturas. Se requieren nuevos desarrollos de métodos de DL orientados hacia la capacitación en diversos conjuntos de datos endoscópicos, la introducción de la explicabilidad de los resultados y más trabajos técnicos para acelerar este campo. Por otro lado, los publicados en revistas técnicas no utilizan datos multicéntricos exhaustivos12,14,23. Esto se debe a que la mayoría de estos trabajos se centran principalmente en el uso de conjuntos de datos recopilados retrospectivamente para la validación algorítmica. Se puede argumentar que los entornos clínicos del mundo real pueden ser muy diversos en comparación con los conjuntos de datos seleccionados. De manera similar, la escasez de datos o la falta de datos anotados y la variabilidad significativa en los casos de enfermedades pueden generar problemas de desequilibrio en los datos. Algunos de los trabajos recientes publicados en revistas técnicas han intentado abordar estas importantes preocupaciones en el campo del análisis de imágenes endoscópicas mediante la inclusión de enfoques de aprendizaje de una o pocas tomas96, enfoques de metaaprendizaje97 y técnicas semisupervisadas98. Sin embargo, todavía no es posible abordar estos problemas en casos clínicos prospectivos. Además, algunos casos de enfermedades, como la colitis ulcerosa99,100, son complejos, con cambios muy sutiles entre los tipos de úlceras leves y graves, lo que dificulta su clasificación (precisión inferior al 85%) utilizando métodos basados ​​en DL con precisión.

Las técnicas supervisadas ampliamente utilizadas consumen muchos datos y requieren muchas anotaciones humanas. Al mismo tiempo, los métodos supervisados ​​también pueden inducir sesgos debido a etiquetas imperfectas o una distribución diferente de los datos, potencialmente debido a otras modalidades de imágenes o incluso debido a diferentes dispositivos de alcance utilizados para generar datos. Un conjunto de datos iid independiente y distribuido de manera idéntica suele ser difícil de lograr101 y no representa la variabilidad de los pacientes presente ni siquiera en una cohorte de pacientes seleccionada con procedimientos endoscópicos similares y con el mismo endoscopio. Además, el uso de estas técnicas de forma independiente con únicamente etiquetas seleccionadas de una cohorte fija de pacientes tiende a sobreajustar las muestras que son predominantes en otras cohortes o incluso las mismas, ya que es probable que la variabilidad cambie con el tiempo. Además, las imágenes endoscópicas incluyen adquisición multimodal, vistas variadas y cambios en la mucosa que pueden ser más variados que cualquier otra modalidad de imágenes. El movimiento libre de los endoscopistas para visualizar la mucosa o un órgano puede causar desafíos inevitables al algoritmo. En realidad, los datos de imágenes endoscópicas bien seleccionados no los capturarán y pueden afectar el rendimiento del algoritmo en la clínica. Varios modelos supervisados ​​tienen poca capacidad de generalización al observarlos muy de cerca, pero simplemente utilizan un conjunto de datos de colonoscopia diferente102,103. Un trabajo publicado recientemente102 mostró que la mayoría de las arquitecturas DL, incluida UNet ampliamente utilizada, informaron una caída de rendimiento de más del 20 % cuando se utilizó un conjunto de datos de colonoscopia diferente para el entrenamiento y las pruebas. Por ejemplo, UNet redujo la puntuación de similitud de Dice de 0,86 cuando se utilizaron datos de prueba y de entrenamiento del mismo conjunto de datos públicos a 0,62 cuando los datos de prueba diferían del conjunto de datos de entrenamiento. Como la mayoría de los trabajos realizan conjuntos de entrenamiento, validación y prueba a partir del mismo conjunto de datos, los estudios de generalización son muy limitados en el análisis de imágenes médicas. Por tanto, esta área de investigación es fundamental para que los algoritmos se adapten a conjuntos de datos producidos en diferentes clínicas y en diferentes proporciones. Estudios anteriores han demostrado que los resultados se han sesgado hacia el centro con más datos en el entrenamiento incluso cuando se realiza entrenamiento combinado103.

Los métodos más desarrollados utilizan imágenes de luz blanca convencional. Aunque las modalidades especializadas han demostrado ser útiles para detectar y diagnosticar lesiones particulares, se puede encontrar muy poca investigación sobre modalidades más especializadas (ver Tabla 1). Por ejemplo, la cromoendoscopia es un procedimiento médico bien establecido para mejorar la caracterización de los tejidos de la mucosa gastrointestinal104. Durante estos procedimientos, se utilizan tintes especiales junto con la endoscopia óptica. Los detalles observados pueden permitir la identificación de patología. De manera similar, la cistoscopia de fluorescencia68 (también conocida como cistoscopia BL o diagnóstico fotodinámico) en las prácticas clínicas habituales puede mejorar la detección y visualización tanto de tumores papilares de vejiga como de lesiones de carcinoma in situ en comparación con la cistoscopia de luz blanca estándar. Entonces, ¿por qué no aprovechar estos datos además de la modalidad de luz blanca convencional para una detección y caracterización más precisa de las lesiones? Explorar vías multimodales avanzará en la detección temprana, ya que contienen buenos patrones visuales que a menudo no son visibles en procedimientos estándar (p. ej., técnica endoscópica espectral105). Sin embargo, las técnicas avanzadas también requieren capacitación y preparación procesal. Por lo tanto, aprender a adaptarse a partir de las muestras existentes y de las modalidades estándar ampliamente disponibles que se utilizan en las prácticas diarias puede ser un camino a seguir. Las técnicas de adaptación y generalización de dominios son necesidades actuales no cubiertas en esta área.

La evaluación algorítmica es fundamental para el desarrollo de mejores enfoques científicos. Estas evaluaciones desempeñan un papel importante a la hora de determinar la solidez de los métodos desarrollados para la traducción clínica. En el contexto de las técnicas de aprendizaje profundo, tanto el tamaño del conjunto de datos de prueba como el uso de métricas de evaluación que reflejen su desempeño son esenciales. Sin embargo, es difícil establecer cuántas muestras de prueba proporcionan resultados no sesgados. Si bien los conjuntos de pruebas invisibles determinan la generalización de los enfoques, la mayoría de las técnicas supervisadas diseñadas no son sólidas frente a distribuciones de datos invisibles106. Por lo tanto, las evaluaciones de generalización o las pruebas de robustez a menudo no se incluyen en la mayoría de los artículos. Aunque en los artículos se informan métricas estándar de visión por computadora (por ejemplo, precisión superior, coeficiente de Sørensen-Dice, intersección sobre unión, precisión y recuperación), es necesario incluir una métrica que evalúe el sesgo entre el conjunto de validación y el conjunto de pruebas. . Este enfoque puede fortalecer la comprensión del ajuste de hiperparámetros y su efecto en el conjunto de datos de prueba invisible. Además, la mayoría de los estudios actuales no investigan la distribución de los datos ni ilustran gráficos de distribución que demuestren la variación en los datos y los resultados. Dado que los estudios de varianza son esenciales para comprender la coherencia del rendimiento algorítmico, informarlos debe incluirse como parte de la validación algorítmica.

Con el reciente progreso en la mejora del hardware, se han ideado algoritmos DL que son más precisos y más rápidos al mismo tiempo. Sin embargo, la necesidad de desempeño en tiempo real para algunas tareas, específicamente en la detección, el diagnóstico y los procedimientos quirúrgicos de enfermedades endoscópicas, es más crítica. Aún así, el requisito de hardware de alta gama para obtener una velocidad y precisión razonables puede ser económicamente inviable en algunos centros de atención médica o difícil de adaptar en entornos clínicos. Como resultado, es importante considerar las opciones de diseño de red, ya sea sin sacrificar el rendimiento o es imperativo elegir adecuadamente un compromiso aceptable entre velocidad y precisión. Se pueden considerar redes livianas más rápidas como PeleeNet107 con solo 5,4 millones de parámetros con precisión mejorada en comparación con los diseños SOTA MobileNet108 y Tiny-YOLOv2109. Además, los métodos de compresión de modelos pueden permitir que los métodos DL se ejecuten en dispositivos con capacidades computacionales limitadas mientras se mantiene el rendimiento competitivo de la red original. Este método incluye técnicas de poda, cuantificación, destilación de conocimientos y búsqueda de arquitectura de red110.

La mayoría de los métodos se basan en cánceres o lesiones precancerosas más evidentes (p. ej., displasia de alto grado1,2,68, pólipos42,43). Por lo tanto, la necesidad de identificar el desarrollo precanceroso temprano sutil sigue estando poco explorada con la endoscopia convencional. En este sentido, los cambios neoplásicos en una etapa muy temprana, las inflamaciones y otras anomalías tisulares que explican el desarrollo de infecciones graves que amenazan la vida deberían ser el foco de los nuevos desarrollos de IA. Por ejemplo, la sensibilidad de la puntuación MCES en pacientes con EII sigue siendo baja, con una sensibilidad del 83 %, a pesar de que se realizó una clasificación binaria combinando las puntuaciones 0 y 1 como una clase y las puntuaciones 2 y 3 como otra clase11, que es mucho más baja que otras técnicas de clasificación de lesiones. Sin embargo, los avances actuales, incluso para lesiones neoplásicas obvias, son definitivamente de interés ya que pueden reducir la subjetividad en los procedimientos de tratamiento y el manejo de los pacientes.

Si bien la reconstrucción 3D de la mucosa se ha explorado durante más de una década debido a la difícil adquisición de imágenes endoscópicas, esta dirección de investigación sigue siendo un desafío. Las técnicas de estimación de la profundidad basadas en el aprendizaje profundo han abierto una oportunidad para la reconstrucción 3D de la mucosa22,84,85,86,87; sin embargo, debido a las complejas trayectorias endoscópicas y los movimientos de la mucosa, especialmente en los órganos huecos como el colon, la visualización de la mucosa completa en 3D sigue siendo un problema abierto. Además, aún deben innovarse los enfoques basados ​​en datos en cirugía para el registro preoperatorio y posoperatorio.

Con varias modalidades complementarias diseñadas y utilizadas en procedimientos clínicos de rutina, incluida la endoscopia espectral, la técnica de dispersión Raman, la microendoscopia y la histopatología digital (biopsia óptica), se ha realizado un esfuerzo mínimo o nulo para explorar métodos basados ​​en datos para análisis multiescala y multimodal. Técnicas de fusión de datos. Aunque los hallazgos coinciden con la endoscopia, por ejemplo, en la endoscopia espectral105, estas señales no se registran en la región donde se generan.

En esta revisión, se destacan los enfoques recientes de aprendizaje profundo que tenían como objetivo minimizar la variabilidad entre observadores e intraobservadores en los procedimientos clínicos. Estos métodos desarrollados se centraron principalmente en la detección, caracterización, localización, segmentación, soporte quirúrgico y visualización o medición en 3D de lesiones automáticas. También describimos los desafíos y brechas actuales en estos enfoques basados ​​en IA y sus estrategias de validación. Los trabajos de investigación en la comunidad endoscópica se centran principalmente en la aplicación de métodos de la comunidad de la visión, lo que demuestra un progreso sombrío en el desarrollo de métodos únicos basados ​​en problemas y una falta de estudios multicéntricos integrales. La validación superficial de algoritmos y la carrera por publicar han afectado principalmente la calidad de la investigación en esta área. Además, debido a esto, se ignoran las necesidades actuales y la mayoría de las lesiones aparentes se seleccionan repetidamente en lugar de trabajar en lesiones planas o sésiles sutiles o cambios neoplásicos tempranos. Tomando una postura audaz, a continuación se proponen direcciones futuras con el supuesto de que estas propuestas ayudarán a desarrollar enfoques de IA imparciales, avanzados y clínicamente prácticos que son las necesidades actuales.

Si bien cada procedimiento endoscópico es único, los avances metodológicos son más progresivos y repetitivos en uno que en otro. Si bien esto abre una oportunidad para los desarrolladores de algoritmos donde las aplicaciones aún son poco comunes, la falta de un conjunto de datos y la poca participación de expertos clínicos han hecho que estos tipos de procedimientos sean menos atractivos. Sin embargo, existe una clara oportunidad y necesidad de desarrollos similares de estas tecnologías de asistencia informática en todos los procedimientos endoscópicos para mejorar la atención al paciente. Por ejemplo, el abordaje de la patología gastrointestinal mediante IA tiene un número abrumador de artículos25,31 (consulte la sección "Endoscopia gastrointestinal asistida por ordenador"). Por el contrario, a pesar de que los procedimientos de cistoscopia y ureteroscopia son igualmente desafiantes, la literatura muestra un trabajo mínimo reportado hasta el momento66,71.

Las preguntas son "¿Qué es difícil de evaluar en los procedimientos clínicos de rutina?"; y "¿qué debería elegir la IA en términos de detección y diagnóstico?" ¿Las lesiones son fáciles de localizar por un clínico capacitado o son difíciles de encontrar incluso para un experto (p. ej., lesiones poco visibles)? Los desarrollos algorítmicos especializados y más tiempo de los expertos en la curación de datos son vitales para este último caso. Además de esto, las modalidades complementarias pueden desempeñar un papel importante en la evaluación de lesiones ocultas y sutiles que pueden dañar a los pacientes20,21. Si bien la visión humana es limitada y la mente sólo puede interpretar lo que el ojo puede entender, las computadoras pueden resolver datos más complejos, como firmas de datos multimodales y de múltiples escalas105. La multimodalidad es la clave para responder a las preguntas anteriores y es el camino a seguir para abordar las lesiones difíciles de encontrar. Al mismo tiempo, la multiescala puede proporcionar una caracterización más detallada para comprenderla mejor, lo que puede complementar la fortaleza de la IA en este campo.

La validación del método debe evaluarse primero en un conjunto de datos retrospectivos heterogéneos y multicéntricos. Dado que el aprendizaje profundo es muy susceptible a la distribución de datos, un modelo entrenado en un dispositivo de imágenes en particular o en una población puede generar un monopolio del mercado y un acceso limitado a sistemas de salud avanzados. Como resultado, tiene un impacto significativo en la sociedad y la economía. Alentar a la comunidad investigadora a incluir evaluaciones de generalización es la única manera de lograr un ecosistema de desarrollo de métodos más seguro y deseable. Si bien el acceso a los datos debido a cuestiones de privacidad puede dificultar la evaluación, el camino a seguir en esta dirección es utilizar un enfoque de aprendizaje federado que permita evaluar datos multicéntricos y ayudar en el desarrollo de métodos generalizables que puedan usarse para construir y validar métodos111.

El acceso a conjuntos de datos adquiridos clínicamente más disponibles públicamente, que consisten en datos seleccionados y del mundo real, puede ser fundamental para el desarrollo algorítmico y su adaptación a escenarios clínicos. Algunos ejemplos de estos conjuntos de datos incluyen videos colonoscópicos y anotaciones relacionadas en LDPolypVideo112 y el conjunto de datos ROBUST-MIS para la detección, segmentación y seguimiento de herramientas quirúrgicas113. Conjuntos de datos completos similares pueden ayudar a evaluar métodos y fomentar avances técnicos hacia la viabilidad traslacional. Además, para evaluar la utilidad en escenarios clínicos, también se puede alentar a los enfoques desarrollados a realizar estudios prospectivos en algunos centros comunitarios. Idealmente, los estudios clínicos en centros locales deberían ser aceptables para comprender la viabilidad traslacional y los factores limitantes.

Con las crecientes arquitecturas de redes profundas y el análisis de mayores volúmenes de datos (p. ej., vídeos en endoscopia), ha habido un consumo de energía y una huella de carbono cada vez mayores de los métodos de DL que deben ser abordados por la comunidad114. Se debe alentar a los equipos editoriales a evaluar cada trabajo presentado que involucre enfoques basados ​​en IA utilizando métricas adicionales antes de enviarlo para revisión por pares. Estas métricas pueden incluir: (1) se debe alentar a los artículos que utilizan redes DL más grandes que son impracticables en entornos clínicos y son responsables de una alta huella de carbono115 a realizar estrategias de compacidad del modelo y justificar las opciones de selección del modelo, (2) la importancia del trabajo realizado debe ponderarse evaluando la comparación de la novedad del método versus los métodos más modernos, y (3) debe evaluarse la solidez versus el tiempo de ejecución de los experimentos. Los trabajos enviados deben describir claramente estos parámetros en el resumen del artículo enviado y proporcionar una lista de verificación obligatoria como archivo adicional durante el envío.

de Groof, AJ y cols. El sistema de aprendizaje profundo detecta neoplasia en pacientes con esófago de Barrett con mayor precisión que los endoscopistas en un estudio de validación y capacitación de varios pasos con evaluación comparativa. Gastroenterología 158, 915–929.e4 (2020).

Artículo de Google Scholar

Ebigbo, A. et al. Diagnóstico asistido por computadora mediante aprendizaje profundo en la evaluación del adenocarcinoma de esófago temprano. Tripa 68, 1143-1145 (2019).

Artículo de Google Scholar

Zhang, Y. et al. Diagnóstico de gastritis atrófica crónica mediante gastroscopia mediante inteligencia artificial. Excavar. Enfermedad hepática. 52, 566–572 (2020).

Artículo de Google Scholar

Guimarães, P., Keller, A., Fehlmann, T., Lammert, F. y Casper, M. Detección basada en aprendizaje profundo de condiciones precancerosas gástricas. Instinto 69, 4–6 (2020).

Artículo de Google Scholar

Everson, M. y col. Inteligencia artificial para la clasificación en tiempo real de patrones de asas capilares intrapapilares en el diagnóstico endoscópico del carcinoma de células escamosas de esófago temprano: un estudio de prueba de concepto. Estados Unidos Gastroenterol. J. 7, 297–306 (2019).

Artículo CAS Google Scholar

Ozawa, T. y col. Detección endoscópica automatizada y clasificación de pólipos colorrectales mediante redes neuronales convolucionales. Terapia. Adv. Gastroenterol. 13, 1756284820910659 (2020).

Artículo de Google Scholar

Byrne, MF y cols. Diferenciación en tiempo real de pólipos colorrectales diminutos adenomatosos e hiperplásicos durante el análisis de vídeos inalterados de colonoscopia estándar utilizando un modelo de aprendizaje profundo. Instinto 68, 94-100 (2019).

Artículo de Google Scholar

Canción, EM et al. Diagnóstico endoscópico y planificación del tratamiento de pólipos colorrectales mediante un modelo de aprendizaje profundo. Ciencia. Rep. 10, 30 (2020).

Jin, EH y cols. Precisión mejorada en el diagnóstico óptico de pólipos colorrectales mediante redes neuronales convolucionales con explicaciones visuales. Gastroenterología 158, 2169–2179.e8 (2020).

Artículo de Google Scholar

Chen, P.-J. et al. Clasificación precisa de pólipos colorrectales diminutos mediante análisis asistido por computadora. Gastroenterología 154, 568–575 (2018).

Artículo de Google Scholar

Stidham, RW y cols. Rendimiento de un modelo de aprendizaje profundo frente a revisores humanos para clasificar la gravedad de la enfermedad endoscópica en pacientes con colitis ulcerosa. Red JAMA. Abierto 2, e193963 (2019).

Artículo de Google Scholar

Jin, Y. et al. Red convolucional recurrente multitarea con pérdida de correlación para análisis de video quirúrgico. Medicina. Imagen Anal. 59, 101572 (2020).

Artículo de Google Scholar

Colleoni, E., Edwards, P. & Stoyanov, D. Insumos sintéticos y reales para la segmentación de herramientas en cirugía robótica. En Conferencia Internacional sobre Computación de Imágenes Médicas e Intervención Asistida por Computadora – MICCAI (Computación de Imágenes Médicas e Intervención Asistida por Computadora, 2020).

Kannan, S., Yengera, G., Mutter, D., Marescaux, J. y Padoy, N. Listm de predicción del estado futuro para el reconocimiento temprano del tipo de cirugía. Traducción IEEE. Medicina. Imágenes 39, 556–566 (2020).

Artículo de Google Scholar

Gong, J. y col. Uso del aprendizaje profundo para identificar el nervio laríngeo recurrente durante la tiroidectomía. Ciencia. Rep. 11, 14306 (2021).

Artículo CAS Google Scholar

Koo, B. y col. Registro automático y global en cirugía hepática laparoscópica. En t. J. Computación. Asistir. Radiol. Cirugía. 17, 167-176 (2022).

Artículo de Google Scholar

Ali, S. y col. Una comparación objetiva de algoritmos de detección y segmentación de artefactos en endoscopia clínica. Ciencia. Representante 10, 1-15 (2020).

Google Académico

Rees, CJ y cols. Indicadores clave de desempeño y estándares de garantía de calidad para colonoscopia en el Reino Unido. Tripa 65, 1923-1929 (2016).

Artículo de Google Scholar

Beg, S. y col. Estándares de calidad en endoscopia del tubo digestivo superior: declaración de posición de la Sociedad Británica de Gastroenterología (BSG) y la Asociación de Cirujanos del tubo digestivo superior de Gran Bretaña e Irlanda (AUGIS). Tripa 66, 1886–1899 (2017).

Artículo de Google Scholar

McGill, SK y cols. La inteligencia artificial identifica y cuantifica los puntos ciegos de la colonoscopia. Endoscopia 53, 1284–1286 (2021).

Artículo de Google Scholar

Wu, L. y col. Ensayo controlado aleatorio de Wisense, un sistema de mejora de la calidad en tiempo real para monitorear los puntos ciegos durante la esofagogastroduodenoscopia. Instinto 68, 2161–2169 (2019).

Artículo de Google Scholar

Ali, S. y col. Un estudio piloto sobre la cuantificación tridimensional automática del esófago de Barrett para la estratificación del riesgo y el seguimiento de la terapia. Gastroenterología 161, 865–878.e8 (2021).

Artículo de Google Scholar

Gupta, S., Ali, S., Goldsmith, L., Turney, B. y Rittscher, J. Mi-unet: segmentación mejorada en ureteroscopia. En 2020, 17.º Simposio internacional sobre imágenes biomédicas (ISBI) del IEEE 212–216 (2020).

Shkolyar, E. et al. Detección aumentada de tumores de vejiga mediante aprendizaje profundo. EUR. Urol. 76, 714–718 (2019).

Artículo de Google Scholar

Tokat, M., van Tilburg, L., Koch, AD & Spaander, MCW Inteligencia artificial en endoscopia gastrointestinal superior. Excavar. Dis. 40, 395–408 (2022).

Artículo de Google Scholar

Sumiyama, K., Futakuchi, T., Kamba, S., Matsui, H. & Tamai, N. Inteligencia artificial en endoscopia: perspectivas presentes y futuras. Excavar. Endosc. 33, 218–230 (2021).

Artículo de Google Scholar

Wang, Y., Sun, Q., Liu, Z. & Gu, L. Algoritmos de seguimiento y detección visual para instrumentos quirúrgicos mínimamente invasivos: una revisión exhaustiva del estado del arte. Robar. Auton. Sistema. 149, 103945 (2022).

Artículo de Google Scholar

Anteby, R. y col. Análisis visual de aprendizaje profundo en cirugía laparoscópica: una revisión sistemática y un metanálisis de precisión de pruebas diagnósticas. Cirugía. Endosc. 35, 1521-1533 (2021).

Artículo de Google Scholar

Renna, F. y col. Inteligencia artificial para endoscopia gastrointestinal superior: una hoja de ruta desde el desarrollo tecnológico hasta la práctica clínica. Diagnóstico (Basilea, Suiza) 12, 1278 (2022).

Google Académico

Misawa, M. y col. Estado actual y perspectiva de futuro de la inteligencia artificial para endoscopia inferior. Excavar. Endosc. 33, 273–284 (2021).

Artículo de Google Scholar

Sanchez-Peralta, LF, Bote-Curiel, L., Picon, A., Sanchez-Margallo, FM & Payer, JB Aprendizaje profundo para encontrar pólipos colorrectales en colonoscopia: una revisión sistemática de la literatura. Artif. Intel. Medicina. Rev.108, 101923 (2020).

Artículo de Google Scholar

Tontini, GE y cols. Inteligencia artificial en endoscopia gastrointestinal para la enfermedad inflamatoria intestinal: una revisión sistemática y nuevos horizontes. Terapia. Adv. Gastroenterol. 14, 17562848211017730 (2021).

Artículo de Google Scholar

Nakase, H. y col. La endoscopia asistida por inteligencia artificial cambia la definición de curación de la mucosa en la colitis ulcerosa. Excavar. Endosc. 33, 903–911 (2021).

Google Académico

Okagawa, Y., Abe, S., Yamada, M., Oda, I. y Saito, Y. Inteligencia artificial en endoscopia. Excavar. Dis. Ciencia. 67, 1553-1572 (2022).

Artículo de Google Scholar

Corley, DA y cols. Tasa de detección de adenomas y riesgo de cáncer colorrectal y muerte. N. inglés. J. Med. 370, 1298-1306 (2014). PMID: 24693890.

Artículo CAS Google Scholar

Schmelzle, M., Krenzien, F., Schöning, W. y Pratschke, J. Resección hepática laparoscópica: indicaciones, limitaciones y aspectos económicos. Arco de Langenbeck. Cirugía. 405, 725–735 (2020).

Artículo de Google Scholar

Kim, J.-J. et al. Visualización de gran campo de visión utilizando múltiples cámaras miniaturizadas para cirugía laparoscópica. Micromáquinas (Basilea) 9, 431 (2018).

Zhou, W. y col. Validación de varios pasos de un sistema basado en aprendizaje profundo para la cuantificación de la preparación intestinal: un estudio observacional prospectivo. Dígito de lanceta. Salud 3, e697–e706 (2021).

Artículo de Google Scholar

Guo, L. y col. Diagnóstico automatizado en tiempo real de lesiones precancerosas y carcinoma de células escamosas de esófago temprano mediante un modelo de aprendizaje profundo (con videos). Gastrointestinal. Endosc. 91, 41–51 (2020).

Artículo de Google Scholar

Bancos, M. et al. Directrices de la Sociedad Británica de Gastroenterología sobre el diagnóstico y tratamiento de pacientes con riesgo de adenocarcinoma gástrico. Tripa 68, 1545-1575 (2019).

Artículo de Google Scholar

Mu, G. y col. Clasificación de gastritis a nivel de expertos mediante endoscopia mediante aprendizaje profundo: un ensayo de diagnóstico multicéntrico. Endosc. En t. Abierto 09, E955 – E964 (2021).

Artículo de Google Scholar

Misawa, M. y col. Detección de pólipos asistida por inteligencia artificial para colonoscopia: experiencia inicial. Gastroenterología 154, 2027–2029.e3 (2018).

Artículo de Google Scholar

Urbano, G. et al. El aprendizaje profundo localiza e identifica pólipos en tiempo real con una precisión del 96 % en la colonoscopia de detección. Gastroenterología 155, 1069–1078.e8 (2018).

Artículo de Google Scholar

Ozawa, T. y col. Nuevo sistema de diagnóstico asistido por computadora para la actividad endoscópica de la enfermedad en pacientes con colitis ulcerosa. Gastrointestinal. Endosc. 89, 416–421.e1 (2019).

Artículo de Google Scholar

Becker, BG y cols. Capacitar e implementar un modelo de aprendizaje profundo para la clasificación de gravedad endoscópica en la colitis ulcerosa utilizando datos de ensayos clínicos multicéntricos. Terapia. Adv. Gastrointestinal. Endosc. 14, 2631774521990623 (2021).

Google Académico

Klang, E. y col. Algoritmos de aprendizaje profundo para la detección automatizada de úlceras de la enfermedad de Crohn mediante videocápsula endoscópica. Gastrointestinal. Endosc. 91, 606–613.e2 (2020).

Artículo de Google Scholar

Mascarenhas Saraiva, MJ et al. Aprendizaje profundo y cápsula endoscópica: identificación y diferenciación automática de lesiones del intestino delgado con distinto potencial hemorrágico mediante una red neuronal convolucional. BMJ Abierto Gastroenterol. 8, e000753 (2021).

Zhou, D. y col. Evaluación diagnóstica de un modelo de aprendizaje profundo para el diagnóstico óptico del cáncer colorrectal. Nat. Comunitario. 11, 2961 (2020).

Artículo CAS Google Scholar

Bernal, J. et al. Validación comparativa de métodos de detección de pólipos en videocolonoscopia: resultados del desafío de visión endoscópica miccai 2015. Traducción IEEE. Medicina. Imágenes 36, 1231-1249 (2017).

Artículo de Google Scholar

Qadir, HA y cols. Detección y segmentación de pólipos mediante máscara r-cnn: ¿un extractor de características más profundo cnn siempre funciona mejor? En 2019, 13º Simposio Internacional sobre Tecnología de la Información y la Comunicación Médica (ISMICT) 1–6 (2019).

Wan, J., Chen, B. & Yu, Y. Detección de pólipos a partir de imágenes colorrectales mediante el uso atento de yolov5. Diagnóstico 11, 2264 (2021).

Artículo de Google Scholar

Wang, D. y col. AFP-Net: detección de pólipos libres de anclaje en tiempo real en colonoscopia. En 2019, 31ª Conferencia Internacional del IEEE sobre Herramientas con Inteligencia Artificial (ICTAI) 636–643 (IEEE, 2019).

Law, H. & Deng, J. Cornernet: detección de objetos como puntos clave emparejados. En Actas de la Conferencia Europea sobre Visión por Computadora (ECCV) 734–750 (2018).

González-Bueno Puyal, J. et al. Detección de pólipos en videocolonoscopia utilizando una CNN híbrida 2D/3D. Medicina. Imagen Anal. 82, 102625 (2022).

Ghatwary, N., Zolgharni, M., Janan, F. y Ye, X. Aprendizaje de características espaciotemporales para la detección de anomalías esofágicas a partir de videos endoscópicos. IEEE J. Biomed. Informe de salud. 25, 131-142 (2020).

Artículo de Google Scholar

Nguyen, N.-Q. y Lee, S.-W. Segmentación de límites robusta en imágenes médicas utilizando una red codificadora-decodificadora profunda consecutiva. Acceso IEEE 7, 33795–33808 (2019).

Artículo de Google Scholar

Tomar, NK, Jha, D., Bagci, U. y Ali, S. TGANet: atención guiada por texto para mejorar la segmentación de pólipos. En Computación de imágenes médicas e intervención asistida por computadora – MICCAI 2022, 151–160 (Springer Nature Suiza, Cham, 2022).

Safarov, S. & Whangbo, TK A-DenseUNet: unet adaptativo densamente conectado para la segmentación de pólipos en imágenes de colonoscopia con convolución atroz. Sensores 21, 1441 (2021).

Artículo de Google Scholar

Zhang, Y., Liu, H. & Hu, Q. TransFuse: transformadores de fusión y CNN para segmentación de imágenes médicas. En Computación de imágenes médicas e intervención asistida por computadora – MICCAI 2021: 24.a conferencia internacional, Estrasburgo, Francia, 27 de septiembre al 1 de octubre de 2021, Actas, Parte I, 14–24 (Springer-Verlag, Berlín, Heidelberg, 2021). https://doi.org/10.1007/978-3-030-87193-2_2.

Duc, NT, Oanh, NT, Thuy, NT, Triet, TM y Dinh, VS ColonFormer: un método eficiente basado en transformadores para la segmentación de pólipos de colon. Acceso IEEE 10, 80575–80586 (2022).

Artículo de Google Scholar

Madad Zadeh, S. et al. SurgAI: aprendizaje profundo para la comprensión de imágenes laparoscópicas computarizadas en ginecología. Cirugía. Endosc. 34, 5377–5383 (2020).

Artículo de Google Scholar

Namazi, B., Sankaranarayanan, G. & Devarajan, V. Un detector contextual de herramientas quirúrgicas en videos laparoscópicos mediante aprendizaje profundo. Cirugía. Endosc. 36, 679–688 (2022).

Artículo de Google Scholar

Samuel, DJ y Cuzzolin, F. Detección de anomalías no supervisadas para un asistente cirujano robótico autónomo inteligente (SARAS) utilizando un codificador automático residual profundo. Robot IEEE. Automático. Letón. 6, 7256–7261 (2021).

Artículo de Google Scholar

Al Hajj, H., Lamard, M., Conze, P.-H., Cochener, B. & Quellec, G. Uso de herramientas de monitoreo en videos de cirugía utilizando redes neuronales recurrentes y convolucionales mejoradas. Medicina. Imagen Anal. 47, 203–218 (2018).

Artículo de Google Scholar

Koo, B. y col. Registro automático y global en cirugía hepática laparoscópica. En t. J. Computación. Asistir. Radiol. Cirugía. 17, 167-176 (2022).

Artículo de Google Scholar

Ikeda, A. y col. Sistema de apoyo al diagnóstico cistoscópico del cáncer de vejiga basado en inteligencia artificial. J. Endourol. 34, 352–358 (2020).

Artículo de Google Scholar

Shkolyar, E. et al. Detección aumentada de tumores de vejiga mediante aprendizaje profundo. EUR. Urol. 76, 714–718 (2019).

Artículo de Google Scholar

Ali, N. y col. Clasificación basada en aprendizaje profundo de imágenes de cistoscopia con luz azul durante la resección transuretral de tumores de vejiga. Ciencia. Rep. 11, 11629 (2021).

Artículo CAS Google Scholar

Black, KM, Law, H., Aldoukhi, A., Deng, J. & Ghani, KR Algoritmo de visión por computadora de aprendizaje profundo para detectar la composición de los cálculos renales. Hno. J. Urol. En t. 125, 920–924 (2020).

Artículo CAS Google Scholar

López, F. et al. Evaluación de métodos de aprendizaje profundo para la identificación de cálculos renales en imágenes endoscópicas. En 2021, 43.a Conferencia Internacional Anual de la Sociedad de Ingeniería en Medicina y Biología (EMBC) IEEE 2778–2781 (2021).

Gupta, S., Ali, S., Goldsmith, L., Turney, B. y Rittscher, J. Segmentación semántica basada en movimiento de múltiples clases para ureteroscopia y litotricia con láser. Computadora. Medicina. Gráfico de imágenes. 101, 102112 (2022).

Artículo de Google Scholar

Ronneberger, O., Fischer, P. & Brox, T. U-net: redes convolucionales para la segmentación de imágenes biomédicas. En Conferencia internacional sobre informática de imágenes médicas e intervención asistida por computadora, 234–241 (Springer, 2015).

Li, C. y col. Desarrollo y validación de un modelo de aprendizaje profundo basado en imágenes endoscópicas para la detección de neoplasias malignas nasofaríngeas. Comunidad Cáncer. (Londres) 38, 59 (2018).

Artículo de Google Scholar

Parker, F., Brodsky, MB, Akst, LM y Ali, H. Aprendizaje automático en el análisis de laringoscopia: un estudio observacional de prueba de concepto para la identificación de ulceraciones y granulomas post-extubación. Ana. Отол. Rinol. Laringol. 130, 286–291 (2021).

Artículo de Google Scholar

Gong, J. y col. Uso del aprendizaje profundo para identificar el nervio laríngeo recurrente durante la tiroidectomía. Ciencia. Rep. 11, 14306 (2021).

Artículo CAS Google Scholar

Yoo, JY et al. Aprendizaje profundo para la interpretación anatómica de imágenes de videobroncoscopia. Ciencia. Rep. 11, 23765 (2021).

Artículo CAS Google Scholar

Żurek, M., Jasak, K., Niemczyk, K. & Rzepakowska, A. Inteligencia artificial en endoscopia laríngea: revisión sistemática y metanálisis. J.Clin. Medicina. 11, 2752 (2022).

Artículo de Google Scholar

Shelhamer, E., Long, J. y Darrell, T. Redes totalmente convolucionales para segmentación semántica. Traducción IEEE. Patrón Anal. Mach. Intel. 39, 640–651 (2017).

Artículo de Google Scholar

Ali, S. y col. Un marco de aprendizaje profundo para la evaluación y restauración de la calidad en videoendoscopia. Medicina. Imagen Anal. 68, 101900 (2021).

Artículo de Google Scholar

Chang, Y.-Y. et al. Desarrollo y validación de un algoritmo basado en aprendizaje profundo para la evaluación de la calidad de la colonoscopia. Sur. Endosc. 36, 6446–6455. https://doi.org/10.1007/s00464-021-08993-y (2022).

Nam, JH, Oh, DJ, Lee, S., Song, HJ & Lim, YJ Desarrollo y verificación de un algoritmo de aprendizaje profundo para evaluar la calidad de la preparación del intestino delgado. Diagnóstico (Basilea) 11, 1127 (2021).

Artículo de Google Scholar

Él, Q. et al. Clasificación de sitios anatómicos basada en aprendizaje profundo para endoscopia gastrointestinal superior. En t. J. Computación. Asistencia. Radiol. Cirugía. 15, 1085-1094 (2020).

Artículo de Google Scholar

Sun, M. y col. Red basada en separación de canales para el reconocimiento automático del sitio anatómico mediante imágenes endoscópicas. Biomédica. Proceso de señal. Control 71, 103167 (2022).

Artículo de Google Scholar

Liu, X. y col. Estimación de profundidad densa en endoscopia monocular con métodos de aprendizaje autosupervisados. Traducción IEEE. Medicina. Imágenes 39, 1438-1447 (2020).

Artículo de Google Scholar

Liu, S. y col. Estimación conjunta de profundidad y movimiento a partir de una secuencia de imágenes de endoscopia monocular utilizando una red de reequilibrio de múltiples pérdidas. Biomédica. Optar. Expreso 13, 2707–2727 (2022).

Artículo de Google Scholar

Ozioruk, KB et al. Conjunto de datos de Endoslam y un enfoque de estimación de profundidad y odometría visual monocular no supervisada para videos endoscópicos. Medicina. Imagen Anal. 71, 102058 (2021).

Artículo de Google Scholar

Shao, S. y col. Estimación autosupervisada de la profundidad monocular y del movimiento del ego en endoscopia: flujo de apariencia al rescate. Medicina. Imagen Anal. 77, 102338 (2022).

Artículo de Google Scholar

Ren, S., He, K., Girshick, R. & Sun, J. R-CNN más rápido: hacia la detección de objetos en tiempo real con redes de propuesta de región. En Avances en los sistemas de procesamiento de información neuronal, 91–99 (2015).

Redmon, J., Divvala, S., Girshick, R. y Farhadi, A. Solo miras una vez: detección de objetos unificada en tiempo real. En Actas de la Conferencia IEEE sobre visión por computadora y reconocimiento de patrones, 779–788 (2016).

Chen, L.-C., Papandreou, G., Kokkinos, I., Murphy, K. y Yuille, AL Deeplab: segmentación de imágenes semánticas con redes convolucionales profundas, convolución atroz y crfs completamente conectados. Traducción IEEE. Patrón Anal. Mach. Intel. 40, 834–848 (2017).

Artículo de Google Scholar

Simonyan, K. & Zisserman, A. Redes convolucionales muy profundas para el reconocimiento de imágenes a gran escala. En Conferencia Internacional sobre Representaciones del Aprendizaje (2015).

He, K., Zhang, X., Ren, S. & Sun, J. Aprendizaje residual profundo para el reconocimiento de imágenes. En Actas de la Conferencia IEEE sobre visión por computadora y reconocimiento de patrones, 770–778 (2016).

Tan, M. & Le, QV Efficientnet: repensar el escalado de modelos para redes neuronales convolucionales. En Actas de la 36.ª Conferencia Internacional sobre Aprendizaje Automático, ICML 2019, 9 a 15 de junio de 2019, Long Beach, California, EE. UU., vol. 97 de Actas de investigación sobre aprendizaje automático (eds Chaudhuri, K. y Salakhutdinov, R.) 6105–6114 (PMLR, 2019).

Zhao, Q. & Chi, T. El modelo de aprendizaje profundo puede mejorar la tasa de diagnóstico de gastritis atrófica crónica endoscópica: un estudio de cohorte prospectivo. BMC Gastroenterol. 22, 133 (2022).

Artículo de Google Scholar

Klare, P. y col. Detección automatizada de pólipos en el colorrectal: un estudio prospectivo (con videos). Gastrointestinal. Endosc. 89, 576–582.e1 (2019).

Artículo de Google Scholar

Zhao, Z. et al. Metaadaptación en línea guiada por anclajes para una segmentación rápida de instrumentos de una sola vez a partir de videos quirúrgicos robóticos. Medicina. Imagen Anal. 74, 102240 (2021).

Artículo de Google Scholar

Khadka, R. y col. Metaaprendizaje con gradientes implícitos en un entorno de pocas tomas para la segmentación de imágenes médicas. Computadora. Biol. Medicina. 143, 105227 (2022).

Artículo de Google Scholar

Zhao, X. et al. Red de atención espacial temporal semisupervisada para video segmentación de pólipos. En Computación de imágenes médicas e intervención asistida por computadora – MICCAI 2022 – 25.a Conferencia Internacional, Singapur, 18 al 22 de septiembre de 2022, Actas, Parte IV, vol. 13434 de Lecture Notes in Computer Science, 456–466 (Springer, 2022).

Turan, M. & Durmus, F. UC-NfNet: evaluación de la colitis ulcerosa mediante aprendizaje profundo a partir de imágenes de colonoscopia. Medicina. Imagen Anal. 82, 102587 (2022).

Artículo de Google Scholar

Xu, Z., Ali, S., East, J. & Rittscher, J. Pérdida de margen angular aditiva y red de escalamiento de modelos para una puntuación optimizada de la colitis. En 2022, 19.º Simposio internacional sobre imágenes biomédicas (ISBI) 1–5 del IEEE (2022).

Liu, X., Sanchez, P., Thermos, S., O'Neil, AQ y Tsaftaris, SA Aprendizaje de representaciones desenredadas en el dominio de las imágenes. Medicina. Imagen Anal. 80, 102516 (2022).

Artículo de Google Scholar

Srivastava, A. et al. MSRF-Net: una red de fusión residual de múltiples escalas para la segmentación de imágenes biomédicas. IEEE J. Biomed. Informática de la salud 26, 2252–2263 (2022).

Artículo de Google Scholar

Bar, O. y col. Impacto de los datos en la generalización de la IA para aplicaciones de inteligencia quirúrgica. Ciencia. Rep. 10, 22208 (2020).

Artículo CAS Google Scholar

Xu, J. y col. Aprendizaje profundo para la identificación del carcinoma nasofaríngeo mediante endoscopia de imágenes de banda estrecha y luz blanca. Laringoscopio 132, 999–1007 (2022).

Artículo de Google Scholar

Waterhouse, DJ y cols. La endoscopia espectral mejora el contraste para las neoplasias en la vigilancia del esófago de Barrett. Res. Cáncer. 81, 3415–3425 (2021).

Artículo CAS Google Scholar

Linardos, A., Kushibar, K., Walsh, S., Gkontra, P. y Lekadir, K. Aprendizaje federado para diagnóstico por imágenes multicéntrico: un estudio de simulación en enfermedades cardiovasculares. Ciencia. Rep. 12, 3551 (2022).

Artículo CAS Google Scholar

Wang, RJ, Li, X. & Ling, CX Pelee: un sistema de detección de objetos en tiempo real en dispositivos móviles. En Advances in Neural Information Processing Systems 31, (eds Bengio, S. et al.) 1967–1976 (Curran Associates, Inc., 2018). http://papers.nips.cc/paper/7466-pelee-a-real-time-object-detection-system-on-mobile-devices.pdf.

Howard, AG y cols. Mobilenets: redes neuronales convolucionales eficientes para aplicaciones de visión móviles. CoRRabs/1704.04861. http://arxiv.org/abs/1704.04861 (2017).

Redmon, J., Divvala, S., Girshick, R. y Farhadi, A. Solo miras una vez: detección de objetos unificada en tiempo real. En 2016, Conferencia IEEE sobre visión por computadora y reconocimiento de patrones (CVPR) 779–788 (2016).

Wang, C.-H. et al. Aprendizaje profundo ligero: una descripción general. En Revista IEEE Consumer Electronics 1–12 (2022).

Rieke, N. y col. El futuro de la salud digital con aprendizaje federado. npj Dígito. Medicina. 3, 119 (2020).

Ma, Y., Chen, X., Cheng, K., Li, Y. & Sun, B. Ldpolypvideo benchmark: un conjunto de datos de video de colonoscopia a gran escala de diversos pólipos. En Computación de imágenes médicas e intervención asistida por computadora – MICCAI 2021: 24.a Conferencia Internacional, Estrasburgo, Francia, 27 de septiembre al 1 de octubre de 2021, Actas, Parte V, 387–396 (Springer-Verlag, Berlín, Heidelberg, 2021).

Maier-Hein, L. et al. Conjunto de datos colorrectales de Heidelberg para la ciencia de datos quirúrgicos en el quirófano de sensores. Ciencia. Datos 8, 101 (2021).

Selvan, R., Bhagwat, N., Wolff Anthony, LF, Kanding, B. & Dam, EB Huella de carbono de la selección y entrenamiento de modelos de aprendizaje profundo para el análisis de imágenes médicas. En Computación de imágenes médicas e intervención asistida por computadora – MICCAI 2022, 506–516 (Springer Nature Suiza, Cham, 2022).

Masanet, E., Shehabi, A., Lei, N., Smith, S. y Koomey, J. Recalibración de las estimaciones de uso de energía de los centros de datos globales. Ciencia 367, 984–986 (2020).

Artículo CAS Google Scholar

Nakagawa, K. y col. Clasificación de la profundidad de invasión del carcinoma de células escamosas de esófago utilizando una red neuronal profunda en comparación con endoscopistas experimentados. Gastroint. Endosc. 90, 407–414 (2019).

Artículo de Google Scholar

Shiroma, S. y col. Capacidad de la inteligencia artificial para detectar el carcinoma de células escamosas de esófago t1 a partir de vídeos endoscópicos y los efectos de la asistencia en tiempo real. Ciencia. Rep. 11, 7759 (2021).

Artículo CAS Google Scholar

Kim, YJ y cols. Nueva técnica de clasificación de imágenes de pólipos que utiliza el aprendizaje por transferencia de la estructura de red en red en imágenes endoscópicas. Ciencia. Rep. 11, 3605 (2021).

Artículo CAS Google Scholar

Yamada, M. y col. Desarrollo de un sistema de soporte al diagnóstico por imágenes endoscópicas en tiempo real utilizando tecnología de aprendizaje profundo en colonoscopia. Ciencia. Rep. 9, 14465 (2019).

Lee, J. y col. Detección en tiempo real de pólipos de colon durante la colonoscopia mediante aprendizaje profundo: validación sistemática con cuatro conjuntos de datos independientes. Ciencia. Rep. 10, 8379 (2020).

Zachariah, R. y otros. La predicción de la patología de los pólipos mediante redes neuronales convolucionales alcanza umbrales de "resección y descarte". Soy J Gastroenterol. 115, 138-144 (2020).

Artículo de Google Scholar

Ito, N. y col. Sistema de apoyo al diagnóstico endoscópico del cáncer colorrectal ct1b mediante aprendizaje profundo. Oncología 96, 44–50 (2019).

Artículo de Google Scholar

Hashemi, SMR, Hassanpour, H., Kozegar, E. & Tan, T. Clasificación de imágenes cistoscópicas mediante aprendizaje de características no supervisado y fusión de clasificadores. Acceso IEEE 9, 126610–126622 (2021).

Artículo de Google Scholar

Stoebner, ZA, Lu, D., Hong, SH, Kavoussi, NL y Oguz, I. Segmentación de cálculos renales en transmisiones de video endoscópicas. En Imágenes médicas 2022: Procesamiento de imágenes vol. 12032 (eds. Colliot, O. e Išgum, I.) 900–908. Sociedad Internacional de Óptica y Fotónica (SPIE, 2022). https://doi.org/10.1117/12.2613274.

Ali, S. y col. Registro sólido de imágenes de la vejiga mediante la redefinición del término de datos en un enfoque variacional total. En Imágenes médicas 2015: Procesamiento de imágenes, vol. 9413 (eds. Ourselin, S. y Styner, MA) 386–397. Sociedad Internacional de Óptica y Fotónica (SPIE, 2015). https://doi.org/10.1117/12.2077658.

Qin, F. y col. Hacia una mejor segmentación de instrumentos quirúrgicos en visión endoscópica: agregación de características multiángulo y supervisión de contornos. Robot IEEE. Automático. Letón. 5, 6639–6646 (2020).

Artículo de Google Scholar

Ali, S. y col. Aprendizaje profundo para la detección y segmentación de artefactos y casos de enfermedades en endoscopia gastrointestinal. Medicina. Imagen Anal. 70, 102002 (2021).

Artículo de Google Scholar

Ali, S. y col. Evaluación de la generalización de los métodos de segmentación y detección de pólipos basados ​​en el aprendizaje profundo a través de un desafío de visión por computadora. Preimpresión en arXiv:2202.12031 (2022).

Ali, S. y col. Fusión de laparoscopia preoperatoria a intraoperatoria. https://doi.org/10.5281/zenodo.6362162 (2022).

Ali, S. Flujo óptico variacional total para un mosaico de imágenes de la vejiga robusto y preciso. Tesis doctoral, Universidad de Lorena (2016).

Ángeles Cerón, JC, Ruiz, GO, Chang, L. & Ali, S. Segmentación de instancias en tiempo real de instrumentos quirúrgicos mediante atención y fusión de características multiescala. Medicina. Imagen Anal. 81, 102569 (2022).

Artículo de Google Scholar

Descargar referencias

Me gustaría agradecer a la Escuela de Computación de la Facultad de Ingeniería y Ciencias Físicas de la Universidad de Leeds, Reino Unido, por apoyar esta investigación.

Escuela de Computación, Universidad de Leeds, LS2 9JT, Leeds, Reino Unido

Sharib Ali

También puedes buscar este autor en PubMed Google Scholar.

SA generó la idea, reunió todas las fuentes bibliográficas, planificó el esquema y escribió y editó el manuscrito.

Correspondencia a Sharib Ali.

El autor no declara intereses en competencia.

Nota del editor Springer Nature se mantiene neutral con respecto a reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso Abierto Este artículo está bajo una Licencia Internacional Creative Commons Attribution 4.0, que permite el uso, compartir, adaptación, distribución y reproducción en cualquier medio o formato, siempre y cuando se dé el crédito apropiado a los autores originales y a la fuente. proporcione un enlace a la licencia Creative Commons e indique si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la normativa legal o excede el uso permitido, deberá obtener permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Ali, S. ¿Dónde nos encontramos en la IA para el análisis de imágenes endoscópicas? Descifrando brechas y direcciones futuras. npj Dígito. Medicina. 5, 184 (2022). https://doi.org/10.1038/s41746-022-00733-3

Descargar cita

Recibido: 04 de julio de 2022

Aceptado: 29 de noviembre de 2022

Publicado: 20 de diciembre de 2022

DOI: https://doi.org/10.1038/s41746-022-00733-3

Cualquier persona con la que comparta el siguiente enlace podrá leer este contenido:

Lo sentimos, actualmente no hay un enlace para compartir disponible para este artículo.

Proporcionado por la iniciativa de intercambio de contenidos Springer Nature SharedIt