Generalización limitada de una única red neuronal profunda para la segmentación de instrumentos quirúrgicos en diferentes entornos quirúrgicos

Blog

HogarHogar / Blog / Generalización limitada de una única red neuronal profunda para la segmentación de instrumentos quirúrgicos en diferentes entornos quirúrgicos

Jun 11, 2024

Generalización limitada de una única red neuronal profunda para la segmentación de instrumentos quirúrgicos en diferentes entornos quirúrgicos

Scientific Reports volumen 12, Número de artículo: 12575 (2022) Cite este artículo 1042 Accesos 1 Citas 2 Detalles de métricas altmétricas Aclarando la generalización de las tecnologías basadas en aprendizaje profundo

Scientific Reports volumen 12, número de artículo: 12575 (2022) Citar este artículo

1042 Accesos

1 Citas

2 altmétrico

Detalles de métricas

Aclarar la generalización de las redes de segmentación de instrumentos quirúrgicos basadas en aprendizaje profundo en diversos entornos quirúrgicos es importante para reconocer los desafíos del sobreajuste en el desarrollo de dispositivos quirúrgicos. Este estudio evaluó exhaustivamente la generalización de la red neuronal profunda para la segmentación de instrumentos quirúrgicos utilizando 5238 imágenes extraídas aleatoriamente de 128 videos intraoperatorios. El conjunto de datos de vídeo contenía 112 casos de resección colorrectal laparoscópica, 5 de gastrectomía distal laparoscópica, 5 de colecistectomía laparoscópica y 6 de hepatectomía parcial laparoscópica. La segmentación de instrumentos quirúrgicos basada en aprendizaje profundo se realizó para conjuntos de prueba con (1) las mismas condiciones que el conjunto de entrenamiento; (2) el mismo instrumento quirúrgico objetivo de reconocimiento y tipo de cirugía pero diferentes sistemas de registro laparoscópico; (3) el mismo sistema de registro laparoscópico y tipo de cirugía, pero fórceps quirúrgicos laparoscópicos con objetivo de reconocimiento ligeramente diferente; (4) el mismo sistema de registro laparoscópico e instrumento quirúrgico de reconocimiento del objetivo pero diferentes tipos de cirugía. La precisión media media y la intersección media sobre la unión para los conjuntos de prueba 1, 2, 3 y 4 fueron 0,941 y 0,887, 0,866 y 0,671, 0,772 y 0,676, y 0,588 y 0,395, respectivamente. Por lo tanto, la precisión del reconocimiento disminuyó incluso en condiciones ligeramente diferentes. Los resultados de este estudio revelan la limitada generalización de las redes neuronales profundas en el campo de la inteligencia artificial quirúrgica y advierten contra los conjuntos de datos y modelos sesgados basados ​​en el aprendizaje profundo.

Número de registro de prueba: 2020-315, fecha de registro: 5 de octubre de 2020.

La cirugía mínimamente invasiva (MIS), incluida la cirugía robótica, se ha vuelto cada vez más común1. Para muchos procedimientos quirúrgicos se prefiere MIS que utiliza endoscopios para observar la anatomía interna porque se puede obtener un campo de visión quirúrgico ampliado a través del endoscopio. Además, los procedimientos quirúrgicos se pueden almacenar como datos de vídeo; por lo tanto, este enfoque facilita no solo la capacitación y la educación quirúrgica sino también la ciencia de datos quirúrgicos2, como la visión por computadora mediante el aprendizaje profundo.

La visión por computadora es un campo de investigación que describe la comprensión de imágenes y videos por parte de las máquinas, y avances significativos han dado como resultado que las máquinas alcancen capacidades a nivel humano en áreas como el reconocimiento de objetos y escenas3. El principal trabajo sanitario en visión por ordenador es el diagnóstico asistido por ordenador, como la detección de pólipos de colon4,5 y la detección de cáncer de piel6,7; sin embargo, la aplicación de la cirugía asistida por ordenador también se ha acelerado8,9. En particular, la segmentación de instrumentos quirúrgicos y el seguimiento de sus puntas son tecnologías subyacentes importantes porque pueden aplicarse a la evaluación de habilidades quirúrgicas10,11 y son esenciales para lograr una cirugía automática y autónoma12.

La segmentación es una tarea de visión por computadora en la que imágenes completas se dividen en grupos de píxeles que se pueden etiquetar y clasificar. En particular, la segmentación semántica intenta comprender semánticamente el papel de cada píxel en las imágenes13. La segmentación de instancias, que extiende la segmentación semántica, segmenta diferentes instancias de clases, es decir, etiqueta cinco individuos con cinco colores diferentes; por lo tanto, puede identificar los límites, las diferencias y las relaciones entre objetos para múltiples objetos superpuestos14.

Estos enfoques de visión por computadora tienen una gran aplicabilidad para el reconocimiento de instrumentos quirúrgicos en videos intraoperatorios para MIS y, en los últimos años, se han realizado numerosos esfuerzos para desarrollar la segmentación de instrumentos quirúrgicos15,16. Entre ellos, la Medical Image Computing and Computer Assisted Interventions Society ha realizado desafíos internacionales basados ​​en la precisión del reconocimiento para la segmentación de instrumentos quirúrgicos y el Endoscopic Vision Challenge15,17,18,19; Las nuevas redes neuronales profundas han batido el récord de precisión de segmentación de última generación. Sin embargo, estos esfuerzos se han realizado en conjuntos de datos de vídeo correspondientes al mismo tipo de cirugía utilizando un tipo fijo de instrumento quirúrgico y el mismo tipo de sistema de grabación laparoscópica, a diferencia de los entornos quirúrgicos del mundo real. En la práctica, existen muchas condiciones diferentes en situaciones quirúrgicas del mundo real. Por ejemplo, en diferentes hospitales se utilizan diferentes tipos de sistemas de registro laparoscópicos e instrumentos quirúrgicos laparoscópicos; Además, los dispositivos quirúrgicos se actualizan y sus formas cambian ligeramente cada pocos años. Al considerar las propiedades de propósito general de una única red de reconocimiento de instrumentos quirúrgicos, también es importante verificar la aplicabilidad de la red a otros tipos de cirugía, es decir, aclarar la diferencia en la precisión del reconocimiento cuando se desarrolló una red de reconocimiento. En base a los datos de un determinado tipo de cirugía se aplica a otro tipo de cirugía. Aunque tales condiciones relacionadas con la precisión del reconocimiento pueden aclarar que es importante construir un conjunto de datos de video intraoperatorio con diversidad, no se ha informado de ningún estudio exhaustivo sobre la generalización de una única red de reconocimiento de instrumentos quirúrgicos. Por lo tanto, los resultados de este estudio son importantes porque proporcionan información valiosa para el futuro desarrollo e implementación quirúrgica.

Este estudio tuvo como objetivo evaluar la generalización de una única red neuronal profunda para la segmentación integral de instrumentos quirúrgicos, aclarando así la diferencia en la precisión de la segmentación cuando se aplica una sola red a diferentes situaciones, como el tipo de sistema de registro laparoscópico, el reconocimiento del instrumento quirúrgico objetivo. y cirugía.

Esta investigación implicó un estudio observacional experimental retrospectivo utilizando un conjunto de datos de video intraoperatorio de cinco instituciones. Se utilizaron un total de 5238 imágenes, extraídas aleatoriamente de 128 vídeos intraoperatorios. Los criterios de selección de imágenes fueron que el instrumento quirúrgico objetivo debe ser claramente visible y se excluyeron las imágenes desenfocadas y/o con niebla. El conjunto de datos de vídeo contenía 112 casos de resección colorrectal laparoscópica (LCRR), 5 de gastrectomía distal laparoscópica (LDG), 5 de colecistectomía laparoscópica (LC) y 6 de hepatectomía parcial laparoscópica (LPH).

Este estudio siguió las directrices de presentación de informes Fortalecimiento de la presentación de informes de estudios observacionales en epidemiología (STROBE)20. El protocolo para este estudio fue revisado y aprobado por el Comité de Ética del National Cancer Center Hospital East, Chiba, Japón (N.º de registro: 2020-315). El consentimiento informado se obtuvo mediante una opción de exclusión voluntaria en el sitio web del estudio y se excluyeron los datos de quienes rechazaron participar. El estudio se conformó a lo dispuesto en la Declaración de Helsinki establecida en 1964 (y revisada en Brasil en 2013).

El conjunto de entrenamiento contenía 4074 imágenes, que se extrajeron aleatoriamente de 85 videos intraoperatorios de LCRR, y en cada imagen se capturó al menos uno de los siguientes tres tipos de instrumentos quirúrgicos: (T1) Harmonic Shears (Ethicon Inc., Somerville, Nueva Jersey, EE. UU.), (T2) electrocauterio quirúrgico endoscópico (Olympus Co., Ltd., Tokio, Japón) y (T3) pinzas universales atraumáticas Aesculap AdTec (B Braun AG, Melsungen, Alemania). En la figura 1A se muestran imágenes representativas de T1-3. Cada vídeo intraoperatorio se grabó utilizando un laparoscopio Endoeye (Olympus Co., Ltd., Tokio, Japón) y un sistema Visera Elite II (Olympus Co., Ltd, Tokio, Japón).

Imágenes representativas de reconocimiento apuntan a instrumentos quirúrgicos en este estudio. (A) Instrumentos quirúrgicos contenidos en el conjunto de entrenamiento (T1: tijeras armónicas; T2: electrocauterio quirúrgico endoscópico; T3: pinzas universales atraumáticas Aesculap AdTec). (B) Pinzas quirúrgicas laparoscópicas no contenidas en el conjunto de entrenamiento (T4: Maryland; T5: Croce-Olmi; T6: portaagujas).

El conjunto de validación contenía 345 imágenes de nueve vídeos intraoperatorios y las condiciones, que incluían el tipo de sistema de registro laparoscópico, el instrumento quirúrgico del objetivo de reconocimiento y la cirugía, fueron las mismas que las del conjunto de entrenamiento.

El conjunto de prueba 1 contenía 369 imágenes de 10 vídeos intraoperatorios y las condiciones fueron las mismas que las del conjunto de entrenamiento.

El conjunto de prueba 2 contenía 103 imágenes, incluidos instrumentos quirúrgicos extraídos de cinco vídeos intraoperatorios. Aunque el instrumento quirúrgico objetivo de reconocimiento y los tipos de cirugía fueron los mismos que los del conjunto de capacitación, los videos se grabaron utilizando diferentes tipos de sistemas laparoscópicos, incluido un sistema de cámara de 3 chips 1488 HD (Stryker Corp., Kalamazoo, MI, EE. UU.) y sistema de cámara Image 1 S (Karl Storz SE & Co., KG, Tuttlingen, Alemania).

El conjunto de prueba 3 contenía 124 imágenes que capturaban instrumentos quirúrgicos extraídos de tres videos intraoperatorios. Aunque el sistema de registro laparoscópico y los tipos de cirugía fueron los mismos que los del conjunto de entrenamiento, los tipos de objetivos de reconocimiento fueron los siguientes fórceps quirúrgicos laparoscópicos con formas de punta ligeramente diferentes a las del T3: (T4) Maryland (Olympus Co., Ltd., Tokio , Japón); (T5) Croce-Olmi (Karl Storz SE & Co., KG, Tuttlingen, Alemania); (T6) portaagujas (Karl Storz SE & Co., KG, Tuttlingen, Alemania). T4-T6 no se incluyeron en el conjunto de entrenamiento y probamos si podían reconocerse como T3. En la figura 1B se muestran imágenes representativas de T4-T6.

El conjunto de prueba 4 contenía 223 imágenes que capturaban instrumentos quirúrgicos extraídos de 16 vídeos intraoperatorios de diferentes tipos de cirugía, incluidos LDG, LC y LPH. Las otras condiciones, incluidos los tipos de sistema de registro laparoscópico y el instrumento quirúrgico de reconocimiento del objetivo, fueron las mismas que las del conjunto de entrenamiento.

Cada imagen incluida en cada conjunto para entrenamiento, validación y prueba capturó al menos un tipo de instrumento quirúrgico. Las características del conjunto de entrenamiento, el conjunto de validación y cada conjunto de prueba se resumen en la Tabla 1.

La anotación fue realizada por 14 personas no médicas bajo la supervisión de cirujanos, y los cirujanos verificaron dos veces todas las imágenes anotadas. Las etiquetas de anotación se asignaron manualmente píxel a píxel dibujando directamente en el área de cada instrumento quirúrgico en las imágenes utilizando Wacom Cintiq Pro (Wacom Co., Ltd., Saitama, Japón) y Wacom Pro Pen 2 (Wacom Co., Ltd. , Saitama, Japón). Las imágenes anotadas representativas se muestran en la figura complementaria 1.

Cada video intraoperatorio se convirtió al formato de video MP4 con una resolución de pantalla de 1280 × 720 píxeles y una velocidad de cuadros de 30 cuadros por segundo (fps), y no se realizó ni muestreo ascendente ni descendente.

La división de datos se realizó a nivel de caso en lugar de a nivel de cuadro; por lo tanto, ninguna imagen extraída de un vídeo intraoperatorio en el conjunto de entrenamiento apareció en los conjuntos de prueba.

Se utilizaron una red neuronal convolucional basada en regiones de máscara (R-CNN) con una convolución deformable14,21 y ResNet5022 como modelo de segmentación de instancias y red troncal, respectivamente, y cada imagen anotada en el conjunto de entrenamiento se ingresó en el modelo. La arquitectura del modelo y el flujo de trabajo de la red neuronal profunda se muestran en la figura complementaria 2. El peso de la red se inicializó a uno previamente entrenado en los conjuntos de datos ImageNet23 y COCO24, y luego se realizó un ajuste fino para el conjunto de entrenamiento. ImageNet es una gran base de datos visual diseñada para su uso en tareas de reconocimiento visual de objetos. Contiene más de 14 millones de imágenes con etiquetas de más de 20.000 categorías típicas, como “globo” y “fresa”. COCO es un conjunto de datos a gran escala para detección, segmentación y subtítulos de objetos. Contiene más de 120.000 imágenes con más de 880.000 instancias etiquetadas para 80 tipos de objetos.

El modelo fue entrenado y probado para distinguir entre T1, T2 y T3. Para el conjunto de pruebas 3, se probó el modelo para determinar si T4, T5 y T6 podían reconocerse como T3. Se seleccionó el mejor modelo de época según el rendimiento del modelo en el conjunto de validación. Se utilizaron volteos horizontales y verticales para aumentar los datos. Los hiperparámetros utilizados para el entrenamiento del modelo se enumeran en la Tabla complementaria 1.

El código se escribió utilizando Python 3.6 (Python Software Foundation, Wilmington, DE, EE. UU.) y el modelo se implementó en base a MMDetection25, que es una biblioteca Python de código abierto para la detección de objetos y la segmentación de instancias.

Para el entrenamiento de la red se utilizó una computadora equipada con una GPU NVIDIA Quadro GP100 con 16 GB de VRAM (NVIDIA, Santa Clara, CA, EE. UU.) y una CPU Intel® Xeon® E5-1620 v4 @ 3,50 GHz con 32 GB de RAM.

La intersección sobre la unión (IoU) y la precisión promedio (AP) se utilizaron como métricas para evaluar el desempeño del modelo para la tarea de segmentación de instrumentos quirúrgicos.

El IoU se calculó para cada par de X (el área anotada como verdad fundamental) e Y (área prevista por el modelo), que simplemente mide la superposición de las dos áreas divididas por su unión, de la siguiente manera:

El AP medio (mAP) es una métrica que se utiliza ampliamente para tareas de detección de objetos y segmentación de instancias23,24,26. Se calcula a partir del área bajo la curva de precisión-recuperación que se describe en función del número de verdaderos positivos (TP), falsos negativos (FN) y falsos positivos (FP). Los pares asignados de X e Y se definieron como TP y FN cuando su IoU era mayor y menor que 0,75, respectivamente, y se definieron como FP cuando no se pudieron asignar pares.

Para confirmar la reproducibilidad de los resultados, entrenamos cinco modelos para cada conjunto de prueba con diferentes semillas aleatorias e informamos las métricas promediadas de los cinco modelos como la media (± desviación estándar).

Comité de Ética del National Cancer Center Hospital East, Chiba, Japón (N.º de registro: 2020-315).

El consentimiento informado se obtuvo mediante la opción de exclusión voluntaria en el sitio web del estudio.

Los autores afirman que los participantes humanos de la investigación dieron su consentimiento informado para la publicación de las imágenes de las figuras.

Los resultados del conjunto de prueba 1 se muestran en la Fig. 2A. El mAP y el IoU medio (mIoU) para el conjunto de pruebas 1 fueron 0,941 (± 0,035) y 0,887 (± 0,012), respectivamente, y el AP y el IoU para T1, T2 y T3 fueron 0,958 y 0,892, 0,969, 0,895 y 0,895. y 0,876, respectivamente (Fig. 2A). Estos resultados se utilizaron como valores de control para comparación en este estudio.

Resultados de precisión del reconocimiento de instrumentos quirúrgicos (precisión promedio AP, intersección IoU sobre la unión, precisión promedio mAP, intersección media sobre la unión mIoU). (A) AP e IoU en las mismas condiciones que el conjunto de entrenamiento (T1: tijeras armónicas; T2: electrocauterio quirúrgico endoscópico; T3: pinzas universales atraumáticas Aesculap AdTec). (B) mAP y mIoU para diferentes tipos de sistemas de registro laparoscópicos. (C) AP e IoU para diferentes tipos de pinzas quirúrgicas laparoscópicas (T3: pinzas universales atraumáticas Aesculap AdTec; T4: Maryland; T5: Croce-Olmi; T6: portaagujas). (D) mAP y mIoU para diferentes tipos de cirugía (resección colorrectal laparoscópica LCRR, gastrectomía distal laparoscópica LDG, colecistectomía laparoscópica LC, hepatectomía parcial laparoscópica LPH).

El mAP y mIoU para el conjunto de pruebas 2 fueron 0,866 (± 0,035) y 0,671 (± 0,082), respectivamente. Estos resultados indican que cuando se utilizaron diferentes sistemas de registro laparoscópico, mAP y mIoU se deterioraron ligeramente en comparación con los valores de control, aunque las otras condiciones fueron las mismas que para el conjunto de entrenamiento. Los valores de mIAP y mIoU que se adquirieron al utilizar los sistemas de registro laparoscópico producidos por las cámaras Stryker y Karl Storz fueron 0,893 y 0,608 y 0,839 y 0,735, respectivamente (Fig. 2B). Las imágenes representativas registradas por cada sistema de registro laparoscópico se muestran en la Fig. 3. Cada tono de color es ligeramente diferente, incluso en la observación macroscópica.

Imágenes representativas registradas por cada sistema de registro laparoscópico. (A) Laparoscopio Endoeye (Olympus Co., Ltd., Tokio, Japón) y sistema Visera Elite II (Olympus Co., Ltd, Tokio, Japón). (B) Sistema de cámara 1488 HD de 3 chips (Stryker Corp., Kalamazoo, MI, EE. UU.). (C) Sistema de cámara Image 1 S (Karl Storz SE & Co., KG, Tuttlingen, Alemania).

El mAP y mIoU para el conjunto de pruebas 3 fueron 0,772 (± 0,062) y 0,676 (± 0,072), respectivamente. Aunque T4-T6 también se clasifican como fórceps quirúrgicos laparoscópicos en un sentido amplio, la precisión del reconocimiento de T4-T6 se deterioró en comparación con la de T3. El AP y el IoU para T4, T5 y T6 fueron 0,715 y 0,678, 0,756 y 0,592, y 0,846 y 0,758, respectivamente (Fig. 2C).

El mAP y mIoU para el conjunto de pruebas 4 fueron 0,588 (± 0,151) y 0,395 (± 0,127), respectivamente. Para un tipo diferente de cirugía, los valores de mAP y mIoU se deterioraron significativamente en comparación con los valores de control, aunque las otras condiciones fueron las mismas que para el conjunto de entrenamiento. El mAP y mIoU para LDG, LC y LPH fueron 0,782 y 0,565, 0,468 y 0,300, y 0,513 y 0,319, respectivamente (Fig. 2D). Las imágenes representativas de cada tipo de cirugía se muestran en la Fig. 4. Los instrumentos quirúrgicos en primer plano son los mismos, especialmente en LC y LPH; sin embargo, los antecedentes son significativamente diferentes del caso LCRR, incluso para la observación macroscópica.

Imágenes representativas de cada tipo de cirugía. (A) LCRR; (B) GDL; (C) CL; (D) LPH.

La precisión de la segmentación del instrumento quirúrgico y los resultados de segmentación representativos para cada conjunto de pruebas se muestran en la Tabla 2 y la Figura complementaria 3, respectivamente.

En este estudio, demostramos que nuestra red de segmentación de instrumentos quirúrgicos posee una alta precisión (mAP: 0,941, mIoU: 0,887). Sin embargo, la generalización de una única red neuronal profunda aplicada a la cirugía laparoscópica tiene limitaciones, es decir, un cambio menor en las condiciones de la cirugía laparoscópica afecta significativamente la precisión del reconocimiento del instrumento quirúrgico.

En primer lugar, estos resultados sugieren que el conjunto de datos de vídeo intraoperatorio registrado por un único sistema de grabación laparoscópica es insuficiente para generalizar una red neuronal profunda. La precisión del reconocimiento para el conjunto de prueba 2 se deterioró ligeramente porque el tono de color era ligeramente diferente entre las imágenes grabadas por cada sistema, aunque se capturaron los mismos objetos en cada imagen. En segundo lugar, debido a que existen numerosos tipos de instrumentos quirúrgicos, diferencias entre hospitales y actualizaciones de las versiones de dispositivos quirúrgicos producidas por cada empresa cada varios años, el conjunto de capacitación debe actualizarse a medida que cambian las líneas y versiones de dispositivos en los hospitales. En tercer lugar, incluso si se desarrolla con éxito una red de reconocimiento de instrumentos quirúrgicos de alta precisión para un tipo de cirugía, no se puede aplicar a otros tipos de cirugía con precisión similar. En particular, cuanto más diferente sea el fondo de la imagen del conjunto de entrenamiento, menor será la precisión del reconocimiento. En resumen, la diversidad en el conjunto de capacitación en términos del tipo de sistema de registro laparoscópico, tipos y versiones de instrumentos quirúrgicos y tipo de cirugía utilizada como imagen de fondo se consideran cruciales al aplicar una red neuronal profunda a la cirugía multiinstitucional en un entorno quirúrgico del mundo real.

Varios académicos anteriores han investigado la generalización de las redes neuronales profundas, específicamente, el llamado "cambio de dominio", que se refiere al entrenamiento de una red con datos de un dominio y su aplicación a datos de otro. Zech et al. investigaron el entrenamiento de una CNN para la detección de neumonía en radiografías de tórax generalizadas a nuevas cohortes, e identificaron un rendimiento significativamente menor cuando la red se aplicó a imágenes de rayos X recopiladas de hospitales que no estaban incluidos en el conjunto de entrenamiento27. Investigadores anteriores han investigado el rendimiento del reconocimiento de imágenes de resonancia magnética (MRI) cerebral basada en CNN y han demostrado que el rendimiento de una CNN entrenada con imágenes de MRI de cohortes de investigación homogéneas generalmente disminuye cuando se aplica a otras cohortes28,29. Sin embargo, hasta donde sabemos, el presente estudio es el primero en el que se ha investigado exhaustivamente la generalización de una única red neuronal profunda para la segmentación de instrumentos quirúrgicos.

El reconocimiento automático de instrumentos quirúrgicos se puede aplicar a los dos campos de investigación principales siguientes: robótica y evaluación de habilidades. El servovisual está "controlado activamente", lo que significa que utiliza información visual para controlar la postura del efector final del robot en relación con un objeto objetivo30. Los robots portalaparoscopios con servovisión visual pueden ayudar a los cirujanos a concentrarse plenamente en la tarea quirúrgica. En los robots portalaparoscopios, la clave para la servovisión visual es la estructura de seguimiento sin marcadores de los instrumentos quirúrgicos31,32. Por lo tanto, en el futuro del campo quirúrgico, la tecnología de reconocimiento automático de instrumentos quirúrgicos desempeñará un papel fundamental en el desarrollo de robots portalaparoscopios y la realización de MIS autónomos. Se han utilizado herramientas de evaluación de habilidades quirúrgicas, como la Evaluación Estructurada Objetiva de Habilidades Técnicas33 y la Evaluación Operativa Global de Habilidades Laparoscópicas34, para evaluar objetivamente las habilidades quirúrgicas básicas de los aprendices de cirugía; sin embargo, estas herramientas se basan en las observaciones y juicios de un individuo35, que están inevitablemente asociados con la subjetividad y el sesgo. Por lo tanto, en los últimos años ha atraído la atención la evaluación automática, justa y objetiva de las habilidades quirúrgicas sin un proceso de revisión de vídeo que requiere mucho tiempo. El reconocimiento automático de instrumentos quirúrgicos también desempeña un papel fundamental en la extracción de datos cinemáticos asociados con las habilidades quirúrgicas en MIS.

En la investigación supervisada de aprendizaje profundo, el gasto y el consumo de tiempo del proceso de anotación manual utilizado para construir conjuntos de datos a gran escala que son representativos de entornos del mundo real son limitaciones importantes. Además, incluso si se desarrolla una red neuronal profunda que pueda demostrar un alto rendimiento en condiciones específicas para una tarea de segmentación de instrumentos quirúrgicos, su utilidad es limitada porque las condiciones reales son diversas y variables, y es casi imposible considerarlas todas. Por lo tanto, aclarar las condiciones a las que se puede aplicar una única red de segmentación de instrumentos quirúrgicos es muy importante para el desarrollo y la implementación futuros en términos de reducir el costo y el tiempo de anotación. Debido a que los resultados de este estudio demostraron que incluso cambios leves en el fondo de la imagen afectan la precisión del reconocimiento del instrumento quirúrgico, no se recomienda la omisión del paso de anotación. Teniendo en cuenta las características de las redes neuronales profundas, especialmente los enfoques de reconocimiento de imágenes basados ​​en CNN en los que se intenta extraer características de cada píxel de una imagen, estos resultados parecen razonables. Sin embargo, podría ser posible eliminar las horas de trabajo necesarias para la anotación mediante la introducción de una red de segmentación semisupervisada incluso en diferentes entornos quirúrgicos, y esto debería verificarse en estudios futuros.

Existen varias limitaciones en este estudio. En primer lugar, el objetivo de este estudio fue aclarar cómo la generalización de las redes neuronales profundas era limitada en el campo de la investigación de la inteligencia artificial quirúrgica, y también implicaba precaución contra conjuntos de datos sesgados y modelos basados ​​en ellos. La generalización puede mejorarse introduciendo diferentes métodos de aumento de datos o diferentes arquitecturas de modelos; sin embargo, debido a que no era el objetivo principal de este estudio, no se consideró. En segundo lugar, aunque el conjunto de datos de vídeo utilizado en este estudio contenía datos multiinstitucionales relativamente grandes, fue un estudio observacional experimental retrospectivo y no se realizó una validación prospectiva. Además, debido a que el conjunto de datos contenía solo imágenes con instrumentos quirúrgicos, la FP en imágenes sin instrumentos quirúrgicos no se reflejó en los resultados. En tercer lugar, aunque los resultados del estudio se consideran puntos de referencia muy importantes para futuras investigaciones y desarrollo utilizando redes neuronales profundas en cirugía, no proporcionan ningún beneficio clínico directo por el momento porque todavía estamos en la fase inicial.

En conclusión, en una tarea de segmentación de instrumentos quirúrgicos, la generalización de una única red neuronal profunda es limitada, es decir, la precisión del reconocimiento se deteriora incluso en condiciones ligeramente diferentes. En consecuencia, para mejorar la capacidad de generalización de una red neuronal profunda, es crucial construir un conjunto de entrenamiento que considere la diversidad del entorno quirúrgico en un entorno quirúrgico del mundo real.

Los conjuntos de datos generados y analizados durante el presente estudio están disponibles del autor correspondiente previa solicitud razonable.

Disponible a través de GitHub previa solicitud razonable.

Siddaiah-Subramanya, M., Tiang, KW y Nyandowe, M. Una nueva era de cirugía mínimamente invasiva: progreso y desarrollo de importantes innovaciones técnicas en cirugía general durante la última década. Cirugía. J. (Nueva York) 3, e163 – e166 (2017).

Artículo de Google Scholar

Maier-Hein, L. et al. Ciencia de datos quirúrgicos para intervenciones de próxima generación. Nat. Biomédica. Ing. 1, 691–696 (2017).

Artículo de Google Scholar

Hashimoto, DA, Rosman, G., Rus, D. & Meireles, O Inteligencia artificial en cirugía: promesas y peligros. Ana. Cirugía. 268, 70–76 (2018).

Artículo de Google Scholar

Mori, Y. et al. Uso en tiempo real de inteligencia artificial en la identificación de pólipos diminutos durante la colonoscopia: un estudio prospectivo. Ana. Interno. Medicina. 169, 357–366 (2018).

Artículo de Google Scholar

Li, C. y col. Desarrollo y validación de un modelo de aprendizaje profundo basado en imágenes endoscópicas para la detección de neoplasias malignas nasofaríngeas. Comunidad Cáncer. (Londres) 38, 59 (2018).

Artículo de Google Scholar

Dascalu, A. & David, EO Detección de cáncer de piel mediante algoritmos de análisis de sonido y aprendizaje profundo: un estudio clínico prospectivo de un dermatoscopio elemental. EBioMedicine 43, 107-113 (2019).

Artículo CAS Google Scholar

Phillips, M. y col. Evaluación de la precisión de un algoritmo de inteligencia artificial para detectar melanoma en imágenes de lesiones cutáneas. Red JAMA. Abierto 2, e1913436 (2019).

Artículo de Google Scholar

Hashimoto, DA y cols. Análisis de visión por computadora de video intraoperatorio: reconocimiento automatizado de los pasos quirúrgicos en la gastrectomía en manga laparoscópica. Ana. Cirugía. 270, 414–421 (2019).

Artículo de Google Scholar

Ward, TM y cols. Identificación automatizada de la fase operativa en miotomía endoscópica peroral. Cirugía. Endosc. 35, 4008–4015 (2021).

Artículo de Google Scholar

Lee, D. y col. Evaluación de habilidades quirúrgicas durante la cirugía robótica mediante seguimiento de múltiples instrumentos quirúrgicos basado en aprendizaje profundo en entrenamiento y operaciones reales. J.Clin. Medicina. 9, 1964 (2020).

Artículo de Google Scholar

Levin, M., McKechnie, T., Khalid, S., Grantcharov, TP y Goldenberg, M. Métodos automatizados de evaluación de habilidades técnicas en cirugía: una revisión sistemática. J. Cirugía. Educativo. 76, 1629-1639 (2019).

Artículo de Google Scholar

Zhang, J. & Gao, X. Extracción de objetos mediante un marco de seguimiento sin marcadores basado en aprendizaje profundo de instrumentos quirúrgicos para robots portalaparoscopios. En t. J. Computación. Asistir. Radiol. Cirugía. 15, 1335-1345 (2020).

Artículo de Google Scholar

Shelhamer, E., Long, J. y Darrell, T. Redes totalmente convolucionales para segmentación semántica. Traducción IEEE. Patrón Anal. Mach. Intel. 39, 640–651 (2017).

Artículo de Google Scholar

Él, K., Gkioxari, G., Dollar, P. y Girshick, R. Mask R-CNN. Traducción IEEE. Patrón Anal. Mach. Intel. 42, 386–397 (2020).

Artículo de Google Scholar

Hasan, SMK & Linte, CA U-NetPlus: una arquitectura U-Net codificadora-decodificadora modificada para la segmentación semántica y de instancias de instrumentos quirúrgicos a partir de imágenes laparoscópicas. Biol. Soc. Año. En t. Conf. Ing. IEEE. Medicina. 2019, 7205–7211 (2019).

Google Académico

Kanakatte, A., Ramaswamy, A., Gubbi, J., Ghose, A. y Purushothaman, B. Segmentación y localización de herramientas quirúrgicas utilizando una red profunda espacio-temporal. Año. En t. Conf. Ing. IEEE. Medicina. Biol. Soc. Año. En t. Conf. Ing. IEEE. 2020, 1658–1661 (2020).

Google Académico

Ni, ZL y col. RASNet: Segmentación para el seguimiento de instrumentos quirúrgicos en videos quirúrgicos utilizando una red de segmentación de atención refinada. En t. Conf. Ing. IEEE. Medicina. Biol. Soc. Año. En t. Conf. Ing. IEEE. 2019, 5735–5738 (2019).

Google Académico

Du, X. y col. Estimación de pose 2-D de múltiples instrumentos articulados utilizando redes totalmente convolucionales. Traducción IEEE. Medicina. Imágenes 37, 1276–1287 (2018).

Artículo de Google Scholar

Zhao, Z., Cai, T., Chang, F. y Cheng, X. Detección de instrumentos quirúrgicos en tiempo real en cirugía asistida por robot utilizando una cascada de redes neuronales convolucionales. Saludc. Tecnología. Letón. 6, 275–279 (2019).

Artículo de Google Scholar

Von Elm, E. y col. Declaración sobre el fortalecimiento de la presentación de informes de estudios observacionales en epidemiología (STROBE): Directrices para informar estudios observacionales. En t. J. Cirugía. 12, 1495-1499 (2014).

Artículo de Google Scholar

Dai, J. et al., (2017). Redes convolucionales deformables en Proc. ICCV 764–773.

Él, K., Zhang, X., Ren, S. y Sun, J., (2016). Aprendizaje residual profundo para el reconocimiento de imágenes. Proc. Conferencia IEEE. CVPR 770–778.

Russakovsky, O. y col. Desafío de reconocimiento visual a gran escala de ImageNet. En t. J. Computación. Vis. 115, 211–252 (2015).

Artículo MathSciNet Google Scholar

Lin, TY y cols. Microsoft COCO: objetos comunes en contexto. Apuntes de conferencias sobre informática. Proc. IEEE ECCV, 740–755 (2014).

Chen, K. y col. MMDetection: abra la caja de herramientas de detección de MMLab y realice pruebas comparativas. arXiv:1906.07155 (2019).

Everingham, M., Van Gool, L., Williams, CKI, Winn, J. y Zisserman, A. El desafío de las clases de objetos visuales (VOC) de Pascal. En t. J. Computación. Vis. 88, 303–338 (2010).

Artículo de Google Scholar

Zech, J.R. et al. Rendimiento de generalización de variables de un modelo de aprendizaje profundo para detectar neumonía en radiografías de tórax: un estudio transversal. PLoS Med. 15, e1002683 (2018).

PubMed PubMed Central Google Académico

AlBadawy, EA, Saha, A. y Mazurowski, MA Aprendizaje profundo para la segmentación de tumores cerebrales: impacto de la capacitación y las pruebas interinstitucionales. Medicina. Física. 45, 1150-1158 (2018).

Artículo de Google Scholar

Mårtensson, G. et al. La confiabilidad de un modelo de aprendizaje profundo en datos clínicos de resonancia magnética fuera de distribución: un estudio de múltiples cohortes. Medicina. Imagen Anal. 66, 101714 (2020).

Artículo de Google Scholar

Hutchinson, S., Hager, GD y Corke, PI Un tutorial sobre servocontrol visual. Traducción IEEE. Robot. Aparato mecánico. 12, 651–670 (1996).

Artículo de Google Scholar

Uecker, DR, Lee, C., Wang, YF y Wang, Y. Seguimiento automatizado de instrumentos en cirugía laparoscópica asistida por robot. J. Guía de imágenes. Cirugía. 1, 308–325 (1995).

3.0.CO;2-E" data-track-action="article reference" href="https://doi.org/10.1002%2F%28SICI%291522-712X%281995%291%3A6%3C308%3A%3AAID-IGS3%3E3.0.CO%3B2-E" aria-label="Article reference 31" data-doi="10.1002/(SICI)1522-712X(1995)1:63.0.CO;2-E">Artículo CAS Google Scholar

Ko, SY, Kim, J., Kwon, DS y Lee, WJ Interacción inteligente entre el cirujano y el sistema de robot asistente laparoscópico. ROMANO. IEEE Internacional. Funciona Robot Hum. Interactuar. Comunitario. 20, 60–65 (2005).

Google Académico

Martín, JA et al. Evaluación objetiva estructurada de habilidades técnicas (OSATS) para residentes de cirugía. Hno. J. Cirugía. 84, 273–278 (1997).

CAS PubMed Google Académico

Vassiliou, MC y cols. Una herramienta de evaluación global para la evaluación de habilidades laparoscópicas intraoperatorias. Soy. J. Cirugía. 190, 107-113 (2005).

Artículo de Google Scholar

Gofton, WT, Dudek, NL, Wood, TJ, Balaa, F. y Hamstra, SJ Evaluación de la competencia quirúrgica en el quirófano de Ottawa (O-SCORE): una herramienta para evaluar la competencia quirúrgica. Acad. Medicina. 87, 1401-1407 (2012).

Artículo de Google Scholar

Descargar referencias

Oficina de Innovación de Dispositivos Quirúrgicos, National Cancer Center Hospital East, 6-5-1, Kashiwanoha, Kashiwa, Chiba, 277-8577, Japón

Daichi Kitaguchi, Toru Fujino, Nobuyoshi Takeshita, Hiro Hasegawa y Masaaki Ito

Departamento de Cirugía Colorrectal, National Cancer Center Hospital East, 6-5-1, Kashiwanoha, Kashiwa, Chiba, 277-8577, Japón

Daichi Kitaguchi, Nobuyoshi Takeshita, Hiro Hasegawa y Masaaki Ito

Escuela de Graduados en Informática, Universidad de Nagoya, Furo-cho, Chikusa-ku, Nagoya, Aichi, 464-8601, Japón

Kensaku Mori

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

Todos los autores contribuyeron a la concepción y diseño del estudio. La preparación del material, la recopilación de datos y el análisis fueron realizados por DK, TF, NT, HH y MI. El primer borrador del manuscrito fue escrito por DK y todos los autores comentaron las versiones anteriores del manuscrito. Todos los autores leyeron y aprobaron el manuscrito final.

Correspondencia a Masaaki Ito.

Los autores declaran no tener conflictos de intereses.

Springer Nature se mantiene neutral con respecto a reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso Abierto Este artículo está bajo una Licencia Internacional Creative Commons Attribution 4.0, que permite el uso, compartir, adaptación, distribución y reproducción en cualquier medio o formato, siempre y cuando se dé el crédito apropiado al autor(es) original(es) y a la fuente. proporcione un enlace a la licencia Creative Commons e indique si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la normativa legal o excede el uso permitido, deberá obtener permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Kitaguchi, D., Fujino, T., Takeshita, N. et al. Generalización limitada de una única red neuronal profunda para la segmentación de instrumentos quirúrgicos en diferentes entornos quirúrgicos. Representante científico 12, 12575 (2022). https://doi.org/10.1038/s41598-022-16923-8

Descargar cita

Recibido: 09 de septiembre de 2021

Aceptado: 18 de julio de 2022

Publicado: 22 de julio de 2022

DOI: https://doi.org/10.1038/s41598-022-16923-8

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, actualmente no hay un enlace para compartir disponible para este artículo.

Proporcionado por la iniciativa de intercambio de contenidos Springer Nature SharedIt

Al enviar un comentario, acepta cumplir con nuestros Términos y pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.