Un transformador de visión para decodificar la actividad del cirujano a partir de vídeos quirúrgicos.

Blog

HogarHogar / Blog / Un transformador de visión para decodificar la actividad del cirujano a partir de vídeos quirúrgicos.

Jun 04, 2024

Un transformador de visión para decodificar la actividad del cirujano a partir de vídeos quirúrgicos.

Nature Biomedical Engineering volumen 7, páginas 780–796 (2023)Cite este artículo 10k Accesos 8 Citas 140 Detalles de Altmetric Metrics La actividad intraoperatoria de un cirujano tiene un impacto sustancial en

Nature Biomedical Engineering volumen 7, páginas 780–796 (2023)Cite este artículo

10k Accesos

8 citas

140 altmétrico

Detalles de métricas

La actividad intraoperatoria de un cirujano tiene un impacto sustancial en los resultados postoperatorios. Sin embargo, para la mayoría de los procedimientos quirúrgicos, no se comprenden bien los detalles de las acciones quirúrgicas intraoperatorias, que pueden variar ampliamente. Aquí presentamos un sistema de aprendizaje automático que aprovecha un transformador de visión y un aprendizaje contrastivo supervisado para la decodificación de elementos de la actividad quirúrgica intraoperatoria a partir de videos comúnmente recopilados durante las cirugías robóticas. El sistema identificó con precisión los pasos quirúrgicos, las acciones realizadas por el cirujano, la calidad de estas acciones y la contribución relativa de los fotogramas de vídeo individuales a la decodificación de las acciones. A través de pruebas exhaustivas con datos de tres hospitales diferentes ubicados en dos continentes diferentes, mostramos que el sistema se generaliza a través de videos, cirujanos, hospitales y procedimientos quirúrgicos, y que puede proporcionar información sobre gestos y habilidades quirúrgicas a partir de videos sin anotaciones. La decodificación de la actividad intraoperatoria a través de sistemas precisos de aprendizaje automático podría usarse para proporcionar a los cirujanos retroalimentación sobre sus habilidades operativas y puede permitir la identificación del comportamiento quirúrgico óptimo y el estudio de las relaciones entre los factores intraoperatorios y los resultados posoperatorios.

El objetivo general de la cirugía es mejorar los resultados posoperatorios de los pacientes1,2. Recientemente se demostró que tales resultados están fuertemente influenciados por la actividad quirúrgica intraoperatoria3, es decir, qué acciones realiza un cirujano durante un procedimiento quirúrgico y qué tan bien se ejecutan esas acciones. Sin embargo, para la gran mayoría de los procedimientos quirúrgicos, sigue siendo difícil lograr una comprensión detallada de la actividad quirúrgica intraoperatoria. Este escenario es muy común en otros campos de la medicina, donde los factores que impulsan ciertos resultados en los pacientes aún no se han descubierto o se manifiestan de manera diferente. El status quo dentro de la cirugía es que la actividad quirúrgica intraoperatoria simplemente no se mide. Esta falta de medición hace que sea difícil capturar la variabilidad en la forma en que se realizan los procedimientos quirúrgicos a través del tiempo, cirujanos y hospitales, probar hipótesis que asocian la actividad intraoperatoria con los resultados de los pacientes y proporcionar a los cirujanos retroalimentación sobre su técnica operativa.

La actividad quirúrgica intraoperatoria se puede decodificar a partir de vídeos recopilados habitualmente durante procedimientos quirúrgicos asistidos por robot. Dicha decodificación proporciona información sobre qué pasos del procedimiento (como la disección de tejido y la sutura) se realizan a lo largo del tiempo, cómo se ejecutan esos pasos (por ejemplo, a través de un conjunto de acciones o gestos discretos) por parte del cirujano y la calidad con la que se ejecutan. se ejecutan (es decir, dominio de una habilidad; Fig. 1). Actualmente, si se llegara a decodificar un vídeo, sería mediante un análisis retrospectivo manual por parte de un cirujano experto. Sin embargo, este enfoque impulsado por humanos es subjetivo, ya que depende de la interpretación de la actividad por parte del cirujano revisor; poco confiable, ya que supone que un cirujano está al tanto de toda la actividad intraoperatoria; e inescalable, ya que requiere la presencia de un cirujano experto y una gran cantidad de tiempo y esfuerzo. Estas suposiciones son particularmente irrazonables cuando no hay cirujanos expertos disponibles (como en entornos de bajos recursos) y ya tienen poco tiempo. Como tal, existe una necesidad apremiante de decodificar la actividad quirúrgica intraoperatoria de una manera objetiva, confiable y escalable.

a, Los videos quirúrgicos comúnmente recopilados durante las cirugías robóticas se decodifican a través de SAIS en múltiples elementos de la actividad quirúrgica intraoperatoria: qué realiza un cirujano, como las subfases de sutura del manejo de la aguja, la conducción y la extracción de la aguja, y cómo ejecuta esa actividad. un cirujano, por ejemplo a través de gestos discretos y en diferentes niveles de habilidad. b, SAIS es un sistema unificado ya que la misma arquitectura se puede utilizar para decodificar de forma independiente diferentes elementos de la actividad quirúrgica, desde el reconocimiento de subfases hasta la clasificación de gestos y la evaluación de habilidades.

Dadas estas limitaciones, se han utilizado tecnologías emergentes como la inteligencia artificial (IA) para identificar la actividad quirúrgica4, los gestos5, los niveles de habilidad del cirujano6,7 y los movimientos de los instrumentos8 exclusivamente a partir de vídeos. Sin embargo, estas tecnologías se limitan a decodificar solo un elemento de la actividad quirúrgica intraoperatoria a la vez (como solo gestos), lo que limita su utilidad. Estas tecnologías rara vez se evalúan rigurosamente, por lo que sigue siendo una cuestión abierta si se generalizan o funcionan bien en nuevos entornos, como videos no vistos de diferentes cirujanos, procedimientos quirúrgicos y hospitales. Una evaluación tan rigurosa es fundamental para garantizar el desarrollo de sistemas de IA seguros y confiables.

En este estudio, proponemos un sistema de IA quirúrgico unificado (SAIS) que decodifica múltiples elementos de la actividad quirúrgica intraoperatoria a partir de videos recopilados durante la cirugía. A través de una evaluación rigurosa de datos de tres hospitales, mostramos que SAIS decodifica de manera confiable múltiples elementos de la actividad intraoperatoria, desde los pasos quirúrgicos realizados hasta los gestos que se ejecutan y la calidad con la que los ejecuta un cirujano. Esta decodificación confiable se mantiene independientemente de si los videos son de diferentes procedimientos quirúrgicos y de diferentes cirujanos en todos los hospitales. También mostramos que SAIS decodifica dichos elementos de manera más confiable que los sistemas de inteligencia artificial de última generación, como Inception3D (I3D; ref. 6), que se han desarrollado para decodificar un solo elemento (como la habilidad del cirujano). También mostramos que SAIS, a través de la implementación en videos quirúrgicos sin anotaciones realizadas por humanos, proporciona información sobre la actividad quirúrgica intraoperatoria, como su calidad a lo largo del tiempo, que de otro modo no habría estado disponible para un cirujano. A través de una evaluación cualitativa, demostramos que SAIS proporciona un razonamiento preciso detrás de su decodificación de la actividad intraoperatoria. Con estas capacidades, ilustramos cómo se puede utilizar SAIS para proporcionar a los cirujanos información práctica sobre cómo modular su comportamiento quirúrgico intraoperatorio.

Decodificamos el "qué" de la cirugía asignando a SAIS la tarea de distinguir entre tres subfases quirúrgicas: manipulación de la aguja, conducción de la aguja y retirada de la aguja (Fig. 1). Para todos los experimentos, entrenamos a SAIS con muestras de video exclusivamente de la Universidad del Sur de California (USC) (Tabla 1). En Métodos se proporciona una descripción de los procedimientos quirúrgicos y las subfases.

Implementamos SAIS en el conjunto de prueba de muestras de video de USC y presentamos las curvas de características operativas del receptor (ROC) estratificadas de acuerdo con las tres subfases (Fig. 2a). Observamos que SAIS decodifica de manera confiable subfases quirúrgicas con un área bajo la curva característica operativa del receptor (AUC) de 0,925, 0,945 y 0,951, para la conducción, manipulación y retirada de la aguja, respectivamente. También descubrimos que SAIS puede decodificar cómodamente los pasos de alto nivel de la cirugía, como la sutura y la disección (Nota complementaria 3 y Figura complementaria 2).

a – c, SAIS se entrena con muestras de video exclusivamente de USC y se evalúa con las de USC (a), SAH (b) y HMH (c). Los resultados se muestran como un promedio (±1 desviación estándar) de diez pasos de validación cruzada de Monte Carlo. d, Entrenamos variantes de SAIS para cuantificar el beneficio marginal de sus componentes en su PPV. Eliminamos el aumento del tiempo de prueba ('sin TTA'), los fotogramas RGB ('sin RGB'), los mapas de flujo ('sin flujo') y el mecanismo de autoatención ('sin SA'). Descubrimos que el mecanismo de atención y la entrada de modalidad múltiple (RGB y flujo) son los que más contribuyen al PPV. e, Comparamos SAIS con un modelo I3D al decodificar subfases de videos VUA completos sin supervisión humana. Cada cuadro refleja los cuartiles de los resultados y los bigotes se extienden hasta 1,5 veces el rango intercuartil.

Para determinar si SAIS puede generalizarse a cirujanos invisibles en distintos hospitales, lo implementamos en muestras de video del Hospital St. Antonius (SAH) (Fig. 2b) y del Hospital Metodista de Houston (HMH) (Fig. 2c). Encontramos que SAIS continuó sobresaliendo con AUC ≥0,857 para todas las subfases y en todos los hospitales.

Implementamos SAIS para decodificar subfases de videos completos del paso de sutura de la anastomosis vesicouretral (VUA) (20 minutos de duración) sin ninguna supervisión humana (sección de inferencia en Métodos). Presentamos la puntuación F110 (Fig. 2e), una métrica comúnmente reportada9, y contextualizamos su desempeño en relación con el de una red I3D de última generación6. Descubrimos que SAIS decodifica subfases quirúrgicas de manera más confiable que I3D, y estos modelos alcanzan F110 de 50 y 40, respectivamente.

Para apreciar mejor el grado en que los componentes de SAIS contribuyeron a su desempeño general, entrenamos variantes de SAIS, después de haber eliminado o modificado estos componentes (sección de ablación en Métodos), e informamos su valor predictivo positivo (VPP) al decodificar el procedimiento quirúrgico. subfases (Fig. 2d).

Descubrimos que el mecanismo de autoatención (SA) fue el que más contribuyó al desempeño de SAIS, donde su ausencia resultó en un ∆VPP de aproximadamente −20. Este hallazgo implica que capturar la relación y el orden temporal de los fotogramas es fundamental para decodificar la actividad quirúrgica intraoperatoria. También observamos que la entrada de modalidad dual (rojo-verde-azul, o RGB, cuadros y flujo) tiene una mayor contribución al rendimiento que usar cualquiera de las modalidades de datos por sí sola. Al eliminar los fotogramas RGB ('sin RGB') o el flujo óptico ('sin flujo'), el modelo exhibió un ∆PPV promedio de aproximadamente −3 en relación con la implementación de referencia. Este hallazgo sugiere que estas dos modalidades son complementarias entre sí. Por lo tanto, utilizamos el modelo de referencia (SAIS) para todos los experimentos posteriores.

En la sección anterior, mostramos la capacidad de SAIS para decodificar subfases quirúrgicas (el "qué" de la cirugía) y generalizar a muestras de video de cirujanos invisibles en distintos hospitales, y también cuantificamos el beneficio marginal de sus componentes mediante un estudio de ablación. En esta sección, examinamos la capacidad de SAIS para decodificar gestos quirúrgicos (el "cómo" de la cirugía) realizados durante las actividades de sutura y disección de tejido (la descripción de gestos y actividades se proporciona en Métodos). Para la actividad de sutura (VUA), entrenamos a SAIS para distinguir entre cuatro gestos de sutura discretos: derecha derecha debajo (R1), derecha derecha arriba (R2), derecha izquierda debajo (L1) y derecha combinada arriba (C1). Para la actividad de disección, conocida como conservación de nervios (NS), entrenamos a SAIS para distinguir entre seis gestos de disección discretos: corte en frío (c), gancho (h), clip (k), movimiento de cámara (m), pelado (p). y retracción (r). Observamos que la capacitación se realizó con muestras de video exclusivamente de la USC.

Implementamos SAIS en el conjunto de prueba de muestras de video de USC y presentamos las curvas ROC estratificadas según los gestos de sutura discretos (Fig. 3a) y los gestos de disección (Fig. 3b). Hay dos conclusiones principales aquí. Primero, observamos que SAIS puede generalizarse bien tanto a gestos de sutura como de disección en videos invisibles. Esto se demuestra por el alto AUC logrado por SAIS en todos los gestos. Por ejemplo, en la actividad de sutura, el AUC fue de 0,837 y 0,763 para los gestos de derecha derecha bajo (R1) y de derecha combinada sobre (C1), respectivamente. En la actividad de disección, el AUC fue de 0,974 y 0,909 para los gestos de clip (k) y movimiento de cámara (m), respectivamente. Estos hallazgos son un buen augurio para la posible implementación de SAIS en videos invisibles para los cuales las anotaciones de gestos reales no están disponibles, una vía que exploramos en una sección posterior. En segundo lugar, encontramos que el desempeño de SAIS difiere según los gestos. Por ejemplo, en la actividad de disección, el AUC fue de 0,701 y 0,974 para los gestos de retracción (r) y clip (k), respectivamente. Nuestra hipótesis es que el buen desempeño de SAIS para este último se debe a la clara presencia visual de un clip en el campo de visión quirúrgico. Por otro lado, la ubicuidad de los gestos de retracción en el campo de visión quirúrgico podría ser una fuente de la capacidad relativamente menor de SAIS para decodificar las retracciones, como se explica a continuación. La retracción a menudo se anota como tal cuando la realiza activamente la mano dominante del cirujano. Sin embargo, como gesto central que se utiliza, por ejemplo, para mejorar la visualización del campo quirúrgico por parte de un cirujano, una retracción a menudo complementa otros gestos. Como tal, puede ocurrir simultáneamente con otros gestos del modelo y, por lo tanto, confundirse con ellos.

a, SAIS está capacitado y evaluado con los datos de VUA exclusivamente de la USC. Los gestos de sutura son golpe de derecha debajo (R1), golpe de derecha derecha arriba (R2), golpe de derecha izquierda debajo (L1) y golpe de derecha combinado arriba (C1). b – d, SAIS se entrena con los datos de NS exclusivamente de USC y se evalúa con los datos de NS de USC (b), los datos de NS de SAH (c) y los datos de HD de USC (d). Los gestos de disección son corte en frío (c), gancho (h), clip (k), movimiento de cámara (m), pelado (p) y retracción (r). Tenga en cuenta que los clips (k) no se utilizan durante el paso HD. Los resultados se muestran como un promedio (±1 desviación estándar) de diez pasos de validación cruzada de Monte Carlo. e, Proporción de gestos previstos identificados como correctos (precisión) estratificados según la ubicación anatómica del haz neurovascular en el que se realiza el gesto. f, Perfil de gesto donde cada fila representa un gesto distinto y cada línea vertical representa la aparición de ese gesto en un momento particular. SAIS identificó una secuencia de gestos (gancho, clip y corte en frío) que se espera en el paso NS de los procedimientos RARP, y descubrió un comportamiento atípico de un gesto de movimiento de cámara más largo de lo normal correspondiente a la extracción, inspección y reinserción de la cámara en el cuerpo del paciente.

Para medir el grado en que SAIS puede generalizarse a cirujanos invisibles en un hospital distinto, lo implementamos en muestras de video de SAH (Fig. 3c y recuento de muestras de video en la Tabla 1). Descubrimos que SAIS continúa funcionando bien en ese entorno. Por ejemplo, el AUC fue 0,899 y 0,831 para los gestos de movimiento de la cámara (m) y clip (k), respectivamente. Es importante destacar que este hallazgo sugiere que SAIS se puede implementar de manera confiable en datos con varias fuentes de variabilidad (cirujano, hospital, etc.). Esperábamos, y de hecho observamos, una ligera degradación en el rendimiento en esta configuración en relación con cuando se implementó SAIS en muestras de video de la USC. Por ejemplo, el AUC fue de 0,823 → 0,702 para el gesto del embutido (c) en los datos de USC y SAH, respectivamente. Esto se esperaba debido al posible cambio en la distribución de los datos recopilados entre los dos hospitales, que se ha documentado que afecta negativamente el rendimiento de la red10. Las posibles fuentes de cambio de distribución incluyen la variabilidad en la forma en que los cirujanos realizan el mismo conjunto de gestos (por ejemplo, diferentes técnicas) y en el campo de visión quirúrgico (por ejemplo, visión clara con menos sangre). Además, nuestra hipótesis de por qué esta degradación afecta a ciertos gestos (como los embutidos) más que a otros (como los clips) es que estos últimos exhiben menos variabilidad que los primeros y, por lo tanto, son más fáciles de clasificar según el modelo.

Si bien los videos de diferentes procedimientos quirúrgicos (como nefrectomía versus prostatectomía) pueden mostrar variabilidad, por ejemplo, en puntos de referencia anatómicos (como riñón versus próstata), es probable que aún reflejen los mismos gestos de disección de tejido. Exploramos el grado en que dicha variabilidad afecta la capacidad de SAIS para decodificar gestos de disección. Específicamente, implementamos SAIS en muestras de video de un paso quirúrgico diferente: disección hiliar renal (HD), de un procedimiento quirúrgico diferente: nefrectomía parcial asistida por robot (RAPN) (Fig. 3d y Tabla 1 para el recuento de muestras de video). Observamos que SAIS logra generalizarse adecuadamente a un procedimiento quirúrgico invisible, aunque muestra un rendimiento degradado, como se esperaba (0,615

Para contextualizar nuestro trabajo con métodos anteriores, también entrenamos a SAIS para distinguir entre gestos de sutura en dos conjuntos de datos disponibles públicamente: el conjunto de trabajo de evaluación de habilidades y gestos JHU-ISI (JIGSAWS)11 y el complejo vascular dorsal University College London (DVC UCL)12 (Métodos ). Mientras que el primero contiene vídeos de participantes en un entorno de laboratorio, el segundo contiene vídeos de cirujanos en un paso particular (complejo vascular dorsal) del procedimiento de prostatectomía radical asistida por robot (RARP) en vivo. Comparamos la precisión de SAIS con la de los métodos de mejor rendimiento en JIGSAWS (Tabla complementaria 6) y DVC UCL (Tabla complementaria 7).

Descubrimos que SAIS, a pesar de no estar diseñado específicamente para el conjunto de datos JIGSAWS, funciona de manera competitiva con los métodos de referencia (Tabla complementaria 6). Por ejemplo, el método basado en vídeo de mejor rendimiento logró una precisión de 90,1, mientras que SAIS logró una precisión de 87,5. Es posible que la incorporación de modalidades adicionales y modificaciones específicas de los conjuntos de datos al SAIS pueda mejorar aún más su desempeño. En cuanto al conjunto de datos DVC UCL, seguimos un protocolo de evaluación diferente al que se informó originalmente12 (consulte Detalles de implementación de la capacitación de SAIS en conjuntos de datos de video externos en Métodos), ya que solo un subconjunto del conjunto de datos se ha hecho público. Para comparar de manera justa los modelos en este entorno, cuantificamos su mejora en relación con un sistema ingenuo que siempre predice el gesto mayoritario (aleatorio) (Tabla complementaria 7). Descubrimos que SAIS conduce a una mayor mejora en el rendimiento en relación con el método de última generación (MA-TCN) en el conjunto de datos DVC UCL. Esto es evidente por el aumento de tres y cuatro veces en la precisión lograda por MA-TCN y SAIS, respectivamente, en relación con un sistema ingenuo.

Uno de los objetivos finales, aunque ambiciosos, de SAIS es decodificar la actividad del cirujano a partir de un vídeo quirúrgico completo sin anotaciones y con una supervisión humana mínima. Hacerlo proporcionaría a los cirujanos información que de otro modo sería menos accesible para ellos. Para lograr este objetivo, y como ejemplo, implementamos SAIS para decodificar los gestos de disección de videos NS completos de la USC (20 a 30 minutos de duración) a los que nunca ha estado expuesto (Métodos).

Para evaluar esta decodificación, seleccionamos aleatoriamente una predicción realizada por SAIS para cada categoría de gesto de disección en cada video (n = 800 predicciones de gesto en total). Esto aseguró que obtuviéramos predicciones de un conjunto de videos más representativo y diverso, mejorando así la generalización de nuestros hallazgos. Informamos la precisión de estas predicciones después de confirmar manualmente si las muestras de video correspondientes reflejaron o no el gesto correcto (Fig. 3e). Estratificamos aún más esta precisión sobre la base de la ubicación anatómica del haz neurovascular en relación con la glándula prostática. Esto nos permitió determinar si SAIS estaba (a) aprendiendo un atajo poco confiable para decodificar gestos al asociar puntos de referencia anatómicos con ciertos gestos, lo cual es indeseable, y (b) robusto a los cambios en el ángulo de la cámara y la dirección del movimiento del gesto. Para este último, tenga en cuenta que operar el haz neurovascular izquierdo a menudo implica usar el instrumento derecho y moverlo hacia la izquierda del campo de visión (Fig. 3f, fila superior de imágenes). Lo contrario ocurre cuando se opera el haz neurovascular derecho.

Descubrimos que es poco probable que SAIS aprenda un atajo específico de la anatomía para decodificar gestos y es resistente a la dirección del movimiento del gesto. Esto es evidente por su rendimiento similar cuando se implementa en muestras de vídeo de gestos realizados en los haces neurovasculares izquierdo y derecho. Por ejemplo, las predicciones del gesto del gancho (h) exhibieron una precisión de ~0,75 en ambas ubicaciones anatómicas. También observamos que SAIS pudo identificar una categoría de gesto adicional además de aquellas en las que fue entrenado originalmente. Al inspeccionar manualmente las muestras de video en la categoría de gestos de corte en frío (c) con una precisión aparentemente baja, descubrimos que SAIS estaba identificando un gesto de corte distintivo, también conocido como corte en caliente, que, a diferencia de un corte en frío, implica aplicar calor. /energía para cortar tejido.

Para evaluar cualitativamente el desempeño de SAIS, presentamos sus predicciones de gestos para un solo video NS de 30 minutos (Fig. 3f). Cada fila representa un gesto distinto y cada línea vertical representa la aparición de este gesto en un momento particular. Observamos que, aunque SAIS no fue informado explícitamente sobre la relación entre los gestos, identificó correctamente un patrón de gestos a lo largo del tiempo que es típico del paso NS dentro de los procedimientos quirúrgicos RARP. Este patrón constituye un (a) gancho, (b) clip y (c) corte frío y se realiza para separar el haz neurovascular de la próstata minimizando al mismo tiempo el grado de sangrado en el que incurre el paciente.

También descubrimos que SAIS puede descubrir comportamientos atípicos, a pesar de no estar explícitamente capacitados para hacerlo. Específicamente, SAIS identificó un intervalo contiguo de 60 s durante el cual se realizó un movimiento de cámara (m), y que es 60 veces más largo que la duración promedio (1 s) de un movimiento de cámara. Sospechando un comportamiento atípico, inspeccionamos este intervalo y descubrimos que coincidía con la retirada de la cámara del cuerpo del paciente, su inspección por parte del cirujano y su reinserción en el cuerpo del paciente.

En este punto, hemos demostrado que SAIS, como sistema de IA unificado, puede lograr de forma independiente el reconocimiento de la subfase quirúrgica (el qué de la cirugía) y la clasificación de gestos (el cómo de la cirugía), y generalizar a muestras de videos invisibles en el proceso. En esta sección, examinamos la capacidad de SAIS para decodificar evaluaciones de habilidades a partir de videos quirúrgicos. Al hacerlo, también abordamos el cómo de la cirugía, aunque a través del lente de la habilidad del cirujano. Evaluamos la calidad con la que los cirujanos ejecutaron dos subfases de sutura: manejo de la aguja y conducción de la aguja (Fig. 1a, columna derecha). Capacitamos a SAIS para decodificar el nivel de habilidad de estas actividades utilizando muestras de video exclusivamente de la USC.

Implementamos SAIS en el conjunto de prueba de muestras de video de la USC y presentamos las curvas ROC asociadas con las habilidades de manejo de agujas (Fig. 4a) y conducción de agujas (Fig. 4b). Descubrimos que SAIS puede decodificar de manera confiable el nivel de habilidad de la actividad quirúrgica, logrando un AUC de 0,849 y 0,821 para la actividad de manejo de agujas y conducción, respectivamente.

a,b, capacitamos a SAIS en muestras de video exclusivamente de USC para decodificar el nivel de habilidad de manejo de agujas (a) y conducción de agujas (b), y lo implementamos en muestras de videos de USC, SAH y HMH. Los resultados son un promedio (±1 desviación estándar) de diez pasos de validación cruzada de Monte Carlo. c,d. También presentamos la atención prestada a los fotogramas por SAIS para una muestra de video sobre el manejo de agujas con poca habilidad (c) y la conducción de agujas (d). Las imágenes con un cuadro delimitador naranja indican que SAIS presta la mayor atención a los fotogramas que representan estados visuales consistentes con los respectivos criterios de evaluación de habilidades. Estos criterios corresponden a reposiciones de agujas y ajustes de agujas, respectivamente. e, Perfil de habilidades quirúrgicas que representa la evaluación de habilidades para el manejo y la colocación de agujas en un solo caso quirúrgico en SAH. f,g, Relación de manejo de agujas con poca habilidad (f) y conducción de agujas (g) en cada uno de los 30 casos quirúrgicos en SAH. Las líneas discontinuas horizontales representan la proporción promedio de actividad poco calificada en la USC.

También implementamos SAIS en muestras de video de cirujanos invisibles en dos hospitales: SAH y HMH (Fig. 4a, b y Tabla 1 para el recuento de muestras de video). Esta es una tarea desafiante que requiere que SAIS se adapte a las formas potencialmente diferentes en que los cirujanos con diferentes preferencias ejecutan las actividades quirúrgicas. Descubrimos que SAIS continuó decodificando de manera confiable el nivel de habilidad de manejo de agujas (SAH: AUC 0,880, HMH: AUC 0,804) y conducción de agujas (SAH: AUC 0,821, HMH: AUC 0,719). La capacidad de SAIS para detectar patrones consistentes en todos los hospitales apunta a su utilidad potencial para la evaluación objetiva de las habilidades quirúrgicas.

Las variantes de la red neuronal convolucional 3D (3D-CNN) han logrado resultados de última generación en la decodificación de habilidades quirúrgicas basándose en vídeos de una prueba de laboratorio6 o de un procedimiento en vivo13. Como tal, para contextualizar la utilidad de SAIS, ajustamos un modelo I3D previamente entrenado (consulte Detalles de implementación de experimentos I3D en Métodos) para decodificar el nivel de habilidad de manejo e inserción de agujas (Tabla 2). Descubrimos que SAIS supera consistentemente a este modelo de última generación al decodificar el nivel de habilidad de las actividades quirúrgicas en todos los hospitales. Por ejemplo, al decodificar el nivel de habilidad en el manejo de agujas, SAIS e I3D lograron un AUC de 0,849 y 0,681, respectivamente. Al decodificar el nivel de habilidad de clavar agujas, alcanzaron un AUC de 0,821 y 0,630, respectivamente. También descubrimos que I3D era más sensible a las muestras de video en las que fue entrenado y a la inicialización de sus parámetros. Esto es evidente por la mayor desviación estándar de su desempeño en relación con el de SAIS en todos los pliegues (0,12 frente a 0,05 para la conducción de agujas en la USC). Esta sensibilidad es indeseable ya que apunta a la falta de robustez y al comportamiento impredecible del modelo.

El despliegue seguro de los sistemas clínicos de IA a menudo requiere que sean interpetables14. Por lo tanto, queríamos explorar si SAIS estaba identificando señales visuales relevantes al decodificar el nivel de habilidad de los cirujanos. Esto infundiría a los profesionales del aprendizaje automático la confianza de que SAIS realmente está utilizando las funciones adecuadas y, por lo tanto, se puede confiar en ellos en caso de una implementación futura en un entorno clínico. Primero recuperamos una muestra de video que representa una actividad de baja habilidad (manipulación o conducción de agujas) que fue clasificada correctamente por SAIS. Al inspeccionar la atención puesta en dichos cuadros por el mecanismo de atención (arquitectura en la Fig. 5), pudimos cuantificar la importancia de cada cuadro. Idealmente, se presta mucha atención a los marcos de relevancia, donde la relevancia se define sobre la base de la habilidad que se evalúa.

SAIS consta de dos flujos paralelos que procesan distintas modalidades de datos de entrada: vídeos quirúrgicos RGB y flujo óptico. Independientemente de la modalidad de datos, las características se extraen de cada cuadro mediante un ViT previamente entrenado de forma autosupervisada en ImageNet. Luego, las características de los cuadros de video se ingresan en una pila de codificadores transformadores para obtener una característica de video específica de la modalidad. Estas características específicas de la modalidad se agregan y se pasan a un cabezal de proyección para obtener una única característica de video, que es atraída o repelida por el prototipo relevante. Aunque ilustramos dos prototipos para reflejar categorías binarias (actividad de alta habilidad versus actividad de baja habilidad), tendríamos prototipos C en un entorno con categorías C.

Presentamos la atención (más oscura es más importante) colocada en fotogramas de una muestra de video sobre el manejo de agujas (Fig. 4c) y la colocación de agujas (Fig. 4d) y que SAIS clasificó correctamente como que representa baja habilidad. Descubrimos que SAIS presta mayor atención a los marcos que son consistentes con los criterios de evaluación de habilidades. Por ejemplo, con la actividad de manipulación de agujas de baja habilidad basada en el número de veces que un cirujano vuelve a agarrar una aguja, vemos que los fotogramas más importantes resaltan el momento en que ambos brazos robóticos sujetan simultáneamente la aguja, lo cual es característico de una maniobra de reposición de la aguja (Fig. 4c). Por lo tanto, las repeticiones múltiples de este comportamiento se alinean bien con la evaluación de baja habilidad en el manejo de agujas. Además, al evaluar la conducción de la aguja como de baja habilidad en función de la suavidad de su trayectoria, vemos que la aguja se introdujo inicialmente a través del tejido, se ajustó y luego se retiró por completo (en contra de la dirección del movimiento) antes de volver a introducirse a través del tejido. tejido segundos después (Fig. 4d). SAIS prestó un alto nivel de atención a la extracción de la aguja y su ajuste y, por lo tanto, estuvo en consonancia con la evaluación de baja habilidad para clavar la aguja. En términos más generales, estos hallazgos explicables sugieren que SAIS no sólo es capaz de proporcionar a los cirujanos una evaluación de habilidades confiable, objetiva y escalable, sino que también puede identificar los cuadros importantes en la muestra de video. Esta capacidad aborda por qué se realizó una evaluación de habilidades bajas y es un buen augurio para cuando se implemente SAIS para brindar a los cirujanos comentarios específicos sobre cómo mejorar la ejecución de sus habilidades quirúrgicas.

Queríamos demostrar que SAIS también puede proporcionar a los cirujanos información sobre habilidades quirúrgicas que de otro modo no habrían estado disponibles para ellos. Con ese fin, le asignamos a SAIS la tarea de evaluar la habilidad de todas las muestras de videos de manejo y conducción de agujas recopiladas de SAH.

Considerando el manejo de la aguja (y la conducción de la aguja) como una subfase de un solo punto y sabiendo que una secuencia de puntos a lo largo del tiempo constituye una actividad de sutura (como VUA) en un caso quirúrgico, SAIS puede generar un perfil de habilidades quirúrgicas para un solo punto. Estuche (Fig. 4e) para manejo y conducción de agujas. Nos gustaría enfatizar que este perfil, cuando se genera para casos quirúrgicos que no están anotados con evaluaciones de habilidades reales, proporciona a los cirujanos información procesable que de otro modo no habría estado disponible para ellos. Por ejemplo, un cirujano en formación ahora puede identificar regiones temporales de actividad de sutura de baja habilidad, relacionarlas tal vez con ubicaciones anatómicas y aprender a centrarse en dichas regiones en el futuro. Al decodificar perfiles para diferentes habilidades dentro del mismo caso quirúrgico, un cirujano ahora puede identificar si el desempeño deficiente en una habilidad (como el manejo de agujas) se correlaciona con el de otra habilidad (como clavar agujas). Esta información ayudará a guiar cómo un cirujano practica tales habilidades.

SAIS también puede proporcionar información procesable más allá del nivel del caso quirúrgico individual. Para ilustrar esto, presentamos la proporción de acciones de manejo de agujas (Fig. 4f) y conducción de agujas (Fig. 4g) en un caso quirúrgico que se consideraron de baja habilidad, para los 30 casos quirúrgicos de SAH. También presentamos la proporción promedio de baja habilidad observada en videos quirúrgicos de la USC. Con esta información, el subconjunto de casos con la tasa más baja de acciones de baja habilidad se puede identificar y presentar a los cirujanos en formación con fines educativos. Al comparar las proporciones a nivel de casos con la proporción promedio en diferentes hospitales (Fig. 4g), los cirujanos pueden identificar casos que pueden beneficiarse de una mayor capacitación del cirujano.

Inicialmente afirmamos que la decodificación de la actividad quirúrgica intraoperatoria puede allanar el camino para múltiples aplicaciones posteriores, una de las cuales es la provisión de retroalimentación postoperatoria a los cirujanos sobre su técnica operativa. Aquí proporcionamos un modelo de cómo SAIS, basándose en los hallazgos que hemos presentado hasta ahora, puede lograr este objetivo. Al decodificar de manera confiable las subfases quirúrgicas y las habilidades quirúrgicas y, al mismo tiempo, proporcionar su razonamiento para hacerlo, SAIS puede proporcionar retroalimentación de la siguiente forma: 'al completar el punto número tres del paso de sutura, su manejo de la aguja (qué subfase) se ejecutó mal (cómo -habilidad). Probablemente esto se deba a su actividad en el primer y último trimestre de la subfase de manipulación de agujas (por qué, atención)'. Esta retroalimentación granular y localizada temporalmente ahora permite al cirujano centrarse mejor en el elemento de la actividad quirúrgica intraoperatoria que requiere mejora, una capacidad que antes no estaba disponible.

Si bien es útil para dominar una habilidad técnica quirúrgica en sí, la retroalimentación del cirujano se vuelve más significativa desde el punto de vista clínico cuando se basa en los resultados del paciente. Por ejemplo, si las evaluaciones de baja habilidad se asocian con malos resultados, entonces un cirujano puede comenzar a modular un comportamiento específico para mejorar dichos resultados. Con ese fin, realizamos un análisis preliminar haciendo una regresión de las evaluaciones de habilidades del cirujano de SAIS en la USC en la recuperación binaria de la continencia urinaria (capacidad de controlar voluntariamente la micción) de un paciente 3 meses después de la cirugía (Métodos). Al considerar todas las muestras de video (múltiples por caso quirúrgico) y controlar el número de casos de cirujanos y la edad del paciente, encontramos que la recuperación de la continencia urinaria fue 1,31 × (odds ratio (OR), intervalo de confianza (IC) 1,08–1,58, P = 0,005). más probable cuando la SAIS evaluó la conducción con agujas como una habilidad alta que como una habilidad baja. Cuando se agregan las evaluaciones de habilidades de muestras de video dentro de un caso quirúrgico, esa relación se fortalece aún más (OR 1,89, IC 0,95–3,76, P = 0,071). Estos hallazgos preliminares son consistentes con aquellos basados ​​en evaluaciones de habilidades manuales de estudios recientes15,16.

Sólo en la última década se ha demostrado empíricamente que la actividad quirúrgica intraoperatoria puede tener una influencia directa en los resultados posoperatorios de los pacientes. Sin embargo, descubrir y actuar sobre esta relación para mejorar los resultados es un desafío cuando los detalles de la actividad quirúrgica intraoperatoria siguen siendo difíciles de alcanzar. Al combinar tecnologías emergentes como la inteligencia artificial con videos comúnmente recopilados durante cirugías robóticas, podemos comenzar a decodificar múltiples elementos de la actividad quirúrgica intraoperatoria.

Hemos demostrado que SAIS puede decodificar subfases, gestos y habilidades quirúrgicas, a partir de muestras de vídeo quirúrgico, de forma fiable, objetiva y escalable. Aunque hemos presentado SAIS como decodificador de estos elementos específicos en cirugías robóticas, es posible que se pueda aplicar para decodificar cualquier otro elemento de la actividad intraoperatoria de diferentes procedimientos quirúrgicos. Decodificar elementos adicionales de la cirugía simplemente requerirá seleccionar un conjunto de datos anotado con el elemento quirúrgico de interés. Para facilitar esto, publicamos nuestro código para que otros puedan extraer información de sus propios videos quirúrgicos con SAIS. De hecho, SAIS y los métodos que hemos presentado en este estudio se aplican a cualquier campo en el que la información pueda decodificarse sobre la base de señales visuales y de movimiento.

En comparación con estudios anteriores, nuestro estudio ofrece contribuciones tanto traslacionales como metodológicas. Desde un punto de vista traslacional, demostramos la capacidad de SAIS para generalizar entre videos, cirujanos, procedimientos quirúrgicos y hospitales. Es probable que este hallazgo infunda a los cirujanos una mayor confianza en la confiabilidad del SAIS y, por lo tanto, aumente su probabilidad de adoptarlo. Esto contrasta con trabajos anteriores que han evaluado sistemas de IA en vídeos capturados en un entorno de laboratorio controlado o en un solo hospital, demostrando así capacidades de generalización limitadas.

Desde un punto de vista metodológico, SAIS tiene mucho que ofrecer en comparación con los sistemas de IA desarrollados anteriormente para decodificar la actividad quirúrgica. En primer lugar, SAIS está unificado en el sentido de que es capaz de decodificar múltiples elementos de la actividad quirúrgica intraoperatoria sin ningún cambio en su arquitectura subyacente. Al actuar como una arquitectura central confiable en torno a la cual se realizan desarrollos futuros, es probable que SAIS reduzca la cantidad de recursos y la carga cognitiva asociada con el desarrollo de sistemas de inteligencia artificial para decodificar elementos adicionales de la actividad quirúrgica. Esto contrasta con el status quo en el que el oneroso proceso de desarrollar sistemas de IA especializados debe emprenderse para decodificar un solo elemento. En segundo lugar, SAIS proporciona hallazgos explicables en el sentido de que puede resaltar la importancia relativa de los cuadros de video individuales en la contribución a la decodificación. Esta explicabilidad, que investigamos sistemáticamente en un estudio simultáneo17, es fundamental para ganarse la confianza de los cirujanos y garantizar el despliegue seguro de sistemas de IA para la toma de decisiones de alto riesgo, como la acreditación de cirujanos basada en habilidades. Esto contrasta con sistemas de IA anteriores como MA-TCN12, que solo es capaz de resaltar la importancia relativa de las modalidades de datos (por ejemplo, imágenes versus cinemática) y, por lo tanto, carece del nivel más fino de explicabilidad de SAIS.

SAIS también es flexible porque puede aceptar muestras de vídeo con un número arbitrario de fotogramas de vídeo como entrada, principalmente debido a su arquitectura de transformador. Esta flexibilidad, que está ausente en modelos anteriores de uso común, como las 3D-CNN, confiere beneficios al entrenamiento, el ajuste y la realización de inferencias. Durante la capacitación, SAIS puede aceptar un mini lote de videos, cada uno con un número diferente de fotogramas. Esto se puede lograr rellenando videos en el mini lote (con ceros) que tienen menos fotogramas y enmascarando adecuadamente el mecanismo de atención en el codificador del transformador (consulte Detalles de implementación e hiperparámetros en Métodos). Esto contrasta con los sistemas de inteligencia artificial existentes, que a menudo deben presentarse con un mini lote de videos del mismo tamaño. De manera similar, durante el ajuste fino o la inferencia, a SAIS se le puede presentar una cantidad arbitraria de cuadros de video, ampliando así el espectro de videos que se le pueden presentar. Esto contrasta con las configuraciones existentes que aprovechan un 3D-CNN que ha sido previamente entrenado en el conjunto de datos de Kinetics18, donde las muestras de video deben contener 16 fotogramas o múltiplos de los mismos6,13. Cumplir con esta restricción puede ser subóptimo para lograr ciertas tareas, y apartarse de ella implica la incapacidad de aprovechar los parámetros previamente entrenados que han demostrado ser críticos para el éxito de los métodos anteriores. Además, SAIS se diferencia arquitectónicamente de los modelos anteriores en que aprende prototipos mediante aprendizaje contrastivo supervisado para decodificar la actividad quirúrgica, un enfoque que aún no se ha explorado con vídeos quirúrgicos. Dichos prototipos allanaron el camino para múltiples aplicaciones posteriores, desde la detección de muestras de video fuera de distribución hasta la identificación de grupos de actividad intraoperatoria y la recuperación de muestras de una gran base de datos quirúrgica19.

También demostramos que SAIS puede proporcionar información que de otro modo no habría estado disponible para los cirujanos. Esto incluye gestos quirúrgicos y perfiles de habilidades, que reflejan cómo un cirujano ejecuta la actividad quirúrgica a lo largo del tiempo para un solo caso quirúrgico y en diferentes casos. Estas capacidades allanan el camino para múltiples aplicaciones posteriores que, de otro modo, habrían sido difíciles de lograr. Por ejemplo, desde una perspectiva científica, ahora podemos captar la variabilidad de la actividad quirúrgica a través del tiempo, de los cirujanos y de los hospitales. Desde una perspectiva clínica, ahora podemos probar hipótesis que asocian la actividad quirúrgica intraoperatoria con resultados a largo plazo para los pacientes. Esto acerca a la comunidad médica un paso más a la identificación y, eventualmente, a la modulación de los factores causales responsables de los malos resultados. Finalmente, desde una perspectiva educativa, ahora podemos monitorear y brindarles a los cirujanos retroalimentación sobre su técnica operativa. Esta retroalimentación puede ayudar a los cirujanos a dominar las habilidades necesarias y contribuir a mejorar los resultados de los pacientes.

Hay desafíos importantes que nuestro trabajo aún no aborda. En primer lugar, nuestro marco, similar a otros en el campo, se limita a decodificar únicamente los elementos de la actividad quirúrgica que se han descrito previamente en alguna taxonomía (como los gestos). En otras palabras, no puede decodificar lo que no sabe. Aunque muchas de estas taxonomías han sido desarrolladas rigurosamente por equipos de cirujanos y a través de la experiencia clínica, es posible que no arrojen luz sobre otros aspectos complejos de la actividad quirúrgica. Esto, a su vez, limita el grado en que los sistemas automatizados pueden descubrir actividades novedosas que van más allá del ámbito del protocolo existente. Este descubrimiento puede aportar información, por ejemplo, sobre el comportamiento quirúrgico óptimo, pero aún no descubierto. De manera similar, SAIS es actualmente incapaz de decodificar nuevos elementos de la actividad quirúrgica más allá de los que se le presentaron inicialmente. Estas capacidades de aprendizaje continuo10 son fundamentales para adaptarse a una taxonomía en evolución de la actividad quirúrgica a lo largo del tiempo.

El objetivo de la cirugía es mejorar los resultados de los pacientes. Sin embargo, sigue siendo una cuestión abierta si los elementos decodificados de la actividad quirúrgica intraoperatoria: subfases, gestos y habilidades, son los factores que más predicen los resultados posoperatorios de los pacientes. Aunque hemos presentado evidencia preliminar en esta dirección para el caso de las habilidades quirúrgicas, se requieren estudios a gran escala para descubrir estas relaciones. Para explorar más a fondo estas relaciones e informar de manera más confiable la práctica quirúrgica futura, alentamos la publicación pública de conjuntos de datos de videos quirúrgicos a gran escala de diferentes hospitales y especialidades quirúrgicas. Equipados con dichos videos y SAIS, los investigadores pueden comenzar a decodificar los diversos elementos de la cirugía a escala.

En el futuro, buscamos investigar si SAIS tiene el efecto deseado en las partes interesadas clínicas. Por ejemplo, nuestro objetivo es implementar SAIS en un entorno de laboratorio controlado para evaluar el nivel de habilidad de la actividad realizada por los estudiantes de medicina y brindarles retroalimentación basada en dichas evaluaciones. Esto brindará información práctica sobre la utilidad de las evaluaciones de habilidades basadas en IA y su percepción por parte de los alumnos de cirugía. También pretendemos explorar la interdependencia de los elementos de la actividad quirúrgica intraoperatoria (reconocimiento de subfase, clasificación de gestos y evaluación de habilidades). Esto se puede lograr, por ejemplo, entrenando una variante multitarea de SAIS en la que todos los elementos se decodifican simultáneamente a partir de un vídeo. En tal entorno, una interferencia positiva entre las tareas podría dar como resultado una decodificación aún más confiable. Alternativamente, se puede entrenar a SAIS para que primero realice el reconocimiento de subfase (una tarea relativamente fácil) antes de transferir sus parámetros para realizar la evaluación de habilidades (una tarea relativamente más difícil). Esto es similar al aprendizaje curricular20, mediante el cual a un sistema de IA se le presentan tareas cada vez más difíciles durante el proceso de aprendizaje para mejorar su desempeño general. En un estudio concurrente21, también investigamos si SAIS exhibe un sesgo algorítmico contra varias subcohortes de cirujanos22. Este análisis de sesgo es particularmente crítico si se va a utilizar SAIS para proporcionar retroalimentación a los cirujanos. Por ejemplo, puede perjudicar a ciertas subcohortes de cirujanos (como los novatos con experiencia mínima) y, por lo tanto, afectar su capacidad para desarrollarse profesionalmente.

Todos los conjuntos de datos (datos de USC, SAH y HMH) se recopilaron bajo la aprobación de la junta de revisión institucional en la que se obtuvo el consentimiento informado (HS-17-00113). Estos conjuntos de datos fueron anonimizados antes del desarrollo del modelo.

Trabajos anteriores han utilizado métodos computacionales, como la IA, para decodificar la cirugía23,24. Una línea de investigación se ha centrado en explotar datos de sensores derivados de robots, como el desplazamiento y la velocidad de los brazos robóticos (cinemática), para predecir resultados clínicos25,26,27,28. Por ejemplo, los investigadores han utilizado métricas de rendimiento automatizadas para predecir la duración de la estancia postoperatoria de un paciente en un hospital26. Otra línea de investigación se ha centrado, en cambio, en explotar exclusivamente vídeos quirúrgicos en directo procedentes de cámaras endoscópicas para clasificar la actividad quirúrgica4,29, los gestos5,30,31,32,33 y las habilidades6,7,13,34,35, entre otras tareas36,37. Para obtener información sobre estudios adicionales, remitimos a los lectores a una revisión reciente9. Más recientemente, se han utilizado redes neuronales basadas en la atención, como los transformadores38, para distinguir entre distintos pasos quirúrgicos dentro de un procedimiento39,40,41,42.

Los trabajos anteriores a menudo dividen sus datos de una manera que tiene el potencial de producir una "fuga" de información entre los conjuntos de entrenamiento y prueba. Por ejemplo, se cree que la configuración de evaluación comúnmente adoptada de dejar a un usuario fuera en el conjunto de datos JIGSAWS11 es rigurosa. Aunque brinda información sobre la generalización de un modelo a un video de un participante invisible, esta configuración implica informar una puntuación de validación cruzada, que a menudo se optimiza directamente mediante métodos anteriores (por ejemplo, mediante ajuste de hiperparámetros), lo que produce una puntuación demasiado optimista. estimación del rendimiento. Como otro ejemplo, considere la división de datos utilizada para el conjunto de datos CholecT5043. Aquí hay información mínima sobre si los vídeos de los conjuntos de entrenamiento y de prueba pertenecen al mismo cirujano. Por último, el conjunto de datos DVC UCL12 más reciente consta de 36 vídeos disponibles públicamente para formación y 9 vídeos privados para pruebas. Después de una inspección manual, descubrimos que estos nueve videos provienen de seis cirujanos cuyos datos también están en el conjunto de capacitación. Este es un ejemplo concreto de filtración de datos de cirujanos y, como tal, advertimos sobre el uso de dichos conjuntos de datos con fines de evaluación comparativa. Por lo tanto, es fundamental evaluar más rigurosamente el desempeño de SAIS y de acuerdo con cómo es probable que se implemente en un entorno clínico.

Nos centramos en videos quirúrgicos que representan dos tipos de actividad quirúrgica que se realizan comúnmente en casi cualquier cirugía: disección de tejido y sutura, que a continuación describimos en detalle.

La disección de tejidos es una actividad fundamental en casi cualquier procedimiento quirúrgico y consiste en separar trozos de tejido entre sí. Por ejemplo, el procedimiento quirúrgico RARP, en el que se extirpa una próstata cancerosa del cuerpo de un paciente, implica varios pasos de disección de tejido, uno de los cuales se conoce como preservación de nervios o NS. NS implica preservar el haz neurovascular, una malla de vasculatura y nervios a la izquierda y derecha de la próstata, y es esencial para la recuperación posoperatoria de la función eréctil del paciente para las relaciones sexuales. Además, un procedimiento quirúrgico RAPN, en el que se extrae una parte de un riñón canceroso del cuerpo de un paciente, implica un paso de disección denominado disección hiliar o HD. La HD implica extirpar el tejido conectivo alrededor de la arteria y la vena renales para controlar cualquier posible sangrado de estos vasos sanguíneos.

Estos pasos de disección (NS y HD), aunque son específicos del procedimiento (RARP y RAPN), los realiza un cirujano mediante un vocabulario común de gestos de disección discretos. En nuestro trabajo anterior, desarrollamos una taxonomía44 que nos permite anotar cualquier paso de disección de tejido con una secuencia de gestos de disección discretos a lo largo del tiempo.

La sutura también es un componente fundamental de la cirugía45 y consiste en unir tejidos. Por ejemplo, el procedimiento RARP implica un paso de sutura denominado anastomosis vesicouretral o VUA. La VUA sigue a la extirpación de la próstata cancerosa e implica conectar, mediante puntos, el cuello de la vejiga (una estructura esférica) a la uretra (una estructura cilíndrica), y es esencial para el flujo normal de orina posoperatorio. El paso VUA normalmente consta de un promedio de 24 puntos, cada uno de los cuales puede ser realizado por un cirujano mediante un vocabulario común de gestos de sutura. En nuestro trabajo anterior, desarrollamos una taxonomía5 que nos permite anotar cualquier actividad de sutura con una secuencia de gestos de sutura discretos. Observamos que los gestos de sutura son diferentes y más sutiles que los gestos de disección.

Cada punto también se puede descomponer en las tres subfases recurrentes de (1) manejo de la aguja, donde se sostiene la aguja en preparación para el punto, (2) conducción de la aguja, donde la aguja se introduce a través del tejido (como la uretra) y (3) retirada de la aguja, donde se retira la aguja del tejido para completar un solo punto. Las subfases de manejo de agujas e introducción de agujas también se pueden evaluar en función del nivel de habilidad con el que se ejecutan. En nuestro trabajo anterior, desarrollamos una taxonomía46 que nos permite anotar cualquier subfase de sutura con un nivel de habilidad binario (habilidad baja versus habilidad alta).

Recopilamos vídeos de procedimientos quirúrgicos robóticos completos de tres hospitales: USC, SAH y HMH. Cada vídeo del procedimiento RARP, por ejemplo, duraba del orden de 2 h. Un compañero médico (RM) identificó manualmente el paso de disección del tejido NS y el paso de sutura del tejido VUA en cada video RARP. En la Tabla 1 describimos el número total de videos y muestras de videos de cada hospital. A continuación, describimos cómo se anotaron estos pasos con subfases quirúrgicas, gestos y niveles de habilidad.

Es importante señalar que los evaluadores humanos se sometieron a una fase de capacitación en la que se les pidió que anotaran el mismo conjunto de videos quirúrgicos, lo que permitió calcular la confiabilidad entre evaluadores (entre 0 y 1) de sus anotaciones. Una vez que esta confiabilidad superó 0,8, consideramos que la fase de entrenamiento se había completado47.

Cada vídeo del paso de disección NS (del orden de 20 minutos) fue anotado retrospectivamente por un equipo de evaluadores humanos capacitados (RM, TH y otros) con gestos de disección de tejido. Esta anotación siguió las estrictas pautas de nuestra taxonomía de gestos de disección previamente desarrollada44. Nos centramos en los seis gestos de disección más utilizados: corte en frío (c), gancho (h), clip (k), movimiento de la cámara (m), pelado (p) y retracción (r). En concreto, al observar un gesto, un evaluador humano registraba la hora de inicio y finalización de su ejecución por parte del cirujano. Por lo tanto, cada paso NS resultó en una secuencia de n ≈ 400 muestras de video de gestos (de seis categorías distintas) con cada muestra de video del orden de 0 a 10 s de duración. Además, cada muestra de vídeo se asignó a un solo gesto. Se siguió la misma estrategia para anotar el paso de sutura de VUA con gestos de sutura. Esta anotación siguió las estrictas pautas de nuestra taxonomía de gestos de sutura previamente desarrollada5. Nos centramos en los cuatro gestos de sutura más utilizados: derecha derecha debajo (R1), derecha derecha arriba (R2), derecha izquierda debajo (L1) y derecha combinada arriba (C1).

Cada vídeo del paso de sutura de VUA (del orden de 20 minutos) fue anotado retrospectivamente por un equipo de evaluadores humanos capacitados (DK, TH y otros) con subfases y habilidades quirúrgicas. Esta anotación siguió las estrictas pautas de nuestra taxonomía previamente desarrollada denominada evaluación de extremo a extremo de la experiencia en sutura o EASE46. Dado que el paso VUA es reconstructivo en el que se unen la vejiga y la uretra, a menudo requiere una serie de puntos (del orden de 24 puntos: 12 en el lado de la vejiga y otros 12 en el lado de la uretra).

Con una sola puntada que consta de las tres subfases de manipulación de la aguja, conducción de la aguja y retirada de la aguja (siempre en ese orden), un evaluador humano identificaría primero la hora de inicio y la hora de finalización de cada una de estas subfases. Por lo tanto, cada paso de VUA puede tener n = 24 muestras de video de las subfases de manejo de la aguja, conducción de la aguja y extracción de la aguja con cada muestra de video del orden de 10 a 30 s. La distribución de la duración de dichas muestras de video se proporciona en la Nota complementaria 2.

También se pidió a los evaluadores humanos que anotaran la calidad de la manipulación de la aguja o de la actividad de conducción de la aguja (0 para baja habilidad y 1 para alta habilidad). Para el manejo de agujas, una evaluación de alta habilidad se basa en la cantidad de veces que el cirujano debe reposicionar su agarre sobre la aguja en preparación para introducirla a través del tejido (cuantos menos, mejor). Para la conducción de agujas, una evaluación de alta habilidad se basa en la suavidad y la cantidad de ajustes necesarios para impulsar la aguja a través del tejido (cuanto más suave y menos ajustes, mejor). Dado que cada muestra de vídeo se asignó a varios evaluadores, tenía varias etiquetas de evaluación de habilidades. En caso de posibles desacuerdos en las anotaciones, consideramos la puntuación más baja (peor). Nuestra motivación para hacerlo se basó en la suposición de que si un evaluador humano penalizaba la calidad de la actividad del cirujano, entonces debe haberse debido a uno de los criterios objetivos descritos en el sistema de puntuación y, por lo tanto, es subóptimo. Nosotros, a nuestra vez, queríamos capturar y codificar este comportamiento subóptimo.

En todos los experimentos, entrenamos a SAIS en un conjunto de entrenamiento de muestras de video y lo evaluamos utilizando una validación cruzada de Monte Carlo diez veces donde el conjunto de pruebas de cada pliegue consistía en subfases de videos no vistos durante el entrenamiento. Este enfoque contribuye a nuestro objetivo de una evaluación rigurosa al permitirnos evaluar la capacidad de SAIS para generalizar a videos no vistos (en adelante denominados entre videos). Esta configuración también es más desafiante y representativa de la implementación en el mundo real que una en la que un sistema de inteligencia artificial se generaliza a muestras invisibles dentro del mismo video. Como tal, adoptamos esta configuración de evaluación para todos los experimentos descritos en este estudio, a menos que se indique lo contrario. En la Nota complementaria 1 se puede encontrar un desglose detallado de la cantidad de muestras de video utilizadas para capacitación, validación y pruebas.

Para todos los experimentos realizados, a menos que se indique lo contrario, dividimos los datos a nivel de video del caso en un conjunto de entrenamiento (90%) y de prueba (10%). Usamos el 10% de los videos en el conjunto de entrenamiento para formar un conjunto de validación con el que realizamos el ajuste de hiperparámetros. Al dividir a nivel de video, donde los datos del mismo video no aparecen en todos los conjuntos, estamos evaluando rigurosamente si el modelo se generaliza en videos no vistos. Tenga en cuenta que, si bien es posible que aparezcan datos del mismo cirujano tanto en el conjunto de entrenamiento como en el de prueba, también experimentamos con configuraciones aún más rigurosas: entre hospitales (donde los videos provienen de hospitales y cirujanos completamente diferentes) y entre procedimientos quirúrgicos. donde los videos son de procedimientos quirúrgicos completamente diferentes (como nefrectomía versus prostatectomía). Si bien existen varias formas de evaluar rigurosamente el SAIS, creemos que demostrar su generalización entre cirujanos, hospitales y procedimientos quirúrgicos, como lo hemos hecho, es un paso en la dirección correcta. Informamos el rendimiento de los modelos como un promedio, con una desviación estándar, en todos los pliegues.

Para capturar señales visuales y de movimiento en videos quirúrgicos, SAIS operó en dos modalidades distintas: videos quirúrgicos en vivo en forma de fotogramas RGB y el flujo óptico correspondiente de dichos fotogramas. Los vídeos quirúrgicos se pueden grabar a varias velocidades de muestreo, que tienen unidades de fotogramas por segundo (fps).

El conocimiento de la tasa de muestreo junto con la tasa natural con la que se produce la actividad en un entorno quirúrgico es esencial para tomar múltiples decisiones. Estos pueden variar desde la cantidad de fotogramas que se presentarán en una red de aprendizaje profundo y la velocidad adecuada con la que reducir la resolución de los videos, hasta el tamaño del paso temporal utilizado para derivar mapas de flujo óptico, como se describe a continuación. Incluir demasiados fotogramas donde hay muy pocos cambios en la escena visual genera una carga computacional y puede resultar en un sobreajuste debido a la inclusión de fotogramas muy similares (baja diversidad visual). Por otro lado, incluir muy pocos fotogramas puede dar lugar a que falte información visual pertinente a la tarea en cuestión. De manera similar, la obtención de mapas de flujo óptico razonables, que es función de un par de imágenes espaciadas temporalmente, depende del tiempo transcurrido entre dichas imágenes. Un lapso de tiempo demasiado corto podría dar como resultado un movimiento mínimo en la escena visual, lo que daría como resultado mapas de flujo óptico poco informativos. De manera análoga, un lapso de tiempo demasiado largo podría significar perderse un movimiento informativo intermedio en la escena visual. Nos referimos a estas decisiones como hiperparámetros (consulte la sección Detalles de implementación e hiperparámetros en Métodos). A lo largo de este artículo, derivamos mapas de flujo óptico mediante la implementación de un modelo RAFT48, que encontramos que proporciona mapas razonables.

Nuestro sistema de IA, SAIS, se basa en la visión y está unificado (Fig. 5). Se basa en la visión, ya que funciona exclusivamente con vídeos quirúrgicos recopilados de forma rutinaria como parte de procedimientos quirúrgicos robóticos. Está unificado ya que la misma arquitectura, sin modificaciones, puede usarse para decodificar múltiples elementos de la actividad quirúrgica intraoperatoria (Fig. 1b). Describimos los beneficios de un sistema de este tipo en Discusión.

Extraemos una secuencia de representaciones D-dimensionales, \(\left\{ {v_t \in {\Bbb R}^D} \right\}_{t = 1}^T\), de T marcos ordenados temporalmente a través de un Transformador de visión (ViT) (congelado) previamente entrenado en el conjunto de datos ImageNet de forma autosupervisada49. En resumen, esta configuración previa al entrenamiento, titulada DINO, implicó la optimización de una función objetivo contrastiva mediante la cual se anima a que las representaciones de la misma imagen, aumentadas de diferentes maneras (como el recorte aleatorio), sean similares entre sí. Para obtener más detalles, consulte el artículo original50.

Los ViT convierten cada cuadro de entrada en un conjunto de parches de imagen cuadrados de dimensión H × H e introducen un mecanismo de autoatención que intenta capturar la relación entre parches de imagen (es decir, información espacial). Descubrimos que esta atención espacial se concentra en las puntas de los instrumentos, las agujas y los bordes anatómicos (Fig. 6). Elegimos este extractor de características sobre la base de (a) evidencia reciente que favorece los modelos preentrenados autosupervisados ​​en relación con sus contrapartes supervisadas y (b) el deseo de reducir la carga computacional asociada con el entrenamiento de un extractor de características en un sistema de extremo a extremo. manera final.

Presentamos dos cuadros de video RGB de muestra de la actividad de manipulación de agujas y la atención espacial correspondiente colocada por ViT en parches de estos cuadros.

Agregamos una incrustación de clasificación D-dimensional que se puede aprender, \(e_{{{{\mathrm{cls}}}}} \in {\Bbb R}^D\), al comienzo de la secuencia de representaciones de cuadros, \( \left\{ {v_t} \right\}_{t = 1}^T\). Para capturar el orden temporal de los fotogramas de las imágenes, agregamos incrustaciones posicionales temporales D-dimensionales, \(\left\{ {e_t \in {\Bbb R}^D} \right\}_{t = 1}^ T\), a la secuencia de representaciones de cuadros antes de ingresar la secuencia en cuatro capas del codificador Transformer. Un codificador de este tipo tiene un mecanismo de autoatención mediante el cual cada cuadro atiende a todos los demás cuadros de la secuencia. Como tal, se capturan las dependencias entre fotogramas tanto de corto como de largo alcance. Resumimos el video específico de la modalidad a través de una representación de video específica de la modalidad, \(h_{{{{\mathrm{cls}}}}} \in {\Bbb R}^D\), de la incrustación de clasificación, ecls, en la capa final del codificador Transformer, como se hace normalmente. Este proceso se repite para la corriente de modalidad de flujo óptico.

Las dos representaciones de vídeo específicas de la modalidad, hRGB y hFlow, se agregan de la siguiente manera:

La representación agregada, hagg, se pasa a través de dos cabezales de proyección, en forma de capas lineales con una función de activación no lineal (ReLU), para obtener una representación de vídeo E-dimensional, \(h_{{{{\mathrm{Video). }}}}} \en {\Bbb R}^E\).

Para lograr la tarea de interés, la representación específica del video, hVideo, sufre una serie de atracciones y repulsiones con incrustaciones que se pueden aprender, a las que nos referimos como prototipos. Cada prototipo, p, refleja una única categoría de interés y tiene la misma dimensionalidad que hVideo. La representación, \(h_{{{{\mathrm{Video}}}}} \in {\Bbb R}^E\), de un vídeo de una categoría particular, c, se siente atraída por el prototipo único, \( p_{{{\mathrm{c}}}} \in {\Bbb R}^E\), asociado con la misma categoría, y repelido de todos los demás prototipos, \(\left\{ {p_j} \right\} _{j = 1}^C,j \ne c\), donde C es el número total de categorías. Logramos esto aprovechando el aprendizaje contrastivo y minimizando la pérdida de InfoNCE, \({{{\mathcal{L}}}}_{{{{\mathrm{NCE}}}}}\):

Durante el entrenamiento, compartimos los parámetros del codificador Transformer entre modalidades para evitar un ajuste excesivo. Como tal, aprendemos, de un extremo a otro, los parámetros del codificador Transformer, la incrustación del token de clasificación, las incrustaciones posicionales temporales, los parámetros del cabezal de proyección y los prototipos de categorías específicas.

Para clasificar una muestra de video en una de las categorías, calculamos la similitud (es decir, similitud coseno) entre la representación del video, hVideo, y cada uno de los prototipos, \(\left\{ {p_j} \right\}_{ j = 1}^C\). Aplicamos la función softmax a estos valores de similitud para obtener una función de masa de probabilidad sobre las categorías. Al identificar la categoría con mayor masa de probabilidad (argmax), podemos hacer una clasificación.

La representación de vídeo, hVideo, puede depender de la elección de los fotogramas (tanto RGB como de flujo óptico) que se introducen inicialmente en el modelo. Por lo tanto, para tener en cuenta esta dependencia y evitar perder marcos potencialmente informativos durante la inferencia, implementamos lo que se conoce como aumento del tiempo de prueba (TTA). Esto implica aumentar la misma entrada varias veces durante la inferencia, lo que, a su vez, genera múltiples funciones de masa de probabilidad. Luego podemos promediar estas funciones de masa de probabilidad, análogas a un modelo de conjunto, para hacer una clasificación única. En nuestro contexto, utilizamos tres entradas en el momento de la prueba; el conjunto original de fotogramas a una frecuencia de muestreo fija, y aquellos perturbados al compensar el fotograma inicial con K fotogramas a la misma frecuencia de muestreo. Al hacerlo, se garantiza que haya una superposición mínima de fotogramas entre las entradas aumentadas, capturando así información diferente y al mismo tiempo continuando abarcando los aspectos más relevantes del vídeo.

Durante el entrenamiento y la inferencia, utilizamos la hora de inicio y la hora de finalización de cada muestra de video para guiar la selección de fotogramas de video de esa muestra. Para la clasificación de gestos, seleccionamos diez fotogramas igualmente espaciados de la muestra de vídeo. Por ejemplo, para una muestra de video con una velocidad de cuadros de 30 Hz y que dura 3 s, entonces de los 30 × 3 = 90 cuadros originales, solo recuperaríamos cuadros ∈ [0, 9, 18,…]. Por el contrario, para el reconocimiento de subfase y la evaluación de habilidades, seleccionamos cada diez cuadros. Por ejemplo, para el mismo ejemplo de vídeo anterior, solo recuperaríamos fotogramas ∈ [0, 10, 20,…]. Descubrimos que estas estrategias dieron como resultado un buen equilibrio entre la complejidad computacional y la captura de señales suficientemente informativas en el video para completar la tarea. De manera similar, los mapas de flujo óptico se basaron en pares de imágenes separadas por 0,5 s. Los períodos de tiempo más cortos dieron como resultado fotogramas que mostraban un movimiento mínimo y, por lo tanto, mapas de flujo poco informativos. Durante el entrenamiento, para garantizar que los mapas RGB y de flujo óptico estuvieran asociados con el mismo período de tiempo, recuperamos mapas que se superponían en el tiempo con los fotogramas RGB. Durante la inferencia, y para TTA, compensamos los fotogramas RGB y de flujo óptico en K = 3 y K = 6 fotogramas.

Realizamos nuestros experimentos en PyTorch51 usando una GPU V100 en una máquina DGX. Cada cuadro RGB y mapa de flujo óptico se redimensionó a 224 × 224 (de 960 × 540 en USC y SAH y 1920 × 1080 en SAH) antes de ingresarlos en el extractor de funciones ViT. El extractor de características ViT preprocesó cada cuadro en un conjunto de parches cuadrados de dimensión H = 16 y generó una representación de cuadro de dimensión D = 384. Todas las representaciones de video y prototipos son de dimensión E = 256. En la práctica, congelamos los parámetros. del ViT, extrajo todas esas representaciones fuera de línea (es decir, antes del entrenamiento) y las almacenó como archivos h5py. Seguimos la misma estrategia para extraer representaciones de mapas de flujo óptico. Esto redujo sustancialmente el típico cuello de botella asociado con la carga de videos y simplificó nuestro proceso de capacitación e inferencia. Esto también facilita la inferencia realizada en videos futuros. Una vez que se graba un nuevo video, sus características se pueden extraer inmediatamente sin conexión y almacenarse para uso futuro.

A menos que se indique lo contrario, entrenamos a SAIS utilizando un tamaño de mini lote de ocho muestras de video y una tasa de aprendizaje de 1e−1, y optimizamos sus parámetros mediante un descenso de gradiente estocástico. A menudo se requiere que las muestras de mini lotes tengan la misma dimensionalidad (B × T × D), donde B es el tamaño del lote, T es el número de fotogramas y D es la dimensión de la representación almacenada. Por lo tanto, cuando encontramos muestras de video en el mismo mini lote con un número diferente de cuadros temporales (como T = 10 versus T = 11), primero agregamos representaciones de marcador de posición (tensores llenos de ceros) al final del video más corto. muestras. Esto aseguró que todas las muestras de vídeo del minilote tuvieran la misma dimensión. Para evitar incorporar estas representaciones rellenas en el procesamiento posterior, utilizamos una matriz de enmascaramiento (matriz con entradas binarias) que indica a qué representaciones debe atender el mecanismo de atención. Es importante destacar que las representaciones acolchadas no son atendidas durante un paso directo a través de SAIS.

Entrenamos varias variantes de SAIS para identificar la contribución de cada uno de sus componentes al desempeño general. Específicamente, las variantes del modelo se entrenan utilizando SAIS (línea de base), se evalúan sin aumento del tiempo de prueba ('sin TTA') y se exponen solo a flujo óptico ('sin RGB') o cuadros RGB ('sin flujo') como entradas. También eliminamos el mecanismo de autoatención que capturaba la relación entre los fotogramas y el orden temporal de ellos ('sin SA'). En esta configuración, simplemente promediamos las características del marco. Aunque presentamos el VPP en Resultados, llegamos a hallazgos similares cuando utilizamos otras métricas de evaluación.

Después de entrenar y evaluar un modelo en muestras de video (del orden de 10 a 30 s), lo implementamos en videos completos (del orden de 10 a 30 min) para decodificar un elemento de la actividad quirúrgica sin supervisión humana. Nos referimos a este proceso como inferencia. Como describimos a continuación, una implementación adecuada de la inferencia a menudo depende del elemento de la actividad quirúrgica que se decodifica.

Las muestras de vídeo utilizadas para entrenar y evaluar SAIS para decodificar las tres subfases de sutura de manejo de la aguja, conducción de la aguja y retirada de la aguja abarcaron, en promedio, entre 10 y 30 s (Nota complementaria 2). Esto guió nuestras elecciones de diseño para la inferencia.

Durante la inferencia, adoptamos dos enfoques complementarios, como se describe a continuación. Método 1: presentamos a SAIS muestras de video de 10 s de un video VUA completo con superposiciones de 5 s entre muestras de video posteriores, lo que garantiza que capturemos la actividad de los límites. Como tal, cada muestra de video de 10 s se asoció con una única salida probabilística, {sNH, sND, sNW}, que refleja la probabilidad, s, de manipulación de la aguja (NH), conducción de la aguja (ND) y retirada de la aguja (NW). Método 2: presentamos a SAIS muestras de vídeo de 5 segundos que no se superponen del mismo vídeo. La motivación para elegir una muestra de vídeo más corta es capturar una subfase breve que, de otro modo, se habría fusionado con otra subfase al utilizar una muestra de vídeo más larga. Como tal, cada muestra de vídeo de 5 segundos se asoció con una única salida probabilística. Tenga en cuenta que seguimos el mismo enfoque para seleccionar fotogramas de cada muestra de video que utilizamos durante la configuración de capacitación y evaluación original (consulte Detalles de implementación e hiperparámetros).

Como ejemplo de estos enfoques, la primera muestra de video presentada a SAIS en el enfoque 1 abarca de 0 a 10 s, mientras que las dos primeras muestras de video presentadas a SAIS en el enfoque 2 abarcan de 0 a 5 sy de 5 a 10 s, respectivamente. Al considerar ambos enfoques, el intervalo de tiempo de 0 a 10 s se asocia con tres resultados probabilísticos únicos (al igual que cualquier otro intervalo de tiempo de 10 s).

Recuerde que entrenamos a SAIS utilizando una validación cruzada de Monte Carlo diez veces, lo que resultó en diez modelos únicos. Para aumentar nuestra confianza en el proceso de inferencia, realizamos la inferencia siguiendo los dos enfoques antes mencionados con cada uno de los diez modelos. Como tal, cada período de tiempo de 10 s se asoció con 3 salidas probabilísticas (P) × 10 pliegues (F) × 3 TTA = 90 salidas probabilísticas en total. Como se hace con los modelos de conjunto, luego promediamos estos resultados probabilísticos (también conocidos como embolsado) para obtener un resultado probabilístico único,\(\left\{ {\overline s _ {{\mathrm{NH}}},\overline s _{ {\mathrm{ND}}},\overline s _ {{\mathrm{NW}}}} \right\}\), donde el valor de probabilidad j-ésimo para j ∈ [1, C] (categorías C) se obtiene como sigue:

Además de que los modelos de conjunto a menudo superan a sus homólogos de modelos individuales, también pueden proporcionar una estimación de la incertidumbre sobre una clasificación. Esta cuantificación de la incertidumbre puede ser útil para identificar muestras de video fuera de distribución52, como aquellas que el modelo nunca ha visto antes, o para resaltar muestras de video cuya clasificación es ambigua y, por lo tanto, potencialmente inexacta. Para cuantificar la incertidumbre, nos inspiramos en trabajos recientes53 y calculamos la entropía, S, de la producción probabilística resultante después del embolsado. Dado que una entropía alta implica una incertidumbre alta, podemos optar por abstenernos de considerar clasificaciones cuya entropía exceda algún umbral, Sthresh:

Una vez que filtramos las predicciones que son inciertas (es decir, que exhiben alta entropía), nos quedaron predicciones individuales para cada subfase que abarcan como máximo 10 s (debido a cómo identificamos anteriormente las muestras de video). Sin embargo, sabemos por observación que ciertas subfases pueden durar más de 10 s (Nota complementaria 2). Para tener en cuenta esto, agregamos predicciones de subfases que fueron cercanas entre sí a lo largo del tiempo. Específicamente, agregamos múltiples predicciones de la misma subfase en una sola predicción si estaban separadas por menos de 3 s, encadenando de hecho las predicciones. Aunque es probable que este valor dependa de otras elecciones en el proceso de inferencia, encontramos que produce resultados razonables.

Las muestras de vídeo utilizadas para entrenar y evaluar SAIS para decodificar los seis gestos de disección abarcaron, en promedio, entre 1 y 5 s. Esto también guió nuestras elecciones de diseño para la inferencia.

Durante la inferencia, encontramos suficiente adoptar solo uno de los dos enfoques de inferencia descritos anteriormente (inferencia para el reconocimiento de subfase). Específicamente, presentamos a SAIS muestras de video de 1 segundo que no se superponen de un video NS completo. Como tal, cada muestra de vídeo de 1 s se asoció con una única salida probabilística, \(\{ s_j\} _{j = 1}^6\) que refleja la probabilidad, s, de cada uno de los seis gestos.

Al igual que con la inferencia para el reconocimiento de la subfase de sutura, implementamos los diez modelos SAIS (de los diez pliegues de Monte Carlo) y tres TTA en las mismas muestras de video. Como tal, cada muestra de video de 1 s se asoció con 10 × 3 = 30 salidas probabilísticas. Luego se promedian para obtener un único resultado probabilístico, \(\{ \bar s_j\} _{j = 1}^6\).

También aprovechamos la entropía de las clasificaciones de gestos como una forma de cuantificar la incertidumbre y así abstenernos de realizar clasificaciones de gestos altamente inciertas. Encontramos que Sthresh = 1,74 condujo a resultados razonables.

Para tener en cuenta la observación de que los gestos pueden durar varios segundos, agregamos predicciones individuales de 1 s que estuvieron cercanas entre sí a lo largo del tiempo. Específicamente, agregamos múltiples predicciones del mismo gesto en una sola predicción si estaban separadas por menos de 2 s. Por ejemplo, si se predice un gesto de retracción (r) en intervalos de 10 a 11 s, 11 a 12 s y 15 a 16 s, lo tratamos como dos gestos de retracción distintos. El primero dura 2 s (10 a 12 s), mientras que el segundo dura 1 s (15 a 16 s). Esto evita que etiquetemos gestos espurios e incompletos (por ejemplo, el principio o el final de un gesto) como un gesto completamente distinto a lo largo del tiempo. Nuestro intervalo de 2 s introdujo cierta tolerancia para una posible clasificación errónea entre gestos del mismo tipo y permitió la continuidad temporal de los gestos.

Capacitamos a SAIS en dos conjuntos de datos disponibles públicamente: JIGSAWS11 y DVC UCL12. En resumen, estos conjuntos de datos contienen muestras de vídeo de personas que realizan gestos de sutura, ya sea en un entorno de laboratorio controlado o durante el paso del complejo vascular dorsal del procedimiento quirúrgico RARP. Para obtener más detalles sobre estos conjuntos de datos, remitimos a los lectores a las respectivas publicaciones originales.

Seguimos la configuración de validación cruzada comúnmente adoptada de dejar a un usuario fuera11. Esto implica capacitarse con muestras de video de todos los usuarios menos uno y evaluar las del usuario restante. Estos detalles se pueden encontrar en una revisión reciente9.

Este conjunto de datos, publicado recientemente como parte del Endoscopic Vision Challenge 2022 en MICCAI, consta de 45 vídeos de un total de ocho cirujanos que realizan gestos de sutura durante el paso del complejo vascular dorsal del procedimiento quirúrgico RARP12. El conjunto de datos disponible públicamente, al momento de escribir este artículo, se compone de 36 videos de este tipo (Tabla 1). De manera similar a los conjuntos de datos privados que utilizamos, cada video (del orden de 2 a 3 minutos) está anotado con una secuencia de ocho gestos de sutura únicos junto con su hora de inicio y hora de finalización. Tenga en cuenta que estas anotaciones no siguen la taxonomía que hemos desarrollado y, por lo tanto, son distintas de las que describimos en la sección Anotaciones y ejemplos de videos quirúrgicos. El único método anterior para evaluar este conjunto de datos lo hace en un conjunto de prueba privado. Como este conjunto de prueba no está disponible públicamente, adoptamos una configuración de dejar un video fuera e informamos el rendimiento de validación cruzada diez veces mayor de SAIS (Tabla complementaria 3 para la cantidad de muestras de video en cada pliegue). Esta configuración proporciona información sobre qué tan bien SAIS puede generalizarse a videos no vistos. Además, a la luz de las pocas muestras de una de las categorías de gestos (G5), distinguimos entre sólo siete de los gestos. Para facilitar la reproducibilidad de nuestros hallazgos, publicaremos las divisiones de datos exactas utilizadas para la capacitación y las pruebas.

Entrenamos el modelo I3D para decodificar el nivel de habilidad binario de manejo y conducción de agujas sobre la base de muestras de video del paso VUA. Para una comparación justa, presentamos el modelo I3D con exactamente los mismos datos presentados a SAIS (nuestro modelo). Al entrenar el modelo I3D, seguimos la estrategia central propuesta en la ref. 6. Por ejemplo, cargamos los parámetros previamente entrenados en el conjunto de datos de Kinetics y congelamos todas las capas excepto las tres últimas (denominadas Mixed5b, Mixed5c y logits).

Sin embargo, habiendo observado que el modelo I3D era bastante sensible a la elección de los hiperparámetros, consideramos necesario realizar una gran cantidad de experimentos para identificar la configuración y los hiperparámetros óptimos para decodificar la habilidad quirúrgica, cuyos detalles se describen a continuación. Primero, mantuvimos la capa logits como está, lo que resultó en una representación de 400 dimensiones, y la seguimos con un cabezal de clasificación no lineal para generar la probabilidad de, por ejemplo, una actividad de alta habilidad. También aprovechamos ambas modalidades de datos (RGB y flujo), lo que descubrimos que mejoraba la implementación original que había utilizado solo una modalidad. Específicamente, sumamos las dos representaciones de 400 dimensiones (una para cada modalidad) entre sí y pasamos la representación resultante a través del cabezal de clasificación antes mencionado. Dado que el I3D previamente entrenado esperaba una entrada con 16 cuadros o múltiplos de ellos, le proporcionamos una muestra de video compuesta por 16 cuadros igualmente espaciados entre el tiempo de inicio y el tiempo de finalización de esa muestra. Si bien también experimentamos con un número diferente de fotogramas, descubrimos que arrojaba resultados subóptimos. Para entrenar I3D, utilizamos un tamaño de lote de 16 muestras de video y una tasa de aprendizaje de 1e−3.

Para determinar si las evaluaciones de habilidades de SAIS están asociadas con los resultados de los pacientes, realizamos un experimento con dos variantes. Primero implementamos SAIS en el conjunto de prueba de muestras de video en cada pliegue de la configuración de validación cruzada de Monte Carlo. Esto dio como resultado un resultado, Z1 ∈ [0, 1], para cada muestra de video que refleja la probabilidad de una evaluación de alta habilidad. En la primera variante de este experimento, asignamos a cada muestra de vídeo, vinculada a un caso quirúrgico, un resultado de recuperación de la continencia urinaria (3 meses después de la cirugía), Y. Para tener en cuenta el hecho de que un único resultado, Y, está vinculado a un caso quirúrgico completo, en la segunda variante de este experimento, promediamos las salidas, Z, para todas las muestras de video dentro del mismo caso quirúrgico. Esto, naturalmente, redujo el número total de muestras disponibles.

En ambos experimentos, controlamos el número total de cirugías robóticas realizadas por el cirujano (número de casos, Z2) y la edad del paciente operado (Z3), y realizamos una regresión de los resultados probabilísticos de SAIS al resultado de recuperación de la continencia urinaria utilizando un modelo de regresión logística (SPSS), como se muestra a continuación (σ es la función sigmoidea). Después de entrenar este modelo, extrajimos el coeficiente b1 e informamos el odds ratio (OR) y el intervalo de confianza (IC) del 95%.

Más información sobre el diseño de la investigación está disponible en el Resumen del informe de Nature Portfolio vinculado a este artículo.

Los datos que respaldan los resultados de este estudio incluyen datos del cirujano y del paciente. Como tal, si bien los datos de SAH y HMH no están disponibles públicamente, los datos no identificados de USC pueden estar disponibles previa solicitud razonable de los autores.

El código está disponible en https://github.com/danikiyasseh/SAIS.

Weiser, TG y cols. Una estimación del volumen global de cirugía: una estrategia de modelado basada en los datos disponibles. Lanceta 372, 139-144 (2008).

Artículo PubMed Google Scholar

Sheetz, KH, Claflin, J. & Dimick, JB Tendencias en la adopción de la cirugía robótica para procedimientos quirúrgicos comunes. Red JAMA. Abierto 3, e1918911 – e1918911 (2020).

Artículo PubMed PubMed Central Google Scholar

Birkmeyer, JD y cols. Habilidad quirúrgica y tasas de complicaciones después de la cirugía bariátrica. N. inglés. J. Med. 369, 1434-1442 (2013).

Artículo CAS PubMed Google Scholar

Zia, A., Hung, A., Essa, I. y Jarc, A. Reconocimiento de actividad quirúrgica en prostatectomía radical asistida por robot mediante aprendizaje profundo. En Conferencia internacional sobre informática de imágenes médicas e intervención asistida por computadora, 273–280 (Springer, 2018).

Luongo, F., Hakim, R., Nguyen, JH, Anandkumar, A. & Hung, AJ Visión por computadora basada en aprendizaje profundo para reconocer y clasificar gestos de sutura en cirugía asistida por robot. Cirugía 169, 1240–1244 (2021).

Artículo PubMed Google Scholar

Funke, I. et al. Uso de redes neuronales convolucionales 3D para aprender características espaciotemporales para el reconocimiento automático de gestos quirúrgicos en video. En la Conferencia internacional sobre informática de imágenes médicas e intervención asistida por computadora 467–475 (Springer, 2019); https://doi.org/10.1007/978-3-030-32254-0_52

Lavanchy, JL y cols. Automatización de la evaluación de habilidades quirúrgicas mediante un algoritmo de aprendizaje automático de tres etapas. Ciencia. Representante 11, 1–9 (2021).

Google Académico

Goodman, ED y cols. Un modelo de IA espaciotemporal en tiempo real analiza la habilidad en vídeos quirúrgicos abiertos. Preimpresión en arXiv https://arxiv.org/abs/2112.07219 (2021).

van Amsterdam, B., Clarkson, M. y Stoyanov, D. Reconocimiento de gestos en cirugía robótica: una revisión. Traducción IEEE. Biomédica. Ing. 68, 2021-2035 (2021).

Kiyasseh, D., Zhu, T. & Clifton, D. Un marco clínico de aprendizaje profundo para aprender continuamente a partir de señales cardíacas en todas las enfermedades, el tiempo, las modalidades y las instituciones. Nat. Comunitario. 12, 1-11 (2021).

Artículo de Google Scholar

Gao, Y. et al. Conjunto de trabajo de evaluación de habilidades y gestos JHU-ISI (JIGSAWS): un conjunto de datos de actividad quirúrgica para el modelado del movimiento humano. En Actas del modelado y monitoreo de intervenciones asistidas por computadora (M2CAI) —Taller MICCAI, vol. 3 (CIRL, Universidad Johns Hopkins, 2014).

Van Amsterdam, B. y col. Reconocimiento de gestos en cirugía robótica con atención multimodal. Traducción IEEE. Medicina. Imágenes 41, 1677–1687 (2022).

Kitaguchi, D. y col. Desarrollo y validación de una red neuronal convolucional tridimensional para la evaluación automática de habilidades quirúrgicas basada en análisis de video espaciotemporal. Red JAMA. Abierto 4, e2120786 – e2120786 (2021).

Artículo PubMed PubMed Central Google Scholar

Ghassemi, M., Oakden-Rayner, L. & Beam, AL La falsa esperanza de los enfoques actuales sobre la inteligencia artificial explicable en la atención médica. Dígito de lanceta. Salud 3, e745 – e750 (2021).

Artículo CAS PubMed Google Scholar

Sanford, D. y col. Asociación de puntuaciones de evaluación de habilidades técnicas de sutura entre simulación de realidad virtual y cirugía en vivo. J. Endourol. 36, 1388-1394 (2022).

Trinh, L. et al. Análisis de supervivencia utilizando métricas de habilidades del cirujano y factores del paciente para predecir la recuperación de la continencia urinaria después de una prostatectomía radical asistida por robot. EUR. Urol. Enfocar. 8, 623–630 (2022).

Artículo PubMed Google Scholar

Kiyasseh D. et al. Un estudio multiinstitucional que utiliza inteligencia artificial para brindar comentarios confiables y justos a los cirujanos. Comunitario. Medicina. https://doi.org/10.1038/s43856-023-00263-3 (2023).

Carreira, J. & Zisserman, A. Quo vadis, ¿reconocimiento de la acción? Un nuevo modelo y el conjunto de datos cinéticos. En actas de la conferencia de la IEEE Computer Society sobre visión por computadora y reconocimiento de patrones, 6299–6308 (IEEE, 2017).

Kiyasseh, D., Zhu, T. y Clifton, D. CROCS: agrupación y recuperación de señales cardíacas según la clase de enfermedad, el sexo y la edad del paciente. Adv. Inf. neuronal. Proceso. Sistema. 34, 15557–15569 (2021).

Google Académico

Bengio, Y., Louradour, J., Collobert, R. y Weston, J. Aprendizaje curricular. En Actas de la 26ª Conferencia Internacional Anual sobre Aprendizaje Automático, 41–48 (Asociación de Maquinaria de Computación, 2009).

Kiyasseh D. et al. Las explicaciones visuales humanas mitigan el sesgo en la evaluación de las habilidades de los cirujanos basada en IA. Dígito NPJ. Medicina. https://doi.org/10.1038/s41746-023-00766-2 (2023).

Collins, JW y cols. Implicaciones éticas de la IA en el entrenamiento quirúrgico robótico: una declaración de consenso de Delphi. EUR. Urol. Enfocar. 8, 613–622 (2021).

Hashimoto, DA, Rosman, G., Rus, D. & Meireles, O Inteligencia artificial en cirugía: promesas y peligros. Ana. Cirugía. 268, 70 (2018).

Artículo PubMed Google Scholar

Maier-Hein, L. et al. Ciencia de datos quirúrgicos para intervenciones de próxima generación. Nat. Biomédica. Ing. 1, 691–696 (2017).

Artículo PubMed Google Scholar

Weede, O. y col. Análisis de flujo de trabajo y reconocimiento de fases quirúrgicas en cirugía mínimamente invasiva. En 2012, Conferencia Internacional IEEE sobre Robótica y Biomimética (ROBIO) 1080–1074 (IEEE, 2012).

Hung, AJ y cols. Utilizar el aprendizaje automático y métricas de rendimiento automatizadas para evaluar el rendimiento de la prostatectomía radical asistida por robot y predecir los resultados. J. Endourol. 32, 438–444 (2018).

Artículo PubMed Google Scholar

Hung, AJ, Chen, J. & Gill, IS Métricas de rendimiento automatizadas y algoritmos de aprendizaje automático para medir el rendimiento del cirujano y anticipar resultados clínicos en cirugía robótica. JAMA Cirugía. 153, 770–771 (2018).

Artículo PubMed PubMed Central Google Scholar

Hung, AJ y cols. Aprendizaje profundo sobre métricas de rendimiento automatizadas y características clínicas para predecir la recuperación de la continencia urinaria después de una prostatectomía radical asistida por robot. BJU Int. 124, 487 (2019).

Artículo PubMed PubMed Central Google Scholar

Nwoye, CI y cols. CholecTriplet2021: un reto de referencia para el reconocimiento de tripletes de acción quirúrgica. Preimpresión en arXiv https://arxiv.org/abs/2204.04746 (2022).

Béjar Haro, B., Zappella, L. & Vidal, R. Clasificación de gestos quirúrgicos a partir de datos de vídeo. En Conferencia internacional sobre informática de imágenes médicas e intervención asistida por computadora, 34–41 (Springer-Verlag, 2012).

Khalid, S., Goldenberg, M., Grantcharov, T., Taati, B. y Rudzicz, F. Evaluación de modelos de aprendizaje profundo para identificar acciones quirúrgicas y medir el desempeño. Red JAMA. Abierto 3, e201664 – e201664 (2020).

Artículo PubMed Google Scholar

van Amsterdam, B., Clarkson, MJ y Stoyanov, D. Red neuronal recurrente multitarea para el reconocimiento de gestos quirúrgicos y la predicción del progreso. En 2020, Conferencia Internacional IEEE sobre Robótica y Automatización (ICRA), 1380–1386 (IEEE, 2020).

Gao, X., Jin, Y., Dou, Q. y Heng, P.-A. Reconocimiento automático de gestos en cirugía asistida por robot con aprendizaje por refuerzo y búsqueda en árbol. En 2020, Conferencia Internacional IEEE sobre Robótica y Automatización (ICRA), 8440–8446 (IEEE, 2020).

Wu, JY, Tamhane, A., Kazanzides, P. y Unberath, M. Aprendizaje de representación autosupervisado multimodal para el reconocimiento de gestos y habilidades en cirugía robótica. En t. J. Computación. Asistir. Radiol. Cirugía. 16, 779–787 (2021).

Artículo PubMed Google Scholar

Wagner, M. y col. Validación comparativa de algoritmos de aprendizaje automático para flujo de trabajo quirúrgico y análisis de habilidades con el punto de referencia heichole. Medicina. Imagen Anal. 86, 102770 (2023).

Zappella, L., Béjar, B., Hager, G. & Vidal, R. Clasificación de gestos quirúrgicos a partir de vídeo y datos cinemáticos. Medicina. Imagen Anal. 17, 732–745 (2013).

Artículo PubMed Google Scholar

Bar, O. y col. Impacto de los datos en la generalización de la IA para aplicaciones de inteligencia quirúrgica. Ciencia. Representante 10, 1-12 (2020).

Artículo de Google Scholar

Vaswani, A. y col. Atención es todo lo que necesitas. En Avances en sistemas de procesamiento de información neuronal (Eds Guyon, I. et al.) Vol. 30 (NIPS, 2017).

Garrow, CR y cols. Aprendizaje automático para el reconocimiento de la fase quirúrgica: una revisión sistemática. Ana. Cirugía. 273, 684–693 (2021).

Artículo PubMed Google Scholar

Czempiel, T. y col. Opera: transformadores de atención regularizada para reconocimiento de fase quirúrgica. En Conferencia internacional sobre informática de imágenes médicas e intervención asistida por computadora, 604–614 (Springer, 2021).

Nwoye, CI y cols. Rendezvous: mecanismos de atención para el reconocimiento de tripletas de acción quirúrgica en videos endoscópicos. Medicina. Imagen Anal. 78, 102433 (2022).

Artículo PubMed Google Scholar

Aspart, F. y col. ClipAssistNet: brinda información sobre seguridad en tiempo real a los quirófanos. En t. J. Computación. Asistir. Radiol. Cirugía. 17, 5-13 (2022).

Artículo PubMed Google Scholar

Nwoye, CI & Padoy, N. Divisiones de datos y métricas para la evaluación comparativa de métodos en conjuntos de datos tripletes de acciones quirúrgicas. Preimpresión en arXiv https://arxiv.org/abs/2204.05235 (2022).

Ma, R. y col. Una nueva clasificación de gestos de disección para caracterizar la técnica de disección robótica para la disección hiliar renal. J. Urol. 205, 271–275 (2021).

Artículo PubMed Google Scholar

Moy, RL, Waldman, B. & Hein, DW Una revisión de las suturas y las técnicas de sutura. J. Dermatol. Cirugía. Oncol. 18, 785–795 (1992).

Artículo CAS PubMed Google Scholar

Haque, TF y cols. Una herramienta de evaluación para proporcionar retroalimentación específica a los alumnos de cirugía robótica: desarrollo y validación de la evaluación de un extremo a otro de la experiencia en sutura (facilidad). Urol. Practica. 9, 532–539 (2022).

Hung, AJ y cols. Camino hacia la automatización de la evaluación de las habilidades de sutura robótica: luchando contra el etiquetado incorrecto de la verdad fundamental. Cirugía 171, 915–919 (2022).

Artículo PubMed Google Scholar

Teed, Z. & Deng, J. Raft: transformaciones de campo recurrentes de todos los pares para flujo óptico. En Conferencia europea sobre visión por computadora, 402–419 (Springer, 2020).

Dosovitskiy, A. et al. Una imagen vale 16x16 palabras: transformadores para el reconocimiento de imágenes a escala. En Conferencia Internacional sobre Representaciones del Aprendizaje (ICLR, 2021).

Caron, M. y col. Propiedades emergentes en transformadores de visión autosupervisados. En la Conferencia internacional IEEE/CVF sobre visión por computadora, 9650–9660 (IEEE, 2021).

Paszke, A. et al. Pytorch: una biblioteca de aprendizaje profundo de alto rendimiento y estilo imperativo. En Avances en sistemas de procesamiento de información neuronal (Eds Wallach, H. et al.) Vol. 32 (NIPS, 2019).

Roy, AG y cols. ¿Su clasificador de dermatología sabe lo que no sabe? Detectando la larga cola de condiciones invisibles. Medicina. Imagen Anal. 75, 102274 (2022).

Artículo de Google Scholar

Lakshminarayanan, B., Pritzel, A. y Blundell, C. Estimación de la incertidumbre predictiva simple y escalable utilizando conjuntos profundos. En Avances en sistemas de procesamiento de información neuronal (Eds Guyon, I. et al.) Vol. 30 (NIPS, 2017).

Descargar referencias

Agradecemos a T. Chu por la anotación de vídeos con gestos. También agradecemos a J. Laca y J. Nguyen por sus comentarios iniciales sobre la presentación del manuscrito. AJH revela su apoyo a la investigación descrita en este estudio del Instituto Nacional del Cáncer bajo el premio no. R01CA251579-01A1 y una beca de investigación clínica quirúrgica intuitiva de varios años.

Departamento de Computación y Ciencias Matemáticas, Instituto de Tecnología de California, Pasadena, CA, EE. UU.

Dani Kiyasseh y Animashree Anandkumar

Centro de Educación y Simulación Robótica, Departamento de Urología Catherine & Joseph Aresty, Universidad del Sur de California, Los Ángeles, CA, EE. UU.

Runzhuo Ma, Taseen F. Haque y Andrew J. Hung

Departamento de Urología, Hospital Metodista de Houston, Houston, TX, EE. UU.

Brian J. Miles

Departamento de Urología, Urología Pediátrica y Uro-Oncología, Centro de Próstata Noroeste, Hospital St. Antonius, Gronau, Alemania

Christian Wagner

División de Neurocirugía, Centro de Neurociencia, Hospital Nacional de Niños, Washington, DC, EE. UU.

Daniel A. Donoho

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

DK y AJH contribuyeron a la concepción del estudio. DK contribuyó al diseño del estudio, desarrolló los modelos de aprendizaje profundo y escribió el manuscrito. RM y TH proporcionaron anotaciones para las muestras de vídeo. DAD proporcionó amplios comentarios sobre el manuscrito. BJM proporcionó datos para el estudio. CW recopiló datos de SAH y brindó comentarios sobre el manuscrito. AJH y AA supervisaron y contribuyeron a la edición del manuscrito.

Correspondencia a Dani Kiyasseh o Andrew J. Hung.

DK es un empleado remunerado de Vicarious Surgical y consultor de Flatiron Health. CW es un consultor remunerado de Intuitive Surgical. AA es un empleado de Nvidia. AJH es consultor de Intuitive Surgical. Los demás autores no declaran tener intereses en competencia.

Nature Biomedical Engineering agradece a Masaaki Ito, Jie Ying Wu y los demás revisores anónimos por su contribución a la revisión por pares de este trabajo. Los informes de los revisores pares están disponibles.

Nota del editor Springer Nature se mantiene neutral con respecto a reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Notas complementarias, figuras y tablas.

Acceso Abierto Este artículo está bajo una Licencia Internacional Creative Commons Attribution 4.0, que permite el uso, compartir, adaptación, distribución y reproducción en cualquier medio o formato, siempre y cuando se dé el crédito apropiado a los autores originales y a la fuente. proporcione un enlace a la licencia Creative Commons e indique si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la normativa legal o excede el uso permitido, deberá obtener permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Kiyasseh, D., Ma, R., Haque, TF et al. Un transformador de visión para decodificar la actividad del cirujano a partir de vídeos quirúrgicos. Nat. Biomédica. Inglés 7, 780–796 (2023). https://doi.org/10.1038/s41551-023-01010-8

Descargar cita

Recibido: 22 de junio de 2022

Aceptado: 15 de febrero de 2023

Publicado: 30 de marzo de 2023

Fecha de emisión: junio de 2023

DOI: https://doi.org/10.1038/s41551-023-01010-8

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, actualmente no hay un enlace para compartir disponible para este artículo.

Proporcionado por la iniciativa de intercambio de contenidos Springer Nature SharedIt

npj Medicina digital (2023)

npj Medicina digital (2023)

npj Medicina digital (2023)

Endoscopia Quirúrgica (2023)