U-Net es una red neuronal convolucional desarrollada para la segmentación de imágenes biomédicas en el Departamento de Informática de la Universidad de Friburgo.[1]​ La red se basa en una red neuronal totalmente convolucional[2]​ cuya arquitectura se modificó y amplió para trabajar con menos imágenes de entrenamiento y producir una segmentación más precisa. La segmentación de una imagen de 512 × 512 tarda menos de un segundo en una GPU moderna.

La arquitectura U-Net también se ha empleado en modelos de difusión para la eliminación iterativa de ruido en imágenes.[3]​ Esta tecnología es la base de muchos modelos modernos de generación de imágenes, como DALL-E, Midjourney y Stable Diffusion.

Descripción

editar

La arquitectura U-Net procede de la denominada "red totalmente convolucional" propuesta por Long, Shelhamer y Darrell en 2014.[2]

La idea principal consiste en complementar una red de contracción habitual con capas sucesivas, en las que las operaciones de agrupamiento se sustituyen por operadores de remuestreo. Así, estas capas aumentan la resolución de la salida. A continuación, una capa convolucional sucesiva puede aprender a ensamblar una salida precisa basándose en esta información.[1]

Una modificación importante en U-Net es que hay un gran número de canales de características en la parte de muestreo ascendente, que permiten a la red propagar la información de contexto a capas de mayor resolución. Como consecuencia, la ruta expansiva es más o menos simétrica a la parte de contracción, y da lugar a una arquitectura en forma de U. La red sólo utiliza la parte válida de cada convolución, sin capas totalmente conectadas.[2]​ Para predecir los píxeles de la región fronteriza de la imagen, el contexto que falta se extrapola reflejando la imagen de entrada. Esta estrategia de mosaico es importante para aplicar la red a imágenes de gran tamaño, ya que de otro modo la resolución se vería limitada por la memoria de la GPU.

Historia

editar

U-Net fue creada por Olaf Ronneberger, Philipp Fischer y Thomas Brox en 2015 y publicada en el artículo "U-Net: Convolutional Networks for Biomedical Image Segmentation".[1]​ Es una mejora y desarrollo de FCN: Evan Shelhamer, Jonathan Long, Trevor Darrell (2014). "Redes totalmente convolucionales para la segmentación semántica".[2]

Arquitectura de red

editar

La red consta de una ruta de contracción y una ruta expansiva, lo que le confiere la arquitectura en forma de u. La ruta de contracción es una red convolucional típica que consiste en la aplicación repetida de convoluciones, cada una de ellas seguida de una unidad lineal rectificada (ReLU) y una operación de agrupación máxima. Durante la contracción, la información espacial se reduce mientras que la información de características aumenta. La vía expansiva combina la información espacial y de rasgos mediante una secuencia de convoluciones ascendentes y concatenaciones con rasgos de alta resolución procedentes de la vía de contracción.[4]

Aplicaciones

editar
Este es un ejemplo de arquitectura de U-Net para producir k máscaras de imagen de 256 por 256 para una imagen RGB de 256 por 256.

Existen muchas aplicaciones de U-Net en la segmentación de imágenes biomédicas, como la segmentación de imágenes cerebrales (''BRATS'')[5]​ y la segmentación de imágenes hepáticas (''siliver07''),[6]​ así como la predicción de sitios de unión de proteínas.[7]​ Las implementaciones de U-Net también han encontrado uso en las ciencias físicas, por ejemplo en el análisis de micrografías de materiales.[8][9][10]​ También se han aplicado variaciones de U-Net para la reconstrucción de imágenes médicas.[11]​ A continuación se presentan algunas variantes y aplicaciones de U-Net:

  1. Regresión por píxeles mediante U-Net y su aplicación al enfoque panorámico;[12]
  2. 3D U-Net: Aprendizaje de segmentación volumétrica densa a partir de anotación dispersa;[13]
  3. TernausNet: U-Net con codificador VGG11 preentrenado en ImageNet para segmentación de imágenes.[14]
  4. Traducción de imagen a imagen para estimar las manchas fluorescentes.[15]
  5. En la predicción de sitios de unión de la estructura de las proteínas.[7]

Referencias

editar
  1. a b c Ronneberger O, Fischer P, Brox T (2015). "U-Net: Convolutional Networks for Biomedical Image Segmentation". 
  2. a b c d Shelhamer E, Long J, Darrell T (2014). «"Fully Convolutional Networks for Semantic Segmentation".». IEEE Transactions on Pattern Analysis and Machine Intelligence. PMID 27244717. doi:10.1109/TPAMI.2016.2572683. 
  3. Ho, Jonathan (2020). Denoising Diffusion Probabilistic Models. 
  4. «U-Net: Convolutional Networks for Biomedical Image Segmentation». lmb.informatik.uni-freiburg.de (en alemán). Consultado el 9 de marzo de 2024. 
  5. «MICCAI BraTS 2017: Scope | Section for Biomedical Image Analysis (SBIA) | Perelman School of Medicine at the University of Pennsylvania». www.med.upenn.edu (en inglés). Consultado el 9 de marzo de 2024. 
  6. "SLIVER07 : Home. 
  7. a b Nazem F, Ghasemi F, Fassihi A, Dehnavi AM (2021). «"3D U-Net: A voxel-based method in binding site prediction of protein structure".». Journal of Bioinformatics and Computational Biology. PMID 33866960. doi:10.1142/S0219720021500062. 
  8. Chen, Fu-Xiang Rikudo; Lin, Chia-Yu; Siao, Hui-Ying; Jian, Cheng-Yuan; Yang, Yong-Cheng; Lin, Chun-Liang (2023). «"Deep learning based atomic defect detection framework for two-dimensional materials"». Scientific Data. PMID 36788235. doi:10.1038/s41597-023-02004-6. 
  9. Shi, Peng; Duan, Mengmeng; Yang, Lifang; Feng, Wei; Ding, Lianhong; Jiang, Liwu (2022). «"An Improved U-Net Image Segmentation Method and Its Application for Metallic Grain Size Statistics"». Materials. PMID 35806543. doi:10.3390/ma15134417. 
  10. «"Automated Grain Boundary Detection for Bright-Field Transmission Electron Microscopy Images via U-Net"». academic.oup.com. doi:10.1093/micmic/ozad115/7422794. Consultado el 9 de marzo de 2024. 
  11. Andersson J, Ahlström H, Kullberg J (2019). «"Separation of water and fat signal in whole-body gradient echo scans using convolutional neural networks». Magnetic Resonance in Medicine. PMID 31033022. doi:10.1002/mrm.27786. 
  12. Yao W, Zeng Z, Lian C, Tang H (2018). «"Pixel-wise regression using U-Net and its application on pansharpening".». Neurocomputing. ISSN 0925-2312. doi:10.1016/j.neucom.2018.05.103. 
  13. Çiçek Ö, Abdulkadir A, Lienkamp SS, Brox T, Ronneberger O (2016). "3D U-Net: Learning Dense Volumetric Segmentation from Sparse Annotation. 
  14. Iglovikov V, Shvets A (2018). "TernausNet: U-Net with VGG11 Encoder Pre-Trained on ImageNet for Image Segmentation. 
  15. Kandel ME, He YR, Lee YJ, Chen TH, Sullivan KM, Aydin O, et al. (2020). «"Phase imaging with computational specificity (PICS) for measuring dry mass changes in sub-cellular compartments». Nature Communications. PMID 33288761. doi:10.1038/s41467-020-20062-x. 

Variantes modernas y aplicaciones clínicas

editar

U-Net ha demostrado un rendimiento excepcional incluso con conjuntos de datos de entrenamiento pequeños, algo común en medicina. Sus principales variantes modernas incluyen:

  • nnU-Net (no-new-U-Net): una versión auto-configurable que ajusta automáticamente los hiperparámetros según el conjunto de datos, dominando competiciones internacionales de segmentación médica.
  • Attention U-Net: incorpora mecanismos de atención que permiten a la red enfocarse en regiones relevantes de la imagen, mejorando la segmentación de estructuras pequeñas.

Las conexiones de salto (skip connections) constituyen la innovación arquitectónica clave de U-Net: conectan directamente capas del encoder con capas correspondientes del decoder, transfiriendo información de alta resolución que se perdería durante la compresión. Esto permite combinar el contexto semántico ("qué" hay en la imagen) con la localización precisa ("dónde" está).

En medicina, U-Net se utiliza rutinariamente para:

Implementaciones

editar
  • Tensorflow Unet by J Akeret (2017)
  • U-Net source code from Pattern Recognition and Image Processing at Computer Science Department of the University of Freiburg, Germany.
  1. Neha, F (2024). «U-Net in Medical Image Segmentation: A Review of Its Applications Across Modalities». arXiv preprint. 

📚 Artikel Terkait di Wikipedia

Atención (aprendizaje automático)

Park, Jongchan; Lee, Joon-Young; Kweon, In So (2018-07-18). «CBAM: Convolutional Block Attention Module». arXiv:1807.06521  [cs.CV].  Georgescu, Mariana-Iuliana;

Andrej Karpathy

sobre aprendizaje profundo en la Universidad de Stanford (CS 231n: Convolutional Neural Networks for Visual Recognition). La clase se convirtió en una

Inteligencia artificial generativa

Ilya; Hinton, Geoffrey E. (2012). «ImageNet Classification with Deep Convolutional Neural Networks». Advances in Neural Information Processing Systems

Modelo extenso de lenguaje

el 10 de enero de 2023. Consultado el 10 de enero de 2023.  «CS231n Convolutional Neural Networks for Visual Recognition». cs231n.github.io. Consultado