Sistema de anotación automática de mapas de alta definición basado en aprendizaje activo

Chao ZhengXu CaoKun-TangZhipeng CaoElena SizikovaTong ZhouErlong LiAo LiuShengtao ZouXin Rui YanShuqi Mei

Publicado por primera vez:21 de noviembre de 2023

Abstracto

A medida que avanza la tecnología de los vehículos autónomos, los mapas de alta definición (HD) se han vuelto esenciales para garantizar la seguridad y la precisión de la navegación. Sin embargo, crear mapas HD con anotaciones precisas exige un esfuerzo humano sustancial, lo que lleva a un proceso costoso y que requiere mucho tiempo. Aunque se han desarrollado algoritmos de inteligencia artificial (IA) y visión por computadora (CV) para preetiquetar mapas HD, sigue existiendo una brecha significativa en la precisión y solidez entre los métodos basados ​​en IA y los procesos manuales tradicionales. Además, la creación de conjuntos de datos anotados a gran escala y algoritmos avanzados de aprendizaje automático para sistemas de etiquetado de mapas HD basados ​​en IA puede consumir muchos recursos. En este artículo, presentamos y resumimos el sistema Tencent HD Map AI (THMA), un innovador sistema de etiquetado de mapas HD de aprendizaje activo, de extremo a extremo, basado en IA, diseñado para producir etiquetas de mapas HD para cientos de miles de kilómetros mientras se emplea Aprendizaje activo para mejorar la iteración del producto. Utilizando una combinación de aprendizaje supervisado, autosupervisado y débilmente supervisado, THMA se entrena directamente en conjuntos de datos de mapas HD masivos para lograr la alta precisión y eficiencia requeridas por los usuarios intermedios. Implementado por el equipo de Tencent Map, THMA presta servicios a más de 1.000 trabajadores de etiquetado y genera más de 30.000 km de datos de mapas HD por día en su punto máximo. Con más del 90% de los datos de mapas HD de Tencent Map etiquetados automáticamente por THMA, el sistema acelera los procesos tradicionales de etiquetado de mapas HD en más de diez veces, reduciendo significativamente las cargas de anotación manual y allanando el camino para una producción de mapas HD más eficiente.

INTRODUCCIÓN

Con el rápido desarrollo de los sistemas de transporte inteligentes, la percepción ambiental se ha convertido en un aspecto crucial de la conducción autónoma. En respuesta a esta demanda, se han desarrollado varias redes neuronales profundas (DNN) para comprender automáticamente las escenas de tráfico, empleando métodos basados ​​en segmentación y detección de objetos (Fernandes et al. 2021 ; Tang, Li y Liu 2021 ; Yan et al. .2020 ) Sin embargo, crear un marco sólido que sea adecuado para la conducción autónoma de nivel 3 a 5 sigue siendo un desafío importante. Los entornos del mundo real a menudo presentan obstáculos y variaciones climáticas extremas, lo que puede afectar en gran medida la precisión de los resultados de detección derivados de datos en tiempo real. Además, la necesidad de análisis en tiempo real exacerba estos desafíos.

Para abordar estos problemas, el estándar actual de la industria se basa en mapas de alta definición (HD), un tipo de imágenes a nivel de centímetros recopiladas mediante sensores láser. Los mapas HD ofrecen representaciones más detalladas (Máttyus et al. 2016 ; Elhousni et al. 2020 ; Fan et al. 2018 ; Bao et al. 2022 ) y una verdadera precisión absoluta en el terreno, al tiempo que se ven menos afectados por los entornos de conducción en comparación con los mapas reales RGB convencionales. imágenes de la escena del tráfico en el tiempo. Los mapas HD brindan a los usuarios elementos permanentes de la carretera, como tipos de marcas de carril dentro de nubes de puntos 3D anotadas. A diferencia de las imágenes de carreteras en tiempo real, los mapas HD ofrecen servicios de ubicación fuera de línea a nivel de centímetros y valiosos conocimientos previos sobre las escenas de tráfico, lo que permite a los vehículos autónomos evitar mejor las interferencias ambientales.

El proceso de producción de mapas HD, como se muestra en la Figura  1 , consta de cuatro pasos principales: (1) obtención de datos, (2) automatización de backend, (3) creación y validación de mapas, y (4) compilación y publicación de mapas. Los datos provienen de varios sensores montados en un vehículo topográfico, incluido el sistema de posicionamiento global (GPS), la unidad de medición inercial (IMU), LiDAR y una cámara (Bao et al. 2022 ). GPS e IMU proporcionan una localización absoluta y precisa de las pistas, mientras que LiDAR, el sensor más esencial para mapas HD, recopila información de ubicación de objetos con precisión de centímetros. Se emplean cámaras para capturar imágenes RGB, que luego se utilizan para detectar atributos de los datos del mapa HD.

Los detalles están en el título que sigue a la imagen.
FIGURA 1Abrir en visor de figurasPowerPointProceso básico de producción de mapas HD: (1) Obtención de datos; (2) automatización de backend; (3) elaboración y validación de mapas; (4) compilación y publicación del mapa. El ejemplo que se muestra utiliza la producción de mapas HD de Tencent.

La nube de puntos sin procesar y los datos de imágenes recopilados por los sensores son procesados ​​por un sistema de proceso intermedio, que abarca la fusión de nubes de puntos y un sistema de etiquetado automático. Este sistema utiliza técnicas de análisis de IA y visión por computadora (CV) tanto para nubes de puntos como para imágenes (Elhousni et al. 2020 ; Pannen et al. 2020 ). Después del preetiquetado, el creador de mapas HD verifica la nube de puntos y los datos de preetiquetado durante el proceso de creación del mapa. Finalmente, los datos del mapa HD se compilan y publican.

La etapa de elaboración de mapas es el paso del proceso que requiere más recursos. Los investigadores han intentado utilizar DNN para desarrollar sistemas automáticos de IA para el proceso de etiquetado de mapas HD (Jiao 2018 ; Elhousni et al. 2020 ; Zhou et al. 2021 ; Kim, Cho y Chung 2021 ; Li et al. 2022 ). Estos métodos han dado resultados relativamente buenos para tareas 2D simples, como la señalización de carriles y la detección de carreteras. Sin embargo, el principal desafío para las soluciones automatizadas de IA existentes radica en la creación de mapas HD con anotaciones de elementos terrestres 2D y aéreos 3D en entornos urbanos densamente poblados. En estas áreas, los mapas suelen contener ruido y numerosos objetos 3D superpuestos, lo que dificulta las anotaciones precisas. Además, los usuarios de mapas HD exigen mapas precisos de estos complejos entornos urbanos para que sean ampliamente aplicables y útiles.

En este trabajo, presentamos el sistema THMA Tang et al. ( 2023 ), una solución innovadora basada en inteligencia artificial para etiquetar rápidamente grandes colecciones de mapas HD mediante el aprendizaje activo. Implementado por el equipo de Tencent Map desde 2021, THMA ha prestado servicios a más de 1000 usuarios hasta la fecha. Las aplicaciones de ciudades inteligentes de Tencent Map han empleado estos productos, y los mapas HD etiquetados automáticamente se han proporcionado a empresas de conducción autónoma. THMA ha mejorado significativamente la eficiencia operativa de los creadores de mapas y ha reducido los costos de anotación de mapas HD. Hasta donde sabemos, THMA se encuentra entre las herramientas más avanzadas de la industria para crear anotaciones de mapas HD y ofrece las siguientes ventajas: Bajo costo : THMA puede reducir efectivamente la necesidad de anotaciones manuales a gran escala en mapas HD. Acelera los procesos tradicionales de etiquetado de mapas HD más de diez veces. Canal de capacitación de aprendizaje activo de extremo a extremo : en comparación con los sistemas de etiquetado automático de mapas HD existentes, THMA establece un circuito cerrado de aprendizaje activo entre la generación de anotaciones y la capacitación del modelo. Puede generar anotaciones para nuevos elementos terrestres 2D y aéreos 3D para el desarrollo de mapas HD de próxima generación. Diseño modular : con el diseño modular, THMA puede actualizar fácilmente los componentes de cada modelo en el proceso de inferencia. Puede satisfacer constantemente las necesidades de los usuarios intermedios, proporcionando una solución integral y lista para la integración.

DISEÑO DEL SISTEMA THMA

En esta sección, proporcionamos una descripción detallada del flujo de trabajo del sistema THMA. THMA fue diseñado específicamente para anotar cientos de miles de kilómetros de entornos urbanos de alta densidad, como las ciudades densamente pobladas de China como Beijing, Shanghai y Shenzhen (cada una con una población superior a los 10 millones de personas). Esto presenta una tarea extremadamente desafiante. En consecuencia, THMA presenta un flujo de trabajo modular, con los componentes clave representados en la Figura  2 .

Los detalles están en el título que sigue a la imagen.
FIGURA 2Abrir en visor de figurasPowerPointDescripción detallada del sistema de etiquetado propuesto por Tencent HD Map AI (THMA). El sistema es modular y está diseñado para adaptarse a los desafíos de etiquetar grandes volúmenes de mapas HD de entornos urbanos de alta densidad.

El paso de inferencia del modelo en el proceso THMA, ilustrado en la Figura  3 , implica un enfoque de procesamiento de datos inteligente de divide y vencerás que identifica objetos en nubes de puntos de fusión de escaneo múltiple 3D, imágenes BEV 2.5D e imágenes RGB. El algoritmo de detección 3D etiqueta automáticamente puntos 3D (para semáforos, postes, túneles y señales de tráfico) y líneas (para barreras y bordillos) desde la nube de puntos de fusión de escaneo múltiple. El algoritmo de segmentación 2,5D detecta elementos del terreno, como marcas de carril, en la imagen BEV multicanal. El algoritmo de segmentación 2D identifica otros atributos, como el color de la señalización del carril, en la imagen RGB. Todas las anotaciones generadas se combinan en el producto final del mapa HD. Primero describimos la adquisición de datos de mapas HD y el proceso de capacitación de una sola vez en el aprendizaje activo para THMA en las siguientes tres subsecciones. Luego, presentaremos el proceso de aprendizaje activo completo.

Los detalles están en el título que sigue a la imagen.
FIGURA 3Abrir en visor de figurasPowerPointEl procesamiento inteligente de datos en THMA detecta objetos en nubes de puntos 3D, imágenes a vista de pájaro (BEV) 2.5D e imágenes RGB, fusionando los resultados de detección de objetos aéreos y terrestres resultantes para una mayor precisión. El marco de segmentación 2D se basa en Tao, Sapra y Catanzaro ( 2020 ).

Adquisición de datos

Primero presentamos la recopilación de datos de nubes de puntos 3D sin procesar y el proceso de generación de imágenes a vista de pájaro (BEV) 2.5D. Los datos sin procesar del mapa Tencent HD incluyen imágenes RGB, datos de actitud y posición GPS y nubes de puntos 3D generadas por láser. Para nuestro entrenamiento de modelos, utilizamos el último escáner láser, montado en la parte trasera del vehículo en un ángulo de 45º, centrándonos principalmente en escanear la superficie de la carretera. Nuestro conjunto de datos supera a otros conjuntos de datos de mapas HD en términos de nubes de puntos de alta densidad, clara diferenciación entre intensidades de reflexión de luz y oscuridad y características visuales distintivas de los elementos terrestres.

Además, nuestro conjunto de datos de nubes de puntos 3D se recopila a partir de escenas de tráfico complejas en ciudades chinas densamente pobladas como Beijing, Shanghai, Shenzhen, Guangzhou, Hangzhou y Wuhan, cada una con una población superior a los 10 millones. Estos escenarios de tráfico abarcan autopistas, autopistas urbanas, caminos urbanos ordinarios, caminos secundarios, caminos rurales, túneles e intercambiadores, que actualmente están subrepresentados en otros sistemas de mapas HD como Nuscenes (Caesar et al. 2020 ), Waymo (Sun et al. 2020 ) y Argoverse (Wilson et al.2021 ) . Nuestro escaneo de nubes de puntos enfatiza la captura de características de la carretera con alta densidad, alta resolución y características visuales significativas de intensidad de reflexión, lo que acentúa la detección refinada de los atributos del tráfico de acuerdo con los requisitos de producción de mapas HD. En consecuencia, THMA genera datos que representan diversas condiciones de tráfico, lo que la convierte en la fuente óptima para mapas HD de próxima generación.

Para la detección de elementos aéreos 3D, el enfoque óptimo es analizar (segmentar y detectar objetos) en datos de nubes de puntos 3D. Sin embargo, cuando se trata de detectar elementos terrestres, las imágenes BEV 2,5D, es decir, proyecciones paralelas de arriba hacia abajo de puntos de nubes 3D, proporcionan mayor precisión y velocidad de inferencia. Una de las innovaciones clave de THMA es su capacidad para combinar de manera eficiente imágenes BEV 2,5D y nubes de puntos 3D. En la Figura 4 se ilustran datos de muestra, que consisten en nubes de puntos 3D e imágenes BEV 2,5D  .

Los detalles están en el título que sigue a la imagen.
FIGURA 4Abrir en visor de figurasPowerPointResultados cualitativos para el sistema THMA implementado: las anotaciones generadas a partir de la detección de objetos 3D y la segmentación 2,5D/2D y la detección de objetos se fusionan en el sistema de mapas HD y se publican para los creadores de mapas posteriores para su uso.

Las imágenes de proyección BEV 2,5D que utilizamos se generan a partir de la nube de puntos láser 3D mediante una proyección paralela de arriba hacia abajo con modificaciones menores, como la eliminación del automóvil. Para los datos de la nube de puntos 3D originales, seleccionamos una resolución de 0,05 my calculamos las coordenadas centrales, el rango de la imagen y el rango de la nube de puntos de cada imagen de proyección de acuerdo con la trayectoria para determinar los parámetros de conversión de coordenadas. A continuación, convertimos la nube de puntos dentro del rango seleccionado al sistema de coordenadas de Mercator y realizamos un filtrado de elevación en la nube de puntos 3D, reteniendo solo los puntos cerca del suelo. Para los puntos que se encuentran dentro de cada píxel, asignamos el valor de intensidad de reflexión, el valor de elevación más alto y los valores de elevación más bajos a los tres canales de la salida BEV 2.5D, respectivamente, y normalizamos el rango de píxeles a 0–255.

Las imágenes de proyección BEV 2,5D generadas mediante este proceso contienen rica información de textura. Cada imagen se gira en la dirección de marcha del vehículo. El tamaño de la imagen resultante es 1024 × 1024 y la resolución de píxeles es 0,05 m. Teniendo en cuenta la calidad y la mejora de la escala de grises de la nube de puntos original, el canal de intensidad de reflexión de la imagen BEV puede reflejar clara y mejor las características de textura de la superficie de la carretera. La información semántica, como marcas de carril, señales de suelo y pasos de cebra en escenas de tráfico, se puede distinguir según los cambios de luz y oscuridad en la intensidad de la reflexión. Además, cada píxel registra los valores de elevación más alto y más bajo, respectivamente, para diferenciar entre el suelo y los bordillos y barandillas, que son difíciles de detectar a partir de imágenes BEV 2D de un solo canal.

Procesamiento de datos inteligente: nube de puntos 3D

Detección de objetos de nube de puntos 3D

Los objetos 3D exhiben una amplia gama de formas y tamaños. Normalmente, los algoritmos de detección de objetos 2D y 3D se basan en la detección de cuadros delimitadores. Sin embargo, estos algoritmos sólo son adecuados para objetos con orientaciones y relaciones de aspecto conocidas. Para objetos sin direcciones definidas, resulta desafiante o inviable definir las esquinas y el tamaño del cuadro delimitador. Incluso si la etiqueta se define a la fuerza, pueden surgir conflictos entre diferentes muestras de entrenamiento, lo que provocará una falta de convergencia del entrenamiento o una degradación del rendimiento del algoritmo. En nuestro caso, necesitamos un marco unificado que pueda acomodar la diversidad de formas, tamaños y distribuciones de objetos.

Teniendo en cuenta las consideraciones anteriores y el trabajo previo en etiquetado de mapas HD (Yang, Liang y Urtasun 2018a ; Yang, Luo y Urtasun 2018b ), proponemos un nuevo modelo 3D unificado de extremo a extremo. El diagrama esquemático se muestra en la Figura  3 , rama de la nube de puntos 3D y en la Figura  5 . La columna vertebral del modelo incluye convoluciones 2D y 3D. El resultado es un descriptor universal que proporciona información sobre los objetos detectados, en lugar de solo los cuadros delimitadores. En los casos en que no se pueda identificar la dirección del objeto, el descriptor de salida puede ofrecer una descripción única sin ambigüedad. Por ejemplo, el descriptor no define explícitamente la orientación de un poste. En cambio, proporciona los puntos superior e inferior del poste, y la orientación se puede calcular a partir de estas cantidades. Otro ejemplo es el cono de tráfico, que se describe utilizando el vértice, el centro y el radio de la parte inferior. Las esquinas de la señal de tráfico se pueden volver a calcular, según la lógica anterior. Por último, no es necesario que el objeto detectado sea grueso, plano, rectangular o incluso plano.

Los detalles están en el título que sigue a la imagen.
FIGURA 5Abrir en visor de figurasPowerPointNuestra solución con destilación de conocimientos para la detección de objetos de nubes de puntos 3D.

El marco del modelo resultante es compatible con la diversidad de formas de objetos. Además, podemos detectar múltiples objetos (multiobjetos) que aparecen en la misma ubicación. Sin pérdida de generalidad, el descriptor de salida para objetos múltiples se puede expresar como

�metro=�0⁢�1…�norte⁢�⃗0⁢�⃗1…�⃗norte,dónde��es la probabilidad de activación del vector de descripción correspondiente��, y��representa el descriptor de un solo objeto.

Destilación del conocimiento

Las etiquetas de objetos en puntos de nube 3D a menudo contienen ruido significativo y errores de etiquetado. Estos factores de confusión influyen en el rendimiento, especialmente cuando se utiliza la pérdida focal para resolver el problema del desequilibrio de clases durante el entrenamiento. Para abordar este desafío, adoptamos la destilación de conocimientos en nuestro marco de detección de objetos 3D. Se ha demostrado que la destilación de conocimientos produce una mejora significativa del rendimiento para tareas complejas de detección y segmentación de objetos de nubes de puntos 3D (Hou et al. 2022 ). En concreto, construimos dos rutas de formación. La ruta superior, que se muestra en la Figura  5 , es el modelo básico para la detección de objetos 3D, incluido el módulo de extracción de características puntuales, el módulo de transformación de punto a vóxel, el modelo codificador-decodificador, etc. La verdad fundamental refinada generada por el modelo básico se combina con la verdad fundamental original y luego se utiliza como objetivo de supervisión para la ruta de entrenamiento inferior. Adoptamos la confianza de salida de una muestra positiva para calcular la diferencia.Dejar�gramoser el conjunto de verdad fundamental, por ejemplo, los cuadros delimitadores de verdad fundamental, y�oh⁢tu⁢�la salida del modelo profundo. La verdad fundamental refinada��se puede calcular como

��=(�gramo∩�yo)∪�ℎ

�yo={�|�∈�oh⁢tu⁢�,Confianza(�)>�yo⁢oh⁢�}

�ℎ={�|�∈�oh⁢tu⁢�,Confianza(�)>�ℎ⁢�⁢gramo⁢ℎ},dónde�yoes el resultado de baja confianza y�ℎes el resultado de alta confianza.

Visualización de anotaciones de nubes de puntos 3D

En la Figura 6A, B se muestran ejemplos de resultados de detección 3D de producción  . En la Figura  6A , la flecha roja indica los resultados de nuestro algoritmo, que muestra el ejemplo desafiante en el que el poste podría detectarse correctamente aunque esté entre árboles. En algunas circunstancias, el algoritmo de etiqueta automática funciona incluso mejor que el anotador humano; consulte la Figura  6B . En este ejemplo, una parte del poste está ocluida por los árboles y el anotador humano etiquetó solo la parte visible. Sin embargo, nuestro algoritmo etiqueta correctamente el punto superior derecho que falta. Los resultados anteriores demuestran que el algoritmo de detección de objetos 3D en THMA es robusto y preciso.

Los detalles están en el título que sigue a la imagen.
FIGURA 6Abrir en visor de figurasPowerPointSalidas de etiquetas de muestra de nuestro sistema: (A) resultados de detección de postes (en amarillo), (B) ejemplo difícil de detección de postes: el etiquetado automático excede la capacidad de etiquetado humano, etiquetando (rojo) parte del poste incorrectamente no anotada por un anotador humano .

También presentamos resultados de detección adicionales de semáforos en la Figura  7 . El algoritmo 3D detecta correctamente los semáforos, aunque sean pequeños y a veces densamente dispuestos. En la Figura  8 , se muestra el resultado de la detección del túnel. A diferencia de los semáforos, los túneles se extienden ampliamente en el espacio y se requiere un gran campo receptivo para su detección. Finalmente, la Figura  9 muestra que nuestro modelo mantiene buenos resultados incluso en escenas de señales de tráfico concentradas y complicadas.

Los detalles están en el título que sigue a la imagen.
FIGURA 7Abrir en visor de figurasPowerPoint(A) Resultados de detección de semáforos múltiples adyacentes. (B) Resultados de detección de semáforos de distribución de diversos ángulos.
Los detalles están en el título que sigue a la imagen.
FIGURA 8Abrir en visor de figurasPowerPointResultados de la detección de túneles de muestra. Nuestro sistema es resistente a variaciones extremas del punto de vista.
Los detalles están en el título que sigue a la imagen.
FIGURA 9Abrir en visor de figurasPowerPointResultados de muestra de detección de señales de tráfico. Nuestro sistema aborda escenarios de detección desafiantes, como señales ubicadas muy cerca.

Procesamiento de datos inteligente: BEV 2,5D

Las imágenes BEV 2.5D proporcionan información valiosa para la detección de objetos terrestres, lo que permite una mejor detección y segmentación de marcas de carril, señales de suelo y pasos de cebra. A continuación, describimos los pasos clave de capacitación del modelo para imágenes BEV 2.5D. Incluye tres partes: (1) inicialización del peso del modelo mediante aprendizaje autosupervisado enmascarado; (2) preentrenamiento de aprendizaje débilmente supervisado, incluidas etiquetas ruidosas; (3) ajuste del modelo para cada ciclo de aprendizaje activo.

Preentrenamiento autosupervisado

Como se mencionó anteriormente, a las imágenes BEV 2.5D a menudo les faltan etiquetas y ruido. Para abordar estos problemas, incorporamos los últimos métodos de aprendizaje autosupervisado en nuestro marco. El aprendizaje autosupervisado se centra en el diseño de tareas auxiliares que permiten al modelo aprender representaciones significativas a partir de datos sin etiquetar a gran escala. Integramos la técnica del codificador automático enmascarado (MAE) (He et al. 2022 ) en un modelo basado en CNN y desarrollamos una nueva estrategia para el preentrenamiento autosupervisado enmascarado aumentando MAE con aprendizaje basado en canales. En la Figura 10 llamamos a esta nueva estrategia codificador automático de canal enmascarado (MCAE)  .

Los detalles están en el título que sigue a la imagen.
FIGURA 10Abrir en visor de figurasPowerPointTarea de recuperación de máscara de aprendizaje autosupervisada de MCAE. El modelo puede aprender cómo resolver el problema de pintura para puntos de referencia que van recto, giran a la izquierda y giran a la derecha con una relación de máscara de entrada muy alta.

Dada una imagen BEV 2.5D de tamañoℎ×W.×3, primero dividimos las imágenes de entrada en parches regulares no superpuestos de tamaño 4 × 4. Luego, tomamos muestras aleatoriamente de un canal de máscara siguiendo una distribución uniforme. Proponemos una técnica sin codificación posicional utilizando una capa MaskConv. La capa MaskConv se puede implementar como una extensión de la convolución estándar, donde se introduce un canal adicional y se rellena con la máscara. En la etapa inicial del modelo, la información de la máscara se concatena por canales con la representación de entrada, lo que da como resultado unaℎ×W.×4 aporte.

La estructura fundamental de MCAE consta de un codificador transformador CNN profundo y un decodificador liviano. El codificador solo se alimenta con parches desenmascarados, mientras que el decodificador procesa tokens enmascarados que se pueden aprender para pintar la imagen. Al igual que con otras tareas de aprendizaje de representación de videos y espacios 3D (Bao, Dong y Wei 2021 ; Feichtenhofer et al. 2022 ; Tong et al. 2022 ), descubrimos que MCAE es eficaz y eficiente en el tiempo.

Preentrenamiento débilmente supervisado

Durante la producción manual, los expertos en anotaciones integran los datos de acuerdo con las especificaciones de operación de producción y la lucha contra la falsificación del trabajo, basándose en múltiples recopilaciones de datos. Como resultado, se generan grandes volúmenes de conjuntos de datos temporales durante la producción. Estos conjuntos de datos pueden contener solo una clase de anotaciones o carecer del proceso antifalsificación del trabajo, lo que genera un ruido significativo en las etiquetas. El uso directo de estas imágenes para generar datos de entrenamiento daría como resultado un rendimiento inadecuado del modelo.

En THMA, creemos que estos datos sucios también se pueden utilizar para entrenar previamente nuestro modelo. Para abordar la limitación del ruido de las etiquetas, generamos una gran cantidad de muestras de entrenamiento incompletas mejoradas mediante extracción de datos, filtrado de áreas no anoche y discriminación de áreas de alta confiabilidad del valor real de las imágenes BEV para un aprendizaje débilmente supervisado (Zhou 2018 ). Al utilizar estas muestras de entrenamiento sin limpiar a gran escala y anotaciones limitadas para el entrenamiento previo y luego ajustar el modelo en el conjunto de muestras finamente etiquetado, podemos mejorar significativamente la robustez en escenas urbanas altamente complejas.

Ajuste del modelo de segmentación para la detección de elementos terrestres.

Para todos los elementos terrestres 2D y 2,5D, seleccionamos SegFormer (Xie et al. 2021 ), una estructura transformadora de visión basada en segmentación, como columna vertebral para la detección de imágenes BEV 2,5D. La ventaja clave de un método basado en transformador es que el mapa de atención de los codificadores de transformadores de visión tiene campos receptivos más grandes que los codificadores CNN tradicionales (consulte la Figura  11 ). A diferencia del transformador de visión original (ViT) (Dosovitskiy et al. 2020 ), SegFormer utiliza el proceso de reducción de secuencia para reducir la cantidad de cálculo y acelera el proceso de convergencia durante el entrenamiento del modelo (Xie et al. 2021 ; Wang et al. 2021 ). . La estructura general de SegFormer consta de un codificador transformador jerárquico y un decodificador MLP liviano, que puede aprovechar la característica inducida por el transformador que produce atención altamente local y no local para representar representaciones poderosas. Otra ventaja de SegFormer es que puede integrarse en nuestro canal de aprendizaje autosupervisado enmascarado MCAE y utilizar el peso previamente entrenado del codificador mediante aprendizaje autosupervisado y aprendizaje débilmente supervisado.

Los detalles están en el título que sigue a la imagen.
FIGURA 11Abrir en visor de figurasPowerPointLas interacciones de atención entre el token seleccionado en la señalización de carriles rotos y otros tokens visuales de las últimas capas del codificador del SegFormer.

Visualización de segmentación BEV 2.5D

En la Figura 12 se muestran ejemplos de resultados de predicción del BEV SegFormer  . El escenario que se muestra en la Figura  12 es muy complejo e incluye cambio de tipo de marcas de carril, cambio de número de carril y detección de línea de parada. No solo necesitamos identificar con precisión la posición geométrica de las marcas de carril, sino también detectar con precisión el atributo de las marcas de carril y la posición en la que cambia el número de carriles. Al beneficiarse del aprendizaje autosupervisado, el preentrenamiento débilmente supervisado y el transformador de visión, nuestro modelo multitarea puede resolver bien las tareas anteriores.

Los detalles están en el título que sigue a la imagen.
FIGURA 12Abrir en visor de figurasPowerPointResultados de muestra de la detección de marcas de carril en imágenes BEV de áreas urbanas.

¿Cómo funciona THMA bajo el aprendizaje activo?

El aprendizaje activo es un método de selección de datos de entrenamiento para el aprendizaje profundo que aprovecha un modelo entrenado para procesar conjuntos de datos sin etiquetar y anotar datos simples. Al mismo tiempo, registra los casos fallidos cuya detección resulta difícil y los envía a los humanos. Los anotadores humanos pueden modificar las anotaciones fallidas y agregarlas a los datos de entrenamiento, mejorando la precisión del modelo para percibir objetos en condiciones difíciles. El aprendizaje activo automatiza el proceso de selección mientras se centra en puntos de datos valiosos y rara vez vistos, lo que mejora significativamente la seguridad y la recuperación de las anotaciones de mapas HD.

En el campo del aprendizaje activo, la puntuación de confianza del resultado de un modelo se utiliza comúnmente para distinguir entre etiquetas de alta y baja confianza. Específicamente, se establece un umbral de alta confianza y cualquier resultado del modelo por encima de este umbral se considera una muestra positiva con un alto grado de certeza. Al identificar estas muestras positivas, podemos descubrir anotaciones omitidas. De manera similar, se puede utilizar un umbral bajo para obtener muestras negativas y detectar datos mal etiquetados. Sin embargo, para muestras y posiciones que no se pueden determinar claramente, es necesaria una verificación manual para garantizar la calidad de los datos.

THMA se basa en la IA para escalar anotaciones a conjuntos de datos de volumen extremadamente grandes. El proceso de producción de aprendizaje activo resultante, representado en las Figuras  2 y 13 , proporciona no solo una infraestructura escalable para capacitación e inferencia, sino también una plataforma de datos centralizada para el acceso a metadatos. Una vez que tengamos los resultados confiables de la salida de IA, podemos guardar las muestras positivas en la línea de producción de mapas HD y enviar las muestras negativas a expertos en anotaciones para su revisión y reetiquetado. Las etiquetas actualizadas para las muestras negativas luego se reintegran en los mapas HD y se utilizan para volver a entrenar los modelos de IA en la siguiente iteración. De esta manera, los componentes de THMA AI forman un circuito de aprendizaje activo de un extremo a otro (Jiao 2018 ; Haussmann et al. 2020 ).

Los detalles están en el título que sigue a la imagen.
FIGURA 13Abrir en visor de figurasPowerPointBucle de aprendizaje activo en la producción de THMA.

En la práctica, normalmente solo actualizamos automáticamente las muestras positivas y negativas de alta confianza una vez al mes. Este enfoque logra un equilibrio entre los beneficios del aprendizaje activo y el costo de la computación. En un mes, podemos acumular 1000 km de datos de entrenamiento para anotaciones y actualizaciones automáticas del modelo de la ronda anterior. Esto nos permite mantener un alto nivel de precisión y al mismo tiempo minimizar la necesidad de intervención manual.

En general, este enfoque de aprendizaje activo ha demostrado ser eficaz para mejorar la eficiencia y precisión de la anotación de datos, al tiempo que minimiza el costo y el esfuerzo necesarios para la verificación manual.

DESARROLLO E IMPLEMENTACIÓN DE THMA

El marco THMA, desarrollado por el equipo de investigación de aplicaciones (T, laboratorio) de Tencent Map desde 2020, tardó 1,5 años en construirse y mejorarse. Inicialmente, este sistema era un circuito abierto, que requería que numerosos trabajadores de etiquetado anotaran manualmente los datos de capacitación y daba como resultado una frecuencia de actualización reducida a más de cinco semanas. Después de actualizar al marco de aprendizaje activo de circuito cerrado, la frecuencia de actualización mejoró a 1 o 2 semanas. El diseño modular de THMA, combinado con el marco de aprendizaje activo de circuito cerrado, permite que los modelos individuales para elementos seleccionados en el mapa HD se prueben por separado y se agreguen al proceso de producción tras las actualizaciones.

Como se analizó en secciones anteriores, toda la arquitectura se puede considerar como un marco multitarea, ya que se utilizan diferentes modelos para diferentes elementos. Si bien cada tarea se puede probar individualmente, existen conexiones entre las tareas. Por ejemplo, al detectar los puntos de cambio de los atributos de señalización de carril, debemos utilizar la posición de señalización de carril y la información de atributos obtenida por otras ramas del modelo.

Python es el lenguaje de programación utilizado para la implementación. Para evaluar el modelo en cada versión, utilizamos un subconjunto independiente de mapas HD anotados con precisión y revisados ​​por los creadores de mapas para su validación. Este subconjunto incluye 1000 km de nubes de puntos 3D de mapas HD, los correspondientes elementos aéreos 3D y anotaciones de elementos terrestres 2D. Actualizamos los resultados de la evaluación para cada versión lanzada en la documentación interna del producto Tencent.

Para el rendimiento general del sistema, evaluamos el rendimiento en términos de relación de automatización, rendimiento y aceleración de la velocidad de etiquetado. Después de comparar los resultados del etiquetado de THMA y los resultados del etiquetado humano, la tasa de automatización general es superior al 90%, lo que acelera la velocidad de etiquetado más de 10 veces. Con su diseño compacto, el rendimiento del sistema supera los 30.000 km/día.

IMPACTO DEL TMA

Mapas HD de próxima generación

Específicamente, THMA genera anotaciones para mapas HD de próxima generación, que brindan representaciones altamente precisas, actualizadas y realistas del paisaje del tráfico. Estos mapas HD de próxima generación están diseñados explícitamente para vehículos autónomos de Nivel 4 y Nivel 5 e incluyen información de escenas de tráfico más abundante y detallada en comparación con los mapas HD implementados actualmente. Se espera que sean ampliamente adoptados por los sistemas avanzados de conducción autónoma en un futuro próximo. En el siguiente párrafo, explicamos en detalle los atributos de escena más nuevos del mapa HD de próxima generación producido por THMA.

Trabajos anteriores aplicaron principalmente algoritmos de aprendizaje profundo de segmentación semántica más antiguos, como FCN (Long, Shelhamer y Darrell 2015 ) y U-Net (Ronneberger, Fischer y Brox 2015 ), para identificar solo elementos terrestres comúnmente vistos en sistemas de mapas HD (Elhousni et al. 2020 ), ignorando el problema del desequilibrio de clases presente en los mapas HD. THMA es uno de los primeros métodos para abordar este problema utilizando bucles de aprendizaje activos. Además de los 20 tipos de marcas de carril y elementos terrestres, proponemos la detección de otros puntos de cambio de atributos de marcas de carril, áreas de espera en la carretera y líneas de parada que rara vez se ven. Además, THMA incorpora módulos de instalaciones de separación de carreteras para detectar barandillas, bordillos y límites naturales mediante imágenes BEV 2,5D. Estos elementos contribuyen a mejorar la seguridad de los sistemas de conducción automatizados.

Otra ventaja de THMA es su capacidad para etiquetar una gama más amplia de elementos aéreos 3D. Esto incluye objetos de gran escala, como túneles, y objetos de pequeña escala, como semáforos. En términos de forma, hay objetos lineales como postes rectos y curvos, objetos planos como señales de tráfico y objetos gruesos como semáforos y túneles. Adoptamos un marco unificado de extremo a extremo al desarrollar THMA. Este marco genera un descriptor unificado que se adapta a la diversidad de formas de objetos y al número variable de objetos en ubicaciones específicas.

Ventajas de la anotación basada en IA

THMA aplicó IA para la anotación de mapas HD. Las ventajas de este sistema de anotación impulsado por IA basado en aprendizaje activo son: Recopilación masiva de datos y computación en la nube : Cientos de miles de kilómetros de datos sin procesar de mapas HD se recopilan a través de varios vehículos de recolección de datos. De esta forma, el mapa HD se actualiza rápidamente. Para procesar más datos y entrenar nuevos modelos, se utiliza Tencent Cloud, un servicio de computación en la nube seguro, confiable y de alto rendimiento proporcionado por Tencent. Base de datos de capacitación diversa : debido a la novedad del marco, la capacitación se basa en más de 400 000 km de datos de mapas HD, que contienen anotaciones parcialmente incompletas e inexactas para el aprendizaje autosupervisado y el aprendizaje débilmente supervisado, lo que permite aún más la generalización del modelo. Plataforma de gestión de datos y flujo de trabajo : con la potente plataforma Tencent Cloud, se han habilitado alto paralelismo, trazabilidad, flujo de trabajo de almacenamiento en caché y gestión de datos a nivel de PB. Plataforma de etiquetado completa : la plataforma de etiquetado consta de la plataforma de etiquetas de mapas HD, que produce datos en formato de mapas HD 3D, y las herramientas de etiquetado tradicionales, que podrían producir datos de detección y segmentación para el modelo 2D o 3D. Potente zoológico modelo : El zoológico modelo tiene modelos de segmentación y detección 2D y 3D actualizados implementados por PyTorch. Para que el sistema sea integral y generalizable, los decodificadores del modelo se han rediseñado para adaptarse al formato de datos de mapas HD. Se han implementado muchos métodos autosupervisados ​​y débilmente supervisados, entrenados en los clústeres de GPU de Tencent Map y desplegados en la nube.

Pago de la solicitud

THMA ha sido desarrollado e implementado durante 2 años y utilizado por miles de expertos en anotaciones. Hasta la fecha, nuestro sistema ha producido más de 400.000 km de datos de mapas HD. Tiene un historial de servir a casi 1.000 trabajadores para producir 30.000 km de datos de mapas HD por día, lo cual es bastante avanzado hasta donde sabemos. Durante los 2 años de uso, este sistema ha logrado las siguientes mejoras comerciales:

  • 1.Eficiencia : En el sistema tradicional de autoetiquetado, para desarrollar eficientemente un modelo en escenarios de datos de tráfico masivo como China, se necesitan al menos varios kilómetros de datos de nubes de puntos y varias 10.000 imágenes, un esfuerzo de anotación que requeriría todo un año. Debido al reciclaje de datos de extremo a extremo, la minería de datos inteligente y las técnicas autosupervisadas y débilmente supervisadas, THMA reduce el tiempo de etiquetado requerido en un orden de magnitud.
  • 2.Capacidad de generalización del modelo : debido al procesamiento y aprendizaje de cientos de miles de kilómetros de datos de mapas HD desafiantes, el sistema de etiquetado tiene alta precisión y recuperación, así como capacidad de generalización en casos desafiantes de paisajes urbanos. Como resultado, THMA logra un récord al atender a 1.000 fabricantes y producir varias decenas de miles de kilómetros por día.
  • 3.Desarrollo iterativo e incremental : a medida que pasa el tiempo, se agregan nuevas solicitudes de aplicaciones de ciudades inteligentes y empresas de conducción autónoma. Dado que THMA sigue un enfoque de diseño modular en torno a diferentes subtareas, las actualizaciones del producto se pueden realizar sin afectar la solución general de IA. Desde la implementación en 2021, publicamos periódicamente las anotaciones más recientes para los clientes.

CONCLUSIÓN

En este artículo, presentamos el sistema THMA, un sistema de IA novedoso, de extremo a extremo y totalmente automático diseñado para etiquetar cientos de miles de kilómetros de mapas HD de entornos urbanos densamente poblados para aplicaciones de conducción autónoma. El sistema ha sido diseñado e implementado en producción por el equipo del laboratorio Tencent Map T y sus usuarios desde 2021, generando 30.000 km de datos de mapas HD por día y prestando servicios a más de 1.000 trabajadores de etiquetado. Hasta donde sabemos, el sistema resultante es uno de los más grandes del mundo hasta la fecha. El algoritmo central de aprendizaje activo propaga los pesos del modelo desde los conjuntos de datos de mapas HD a gran escala de Tencent existentes hasta los datos recién adquiridos, lo que permite el etiquetado completamente automático y el etiquetado humano en el circuito utilizados juntos, lo que reduce significativamente el tiempo y el costo asociados con la anotación manual tradicional. técnicas.

En trabajos futuros, planeamos expandir el sistema existente centrado en la detección de carriles para etiquetar automáticamente relaciones de etiquetas más complejas. También pretendemos aprovechar continuamente el desarrollo iterativo e incremental para mejorar aún más la solidez.

DECLARACION DE CONFLICTO DE INTERES

Los autores declaran que no existe ningún conflicto.

Biografías

  • Chao Zheng lidera el equipo de investigación de visión por computadora en Tencent Map, con una larga dedicación al campo de la conducción autónoma. Sus intereses de investigación abarcan la inteligencia artificial, la visión por computadora y el aprendizaje automático, con un enfoque particular en la percepción y reconstrucción 3D dentro de la conducción autónoma. Sus logros de investigación se han publicado en múltiples conferencias de primer nivel, incluidas AAAI, ICCV, ECCV y WACV, y uno de sus artículos en coautoría obtuvo el premio IAAI Application Innovation Award.
  • Xu Cao recibió su maestría en Ciencias de la Computación de la Universidad de Nueva York en 2022 y su licenciatura en la Universidad de Fudan en 2020. Es cofundador de PediaMed.AI Lab. Sus intereses de investigación incluyen la IA para la atención sanitaria, la IA para el bien social y la conducción autónoma. Sus logros de investigación se han publicado en múltiples conferencias de IA de primer nivel, incluidas AAAI, IJCAI, ICASSP, UAI, BIBM y uno de sus artículos en coautoría obtuvo el premio IAAI Application Innovation Award.
  • Kun Tang es investigador de aprendizaje automático en Tencent Maps T.Lab. Participa en el desarrollo de los mapas automatizados de alta definición de Tencent. Obtuvo una maestría en Matemáticas y Matemáticas Aplicadas de la Universidad de Pekín en 2015. Sus principales áreas de investigación son la detección de marcas de carriles y la segmentación de nubes de puntos 3D.
  • Zhipeng Cao recibió su doctorado. en 2015. Durante su doctorado, sus direcciones de investigación fueron la visión por computadora y el procesamiento de imágenes basado en ecuaciones diferenciales parciales. Actualmente, sus campos de investigación incluyen detección y segmentación de nubes de puntos 3D, detección de imágenes, ARVR, reconocimiento facial, eliminación de imágenes borrosas, superresolución de imágenes y generación de imágenes basadas en texto. Ha liderado o participado en proyectos como reconocimiento facial en la serie Huawei Mate Pro, Huawei Cyberverse y Tencent HD Map.
  • Elena Sizikova recibió un doctorado en el Laboratorio de Gráficos/Visión del Departamento de Ciencias de la Computación de Princeton. Está interesada en los problemas en la intersección de la inteligencia artificial (IA), la ciencia regulatoria, las imágenes médicas y la visión por computadora. Específicamente, su investigación aborda los desafíos asociados con el entrenamiento y la evaluación de redes neuronales para problemas de imágenes médicas con acceso limitado a conjuntos de datos a gran escala.
  • Tong Zhou es ingeniero de aprendizaje automático en Tencent Maps T.Lab y se centra principalmente en la detección de características terrestres en mapas de alta definición, que incluye la identificación y generación de topología geométrica de elementos como marcas de carriles y zonas de desvío. Además, Zhou participa en la generación y gestión de datos de muestras masivas de alta precisión.
  • Erlong Li es ingeniero de aprendizaje automático en Tencent Maps T.Lab y se especializa en el reconocimiento de elementos clave como carriles y la topología estructurada de las marcas de carriles en mapas de alta definición. Ha publicado varios artículos y patentes relacionadas con la conducción autónoma.
  • Ao Liu es ingeniero de aprendizaje automático en Tencent Maps T.Lab. Su trabajo principal implica el reconocimiento y la topología de elementos clave en mapas de alta definición, incluida la segmentación de nubes de puntos y la segmentación de imágenes GRB.
  • Shengtao Zou es ingeniero de aprendizaje automático en Tencent Maps T.Lab. Su principal campo de estudio es la Inteligencia Artificial y los Gráficos por Computadora. Su investigación reciente se ha centrado en la detección de nubes de puntos 3D y la generación de muestras. Tiene muchos artículos y patentes en los campos anteriores.
  • Xinrui Yan completó la maestría en Ciencias e Ingeniería de Control en 2022. Su principal interés durante sus estudios de posgrado fue la aplicación de la percepción basada en nubes de puntos en el campo de la conducción autónoma. Ahora es ingeniera de aprendizaje automático en Tencent Maps T.Lab y se centra en la aplicación de algoritmos de percepción basados ​​en nubes de puntos para la generación automática de mapas de alta precisión.
  • Shuqi Mei es el director del equipo de investigación de visión por computadora en Tencent Map. Obtuvo su doctorado. en 2008, con especialización en visión por computadora y servocontrol visual de robots móviles. Desde entonces, ha trabajado en empresas reconocidas como SONY, Alibaba y Tencent. Actualmente, el Dr. Mei dirige un equipo en Tencent Map, donde es responsable del desarrollo y aplicación de algoritmos para crear mapas con alta eficiencia y calidad.

Leave a Reply

Your email address will not be published. Required fields are marked *