Quels sont les principes de la vision industrielle 3D ? - Blog

La vision 3D est un domaine multidisciplinaire impliquant l'infographie, la vision par ordinateur et l'intelligence artificielle. Il vise à permettre aux machines de comprendre et de traiter des informations dans un espace tridimensionnel-, permettant ainsi une perception, une reconnaissance et une compréhension de la profondeur des objets et des scènes.

Tâches principales

Reconstitution 3D

Estimation de la profondeur de scènes 3D ou échantillonnage numérique de surfaces d'objets, ainsi que traitement et affichage de données 3D ; reconstruction monoculaire, reconstruction binoculaire, reconstruction basée sur la lumière structurée-, reconstruction basée sur le laser- ; reconstruction 3D à grande-échelle, reconstruction 3D mobile.

Estimation de pose

Calcul de la position et de l'orientation de caméras ou d'objets dans un espace physique tridimensionnel-et suivi-en temps réel.

Compréhension de la 3D

Détection, reconnaissance et récupération d'objets, ainsi que segmentation et étiquetage sémantique de scènes ou d'objets.

Principes de fonctionnement

L'imagerie par vision 3D est l'une des méthodes les plus importantes pour la perception de l'information dans les robots industriels et peut être divisée en méthodes d'imagerie optique et non optique. Actuellement, les méthodes optiques sont les plus utilisées.

Méthode du temps-de-vol (TOF)

Cette méthode calcule la distance à un objet en mesurant la différence de temps entre l'émission et la réception de la lumière. En prenant une caméra TOF comme exemple, chaque pixel utilise le décalage horaire de vol de la lumière pour obtenir la profondeur de l'objet. Dans les méthodes de mesure classiques, le système de détection commence à chronométrer lorsqu'il émet une impulsion lumineuse, stocke le temps aller-retour lorsqu'il reçoit l'écho lumineux cible et estime la distance cible selon une formule.

Il est divisé en TOF direct (DTOF) et TOF indirect (I-TOF). DTOF est généralement utilisé dans les systèmes de télémétrie à point unique-, et l'obtention d'une imagerie 3D à l'échelle d'une zone-exige souvent une technologie de numérisation ; I-TOF extrapole indirectement le temps de l'aller-retour à partir de-mesures temporelles de l'intensité lumineuse, éliminant ainsi le besoin d'un timing précis, et est actuellement une solution commercialisée pour les mélangeurs électroniques et optiques basés sur des caméras TOF. L'imagerie TOF peut être utilisée pour l'acquisition d'images 3D à grand champ de vision, à longue -distance, à faible-précision et à faible-coût, et est utilisée pour la perception de l'environnement dans les systèmes intelligents sans pilote (tels que les robots, les véhicules sans pilote, les drones, etc.).

Imagerie 3D par projection de lumière structurée

L’imagerie 3D par projection de lumière structurée est actuellement la principale méthode de perception de la vision 3D chez les robots. Un projecteur projette un motif d'éclairage lumineux structuré spécifique sur l'objet cible, tel que des rayures ou des motifs de code Gray, et une caméra capture l'image modulée par la cible. En raison des ondulations de la surface de l'objet, le motif lumineux structuré est déformé sur la surface de l'objet. En traitant des images et en utilisant des modèles visuels pour comparer les motifs avant et après déformation, et en analysant la distorsion du motif, les informations de coordonnées tridimensionnelles -de chaque point sur la surface de l'objet cible peuvent être calculées.

Dans les applications de système robotique œil-main-, pour les scénarios dans lesquels une grande précision de mesure 3D n'est pas requise (comme la palettisation, la dépalettisation et la préhension 3D), la méthode de projection de motifs de taches pseudo-aléatoires pour obtenir des informations 3D cibles est très populaire. Cette méthode est couramment utilisée dans l'inspection industrielle et la modélisation 3D, et permet d'obtenir rapidement des données 3D de la surface de l'objet. Un système d'imagerie à lumière structurée se compose de plusieurs projecteurs et caméras. Les formes structurelles courantes incluent : un seul projecteur-une seule caméra, un seul projecteur-une double caméra, un seul projecteur-plusieurs caméras, une seule caméra-deux projecteurs et une seule caméra-plusieurs projecteurs.

Le principe de fonctionnement de base de l'imagerie 3D par projection de lumière structurée est le suivant : le projecteur projette un motif d'éclairage de lumière structuré spécifique sur l'objet cible, la caméra capture l'image modulée par la cible, puis les informations 3D de l'objet cible sont obtenues grâce au traitement d'image et aux modèles visuels. Les types courants de projecteurs comprennent : l'affichage à cristaux liquides (LCD), la projection numérique à modulation de lumière (DLP : tels que les dispositifs à micromiroir numérique (DMD)) et la projection directe de motifs laser LED.

En fonction du nombre de projections de lumière structurée, l'imagerie 3D par projection de lumière structurée peut être divisée en méthodes 3D à prise unique -et à prises de vue multiples-3D. La lumière structurée à tir unique-utilise principalement le codage par multiplexage spatial et le codage par multiplexage en fréquence. Les formes d'encodage courantes incluent : l'encodage des couleurs, l'indexation en niveaux de gris, l'encodage des formes géométriques et les motifs de taches aléatoires. Actuellement, dans les applications de systèmes robotiques œil-main-, pour les scénarios dans lesquels une grande précision de mesure 3D n'est pas requise, tels que la palettisation, la dépalettisation et la saisie 3D, la méthode de projection de motifs de taches pseudo-aléatoires pour obtenir des informations 3D cibles est largement utilisée.

Les méthodes 3D multi-plans utilisent principalement le codage par multiplexage temporel-. Les formes courantes de codage de modèles incluent : le codage binaire, le codage à déphasage multi-fréquence-et les méthodes de codage hybrides (telles que le code Gray et les franges à déphasage-). Le principe de base de l’imagerie 3D à lumière structurée est illustré dans la figure ci-dessous. Un motif lumineux structuré est généré à l'aide d'un ordinateur ou d'un dispositif optique spécial, puis projeté sur la surface de l'objet testé à l'aide d'un système de projection optique. Un dispositif d'acquisition d'images (tel qu'une caméra CCD ou CMOS) est utilisé pour capturer l'image lumineuse structurée modulée et déformée par la surface de l'objet. Des algorithmes de traitement d'image sont ensuite utilisés pour calculer la correspondance entre chaque pixel de l'image et les points du contour de l'objet. Enfin, les informations de contour tridimensionnelles-de l'objet sont calculées à l'aide du modèle de structure du système et de sa technologie d'étalonnage. Dans les applications pratiques, la projection de code Gray, la projection de franges à déphasage sinusoïdal-ou un code Gray hybride et la technologie 3D à déphasage sinusoïdal-sont couramment utilisés.

Pour les surfaces rugueuses, la lumière structurée peut être directement projetée sur la surface de l'objet pour une mesure d'imagerie visuelle ; cependant, pour la mesure 3D de surfaces lisses hautement réfléchissantes et d'objets en miroir, la projection de lumière structurée ne peut pas être projetée directement sur la surface testée, et la mesure 3D nécessite l'utilisation de techniques de réflexion spéculaire.

Dans ce schéma, les franges ne sont pas directement projetées sur le contour de l'objet testé, mais plutôt sur un écran de diffusion, ou un écran d'affichage à cristaux liquides (LCD) est utilisé pour afficher directement les franges. La caméra acquiert les informations de frange modulées par les changements de courbure de la surface brillante à travers le trajet de la lumière réfléchie, puis calcule la morphologie du contour tridimensionnel-.

Numérisation d'images 3D

Les méthodes d'imagerie 3D par numérisation peuvent être divisées en méthodes de télémétrie par numérisation, de triangulation active et confocales chromatiques. La télémétrie par balayage utilise un faisceau lumineux collimaté pour numériser toute la surface cible pour une mesure 3D. Les méthodes de télémétrie par balayage typiques comprennent : les méthodes de vol à un seul-temps de point-de-, telles que la télémétrie par modulation de fréquence à ondes continues (FM-CW) et la télémétrie par impulsions (LiDAR) ; l'interférométrie à diffusion laser, telle que les interféromètres basés sur les principes d'interférence multi-longueurs d'onde, d'interférence holographique, d'interférence de lumière blanche et d'interférence de speckle ; et des méthodes confocales, telles que la confocale chromatique et la mise au point automatique.

Dans les méthodes 3D de balayage à distance en un seul point-, la méthode de temps de vol-en un seul point-de-est adaptée au balayage à longue-distance, mais la précision de la mesure est relativement faible, généralement de l'ordre du millimètre. D'autres méthodes de numérisation à point unique incluent l'interférométrie laser à point unique, la microscopie confocale et la triangulation laser active à point unique. Ces méthodes offrent une grande précision de mesure, mais la première nécessite un environnement contrôlé. Le balayage linéaire offre une précision modérée et une efficacité élevée. La triangulation laser active et la microscopie confocale chromatique sont particulièrement adaptées à la mesure 3D au niveau de l'effecteur final d'un bras robotique. La triangulation active est basée sur le principe de la triangulation, utilisant un faisceau collimaté ou un ou plusieurs faisceaux planaires pour scanner la surface cible pour une mesure 3D.

Le faisceau lumineux est généralement obtenu des manières suivantes : collimation laser, expansion du faisceau prismatique à surface cylindrique ou quadrique, lumière non cohérente (telle que la lumière blanche, la source de lumière LED) projetée à travers de petits trous, des fentes (réseaux) ou diffraction de la lumière cohérente. La triangulation active peut être divisée en trois types : analyse à un seul-point, analyse à une-ligne et analyse à plusieurs-lignes. Actuellement, la plupart des produits disponibles dans le commerce pour les effecteurs terminaux de bras robotisés sont des scanners à un seul point-et à une seule-ligne.

Dans les méthodes d'analyse multi-lignes, l'identification fiable des nombres marginaux constitue un défi. Pour identifier avec précision les nombres de franges, deux ensembles de plans lumineux perpendiculaires sont généralement imagés à grande vitesse en alternance. Cela permet également la numérisation « Flying Triangulation », dont le processus de numérisation et de reconstruction 3D est illustré dans la figure ci-dessous. La projection multi-lignes et l'imagerie avec un seul-flash produisent une vue 3D clairsemée. Plusieurs séquences de vues 3D sont générées par balayage par projection de franges longitudinales et transversales, puis un modèle de surface 3D haute résolution, complet et dense est généré grâce à l'enregistrement d'images 3D.

La microscopie confocale chromatique semble capable de scanner et de mesurer des objets opaques et transparents rugueux et lisses, tels que des surfaces réfléchissantes et des surfaces en verre transparent, et est actuellement largement utilisée dans des domaines tels que l'inspection 3D des coques de téléphones portables. Le balayage confocal chromatique comporte trois types : le balayage de mesure de distance absolue uni-point un-dimensionnel, le balayage de réseau multi-points et le balayage linéaire continu. La figure ci-dessous montre des exemples de mesure de distance absolue et de balayage de lignes continues. Le balayage linéaire continu est également un type de balayage matriciel, mais avec un réseau de points plus grand et plus dense.

Imagerie 3D en vision stéréo

La vision stéréo fait généralement référence à la reconstruction de la structure 3D ou des informations de profondeur d'un objet cible en acquérant deux images ou plus provenant de points de vue différents. Les signaux visuels de perception de la profondeur peuvent être divisés en signaux oculaires et signaux binoculaires (disparité binoculaire). Actuellement, la vision stéréo 3D peut être obtenue grâce à la vision monoculaire, à la vision binoculaire, à la vision multi- et à l'imagerie 3D en champ lumineux (œil composé électronique ou caméra matricielle). Les indices de perception de la profondeur de la vision monoculaire incluent généralement : la perspective, les différences de distance focale, l'imagerie multi-vues, l'occlusion, les ombres, la parallaxe de mouvement, etc.

En vision robotique, cela peut également être réalisé à l'aide de l'imagerie miroir et d'autres formes-à partir de-méthodes X. Les indices visuels de perception de la profondeur de la vision binoculaire comprennent : la position de convergence des yeux et la disparité binoculaire. En vision industrielle, deux caméras sont utilisées pour acquérir deux images de point de vue de la même scène cible à partir de deux points de vue, puis la disparité des points correspondants dans les deux images de point de vue est calculée pour obtenir les informations de profondeur 3D de la scène cible. Un processus typique de calcul de vision stéréo binoculaire comprend les quatre étapes suivantes : correction de la distorsion de l'image, rectification des paires d'images stéréo, enregistrement de l'image et calcul de la carte de disparité de reprojection par triangulation.

L'imagerie de vision multi-vue, ou imagerie stéréo multi-vue, utilise une ou plusieurs caméras pour acquérir plusieurs images de la même scène cible à partir de plusieurs points de vue afin de reconstruire les informations tridimensionnelles-de la scène cible.

L'imagerie stéréo multi--vues est principalement utilisée dans les scénarios suivants : utilisation de plusieurs caméras depuis différents points de vue pour acquérir plusieurs images de la même scène cible, puis utilisation d'une reconstruction stéréo basée sur des fonctionnalités-et d'autres algorithmes pour obtenir des informations sur la profondeur de la scène et la structure spatiale ; en utilisant la technique de structure-à partir de-mouvement (SFM), en utilisant la même caméra avec ses paramètres intrinsèques inchangés, pour acquérir plusieurs images de différents points de vue afin de reconstruire les informations tridimensionnelles-de la scène cible. Cette technologie est couramment utilisée pour suivre un grand nombre de points de contrôle dans une scène cible, en récupérant en continu les informations structurelles 3D de la scène, ainsi que la pose et la position de la caméra. L'imagerie par champ lumineux diffère des principes d'imagerie par caméra traditionnels. Les caméras traditionnelles forment une image 2D directement sur le plan d’imagerie une fois que la lumière traverse l’objectif.

Les caméras à champ lumineux ajoutent un réseau de microlentilles devant le plan du capteur. La lumière incidente à travers la lentille principale traverse à nouveau chaque microlentille et est reçue par le réseau photosensible, obtenant ainsi des informations sur la direction et la position des rayons lumineux. Cela permet aux résultats d'imagerie d'être traités plus tard, obtenant un effet « photographier d'abord, mise au point plus tard » et permettant la récupération de la structure tridimensionnelle-de la scène à l'aide de ces informations. Dans des domaines tels que la réalité virtuelle et la réalité augmentée, la technologie d'imagerie par champ lumineux contribue à fournir une expérience visuelle plus réaliste et permet une perception tridimensionnelle-et une interaction plus précises avec la scène.

Le principe de l'imagerie 3D en champ lumineux diffère structurellement des principes d'imagerie des caméras CCD et CMOS traditionnelles. Les caméras traditionnelles imagent la lumière directement sur le plan d’imagerie après son passage à travers l’objectif, produisant généralement une image 2D. Les caméras à champ lumineux ajoutent un réseau de microlentilles devant le plan du capteur, ce qui fait que la lumière incidente à travers la lentille principale traverse à nouveau chaque microlentille et est reçue par le réseau photosensible, obtenant ainsi des informations sur la direction et la position des rayons lumineux. Cela permet un post-traitement des résultats d'imagerie, obtenant ainsi un effet « prendre d'abord la photo, faire la mise au point plus tard ».