Les progrès de la vision par ordinateur propulsent l'autonomie des transports

La vision est une entrée sensorielle humaine puissante. Il permet des tâches et des processus complexes que nous tenons pour acquis. Avec une augmentation de l'AoT™ (Autonomy of Things) dans diverses applications allant du transport et de l'agriculture à la robotique et à la médecine, le rôle des caméras, de l'informatique et de l'apprentissage automatique dans la fourniture d'une vision et d'une cognition de type humain devient important. La vision par ordinateur en tant que discipline universitaire a pris son essor dans les années 1960, principalement dans les universités engagées dans le domaine émergent de l'intelligence artificielle (IA) et de l'apprentissage automatique. Il a progressé de façon spectaculaire au cours des quatre décennies suivantes à mesure que des avancées significatives dans les technologies des semi-conducteurs et de l'informatique ont été réalisées. Les progrès récents de l'apprentissage en profondeur et de l'intelligence artificielle ont encore accéléré l'application de la vision par ordinateur pour fournir une perception et une cognition en temps réel et à faible latence de l'environnement, permettant l'autonomie, la sécurité et l'efficacité dans diverses applications. Le transport est un domaine qui en a grandement profité.

LiDAR (Light Detection and Ranging) est une approche d'imagerie optique active qui utilise des lasers pour déterminer l'environnement 3D autour d'un objet. C'est l'une des technologies que les solutions de vision par ordinateur (qui reposent uniquement sur la lumière ambiante et n'utilisent pas de lasers pour la perception 3D) tentent de perturber. Le thème commun est que les conducteurs humains n'ont pas besoin de LiDAR pour la perception de la profondeur, les machines non plus. Les fonctionnalités commerciales actuelles de conduite autonome L3 (autonomie complète dans des zones géographiques et des conditions météorologiques spécifiques, avec le conducteur prêt à prendre le contrôle en quelques secondes) produits aujourd'hui utiliser LiDAR. Les techniques purement basées sur la vision n'ont toujours pas été en mesure d'offrir cette capacité commercialement.

PUBLICITÉ

TeslaTSLA
est un partisan dominant de l'utilisation de la vision par ordinateur passive basée sur une caméra pour assurer l'autonomie des véhicules de tourisme. Lors du récent événement AI Day de la société, Elon Musk et ses ingénieurs ont fait une présentation impressionnante de ses capacités d'intelligence artificielle, de gestion des données et de calcul qui prennent en charge, entre autres initiatives, la fonction Full Self Driving (FSD) sur plusieurs modèles Tesla. La FSD exige que le conducteur humain soit engagé dans la tâche de conduite à tout moment (ce qui est cohérent avec l'autonomie L2). Actuellement, cette option est disponible sur 160,000 8 véhicules achetés par des clients aux États-Unis et au Canada. Une suite de 360 caméras sur chaque véhicule fournit une carte d'occupation à 75°. Les données de caméra (et autres) de ces véhicules sont utilisées pour former son réseau neuronal (qui utilise l'auto-étiquetage) pour reconnaître les objets, tracer les trajectoires potentielles des véhicules, sélectionner celles qui sont optimales et activer les actions de contrôle appropriées. Environ 12 1 mises à jour du réseau de neurones ont eu lieu au cours des 7 derniers mois (~ 4 mise à jour toutes les XNUMX minutes) car de nouvelles données sont continuellement collectées et des erreurs d'étiquetage ou de manœuvre sont détectées. Le réseau formé exécute des actions de planification et de contrôle via une architecture intégrée et redondante d'électronique de calcul spécialement conçue. Tesla s'attend à ce que le FSD conduise à terme à des véhicules autonomes (VA), qui offrent une autonomie complète dans certains domaines de conception opérationnelle sans engagement de conducteur humain requis (également appelé autonomie LXNUMX).

D'autres sociétés comme Phiar, Helm.ai et NODAR poursuivent également la voie de la vision par ordinateur. NODAR vise à étendre considérablement la gamme d'imagerie et la perception 3D des systèmes de caméras stéréo en apprenant à ajuster le désalignement de la caméra et les effets de vibration grâce à des algorithmes d'apprentissage automatique brevetés. Il a récemment levé 12 millions de dollars pour la production de son produit phare, Hammerhead ™, qui utilise des caméras de qualité automobile «prêtes à l'emploi» et des plates-formes de calcul standard.

Outre le coût et la taille, un argument fréquent contre l'utilisation du LiDAR est qu'il a une portée et une résolution limitées par rapport aux caméras. Par exemple, des LiDAR avec une portée de 200 m et 5-10 M points/seconde (PPS proche de la résolution) sont disponibles aujourd'hui. À 200 m, de petits obstacles comme des briques ou des débris de pneus enregistreront très peu de points (peut-être 2-3 dans le sens vertical et 3-5 dans le sens horizontal), ce qui rend la reconnaissance des objets difficile. Les choses deviennent encore plus grossières à des distances plus longues. En comparaison, les caméras mégapixels standard fonctionnant à 30 Hz peuvent générer 30 millions de pixels/seconde, permettant une meilleure reconnaissance des objets même à longue distance. Des caméras plus avancées (12 M pixels) peuvent encore augmenter cela. Le problème est de savoir comment utiliser ces données massives et produire une perception exploitable avec des latences de l'ordre de la milliseconde, une faible consommation d'énergie et des conditions d'éclairage dégradées.

PUBLICITÉ


Reconnaissance, une société basée en Californie, tente de résoudre ce problème. Selon le PDG Mark Bolitho, sa mission est de «offrir une perception visuelle surhumaine pour les véhicules entièrement autonomes.” L'entreprise a été fondée en 2017, a levé 75 millions de dollars à ce jour et compte 70 employés. RK Anand, un ancien de Juniper Networks, est l'un des co-fondateurs et chef de produit. Il pense que l'utilisation de caméras à plus haute résolution, avec une plage dynamique > 120 dB, fonctionnant à des fréquences d'images élevées (par exemple, OnSemi, Sony et Omnivision) fournit les données nécessaires pour créer des informations 3D haute résolution, ce qui est essentiel pour réaliser des AV. Les facilitateurs à cela sont :

  1. Des ASIC conçus sur mesure pour traiter efficacement les données et produire des cartes 3D précises et haute résolution de l'environnement de la voiture. Ceux-ci sont fabriqués sur un procédé TSMC 7 nm, avec une taille de puce de 100 mm², fonctionnant à une fréquence de 1 GHz.
  2. Algorithmes d'apprentissage automatique propriétaires pour traiter des millions de points de données hors ligne afin de créer le réseau neuronal formé, qui peut ensuite fonctionner efficacement et apprendre en continu. Ce réseau fournit la perception et comprend la classification et la détection d'objets, la segmentation sémantique, la détection de voies, la reconnaissance des panneaux de signalisation et des feux de circulation
  3. Minimiser les opérations de stockage et de multiplication hors puce qui consomment beaucoup d'énergie et créent une latence élevée. La conception ASIC de Recogni est optimisée pour les calculs logarithmiques et utilise l'addition. D'autres efficacités sont réalisées en regroupant les poids de manière optimale dans le réseau neuronal formé.

Pendant la phase de formation, un LiDAR commercial est utilisé comme vérité terrain pour former des données de caméra stéréo à haute résolution et à plage dynamique élevée afin d'extraire des informations de profondeur et de les rendre robustes contre les effets de désalignement et de vibration. Selon M. Anand, leur mise en œuvre de l'apprentissage automatique est si efficace qu'elle peut extrapoler les estimations de profondeur au-delà des plages d'entraînement fournies par le LiDAR d'étalonnage (qui fournit la vérité terrain à une plage de 100 m).

PUBLICITÉ

Les données de formation ci-dessus ont été réalisées pendant la journée avec une paire stéréo de caméras de 8.3 mégapixels fonctionnant à des fréquences d'images de 30 Hz (~ 0.5 milliard de pixels par seconde). Il démontre la capacité du réseau formé à extraire des informations 3D dans la scène au-delà de la portée de 100 m avec laquelle il a été formé. La solution de Recogni peut également extrapoler son apprentissage avec des données diurnes aux performances nocturnes (Figure 2).

PUBLICITÉ

Selon M. Anand, les données de distance sont précises à moins de 5 % (à longue distance) et à près de 2 % (à plus courte distance). La solution fournit 1000 6 TOPS (billion d'opérations par seconde) avec une latence de 25 ms et une consommation d'énergie de 40 W (10 TOPS/W), ce qui en fait le leader du secteur. Les concurrents utilisant les mathématiques entières sont> 1 fois inférieurs à cette métrique. La solution de Recogni est actuellement à l'essai chez plusieurs fournisseurs automobiles de niveau XNUMX.

prophétiser ("prédire et voir où se trouve l'action"), basée en France, utilise ses caméras événementielles pour les audiovisuels, les systèmes avancés d'aide à la conduite (ADAS), l'automatisation industrielle, les applications grand public et les soins de santé. Fondée en 2014, la la société a récemment clôturé son financement de ronde C de 50 millions de dollars, avec un total de 127 millions de dollars levés à ce jour. Xiaomi, l'un des principaux fabricants de téléphones mobiles, est l'un des investisseurs. L'objectif de Prophesee est d'imiter la vision humaine dans laquelle les récepteurs de la rétine réagissent aux informations dynamiques. Le cerveau humain se concentre sur le traitement des changements dans la scène (en particulier pour la conduite). L'idée de base est d'utiliser des architectures de caméra et de pixel qui détectent les changements d'intensité lumineuse au-dessus d'un seuil (un événement) et de fournir uniquement ces données à la pile de calcul pour un traitement ultérieur. Les pixels fonctionnent de manière asynchrone (non cadrés comme dans les caméras CMOS classiques) et à des vitesses beaucoup plus élevées car ils n'ont pas à intégrer de photons comme dans une caméra conventionnelle basée sur des images et à attendre que l'image entière se termine avant la lecture des données. Les avantages sont significatifs : une bande passante de données, une latence de décision, un stockage et une consommation d'énergie plus faibles. Le premier capteur de vision événementiel VGA de qualité commerciale de la société présentait une plage dynamique élevée (>120 dB) et une faible consommation d'énergie (26 mW au niveau du capteur ou 3 nW/événement). Une version HD (haute définition) (développée en collaboration avec Sony), avec une taille de pixel à la pointe de l'industrie (< 5 μm) a également été lancée.

PUBLICITÉ

Ces capteurs constituent le cœur de la plate-forme de détection Metavision®, qui utilise l'IA pour fournir une perception intelligente et efficace pour les applications d'autonomie et est en cours d'évaluation par plusieurs entreprises du secteur des transports. Outre la perception orientée vers l'avant pour les AV et les ADAS, Prophesee s'engage activement auprès des clients pour la surveillance en cabine du conducteur pour les applications L2 et L3, voir Figure 4 :

Les opportunités automobiles sont lucratives, mais les cycles de conception sont longs. Au cours des deux dernières années, Prophesee a constaté un intérêt et une traction considérables dans le domaine de la vision industrielle pour les applications industrielles. Celles-ci incluent le comptage à grande vitesse, l'inspection de surface et la surveillance des vibrations.

PUBLICITÉ

Prophesee a récemment annoncé des collaborations avec les principaux développeurs de systèmes de vision industrielle pour exploiter les opportunités dans l'automatisation industrielle, la robotique, l'automobile et l'IoT (Internet des objets). D'autres opportunités immédiates sont la correction du flou d'image pour les téléphones mobiles et les applications AR/VR. Ceux-ci utilisent des capteurs de format inférieur à ceux utilisés pour les opportunités ADAS/AV à plus long terme, consomment encore moins d'énergie et fonctionnent avec une latence nettement inférieure.


Israël est un innovateur de premier plan dans le domaine de la haute technologie, avec d'importants investissements en capital-risque et un environnement de démarrage actif. Depuis 2015, environ 70 milliards de dollars d'investissements dirigés par des entreprises dans le secteur de la technologie ont eu lieu. Une partie de cela est dans le domaine de la vision par ordinateur. Mobileye a été le fer de lance de cette révolution en 1999 lorsque Amnon Shashua, un chercheur de premier plan en intelligence artificielle à l'Université hébraïque, a fondé l'entreprise pour se concentrer sur la perception par caméra pour ADAS et AV. La société a déposé une demande d'introduction en bourse en 2014 et a été acquise par IntelINTC
en 2017 pour 15 milliards de dollars. Aujourd'hui, c'est facilement le principal acteur dans le domaine de la vision par ordinateur et de l'AV et récemment a annoncé son intention de déposer une demande d'introduction en bourse et devenir une entité indépendante. Mobileye a enregistré des revenus de 1.4 milliard de dollars par an et des pertes modestes (75 millions de dollars). Il fournit des capacités de vision par ordinateur à 50 équipementiers automobiles qui le déploient sur 800 modèles de voitures pour les capacités ADAS. À l'avenir, ils ont l'intention de diriger l'autonomie des véhicules L4 (aucun conducteur requis) en utilisant cette expertise en vision par ordinateur et les capacités LiDAR basées sur la plate-forme photonique au silicium d'Intel. La valorisation de Mobileye est estimée à ~ 50 milliards de dollars lorsqu'ils seront enfin rendus publics.

PUBLICITÉ

Champel Capitale, basée à Jérusalem, est à la pointe de l'investissement dans des entreprises développant des produits basés sur la vision par ordinateur pour diverses applications allant du transport et de l'agriculture à la sécurité et à la sûreté. Amir Weitman est co-fondateur et associé directeur et a lancé sa société de capital-risque en 2017. Le premier fonds a investi 20 millions de dollars dans 14 entreprises. L'un de leurs investissements a été dans Innoviz, qui est devenue publique par le biais d'une fusion SPAC en 2018 et est devenue une licorne LiDAR. Dirigé par Omer Keilaf (issu de l'unité technologique du Corps du renseignement des Forces de défense israéliennes), la société est aujourd'hui un leader dans les déploiements LiDAR pour ADAS et AV, avec de multiples victoires de conception chez BMW et Volkswagen.

Le deuxième fonds de Champel Capital (Impact Deep Tech Fund II) a été lancé en janvier 2022 et a levé 30 M$ à ce jour (l'objectif est de 100 M$ d'ici fin 2022). L'accent est mis sur la vision par ordinateur, avec 12 millions de dollars déployés dans cinq entreprises. Trois d'entre eux utilisent la vision par ordinateur pour le transport et la robotique.

RéservoirU, basé à Haïfa, a commencé ses activités en 2018 et a levé 10 millions de dollars de financement. Dan Valdhorn est le PDG et est diplômé de l'Unité 8200, un groupe d'élite de haute technologie au sein des Forces de défense israéliennes responsable du renseignement sur les signaux et du décryptage de code. Les produits SaaS (logiciel en tant que service) de TankU automatisent et sécurisent les processus dans des environnements extérieurs complexes au service des véhicules et des conducteurs. Ces produits sont utilisés par les propriétaires de flottes de véhicules, de voitures particulières, de stations de ravitaillement et de recharge électrique pour prévenir le vol et la fraude dans les transactions financières automatisées. Les services de carburant pour véhicules génèrent environ 2 milliards de dollars de revenus mondiaux par an, dont les propriétaires de flottes de véhicules privés et commerciaux consomment 40 % ou 800 milliards de dollars. Les détaillants et les propriétaires de flottes perdent environ 100 milliards de dollars par an en raison du vol et de la fraude (par exemple, l'utilisation d'une carte de carburant de flotte pour les véhicules privés non autorisés). La fraude CNP (carte non présente) et la falsification/le vol de carburant sont des sources supplémentaires de perte, en particulier lors de l'utilisation des détails de la carte volée dans les applications mobiles pour les paiements.

PUBLICITÉ

Le produit TUfuel de la société facilite le paiement sécurisé en un clic, bloque la plupart des types de fraude et alerte les clients lorsqu'il soupçonne une fraude. Pour ce faire, il s'appuie sur un moteur d'IA formé sur les données des CCTV existantes dans ces installations et sur les données de transaction numérique (y compris les points de vente et autres données back-end). Des paramètres tels que la trajectoire et la dynamique du véhicule, l'identification du véhicule, la durée du trajet, le kilométrage, le temps de ravitaillement, la quantité de carburant, l'historique du carburant et le comportement du conducteur sont des attributs surveillés pour détecter la fraude. Ces données aident également les détaillants à optimiser le fonctionnement du site, à fidéliser la clientèle et à déployer des outils marketing basés sur la vision. Selon le PDG Dan Valdhorn, leur solution détecte 70 % de la flotte, 90 % des cartes de crédit et 70 % des événements frauduleux liés à la falsification.

Sonol est une société de services énergétiques qui possède et exploite un réseau de 240 stations et magasins de proximité à travers Israël. TUfuel est déployé sur leurs sites et a démontré une sécurité, une prévention de la fraude et une fidélité client améliorées. Des essais de produits sont en cours aux États-Unis en collaboration avec un important fournisseur mondial de stations-service et d'équipements de dépanneur. Des initiatives similaires sont également en cours en Afrique et en Europe.

PUBLICITÉ

Basé à Tel-Aviv ITC a été fondée en 2019 par des universitaires en apprentissage automatique de l'Université Ben Gourion. ITC crée des produits SaaS qui "Mesurer le flux de trafic, prévoir la congestion et l'atténuer grâce à une manipulation intelligente des feux de circulation - avant que les embouteillages ne commencent à se former." Semblable à TankU, il utilise les données de caméras standard (déjà installées à de nombreux carrefours) pour obtenir des données de trafic en direct. Les données de milliers de caméras à travers une ville sont analysées et des paramètres tels que le type de véhicule, la vitesse, la direction du mouvement et la séquence des types de véhicules (camions vs voitures) sont extraits grâce à l'application d'algorithmes d'IA propriétaires. Les simulations prédisent le flux de trafic et les situations potentielles d'embouteillage jusqu'à 30 minutes à l'avance. Les feux de circulation sont ajustés à l'aide de ces résultats pour fluidifier le trafic et éviter les embouteillages.

La formation du système d'IA prend un mois de données visuelles dans une ville typique et implique une combinaison d'apprentissage supervisé et non supervisé. La solution d'ITC est déjà déployée à Tel-Aviv (classée au 25e rang des villes les plus congestionnées au monde en 2020), avec des milliers de caméras déployées à des centaines d'intersections contrôlées par des feux de circulation. Le système d'ITC gère actuellement 75 XNUMX véhicules, ce qui devrait continuer de croître. L'entreprise installe un capacité similaire dans Luxembourg et démarre des essais dans les grandes villes américaines. À l'échelle mondiale, sa solution gère 300,000 XNUMX véhicules avec des sites d'exploitation en Israël, aux États-Unis, au Brésil et en Australie. Dvir Kenig, le CTO, est passionné par la résolution de ce problème - pour redonner du temps personnel aux gens, réduire les gaz à effet de serre, améliorer la productivité globale et, surtout, réduire les accidents aux intersections encombrées. Selon M. Kenig, "Nos déploiements démontrent une réduction de 30 % des embouteillages, réduisant les temps de conduite improductifs, le stress, la consommation de carburant et la pollution."

PUBLICITÉ

Robotique intérieure était Fondé dans 2018 ainsi que récemment a levé 18 M $ de financement. La société, basée près de Tel-Aviv, en Israël, développe et commercialise des solutions de drones autonomes pour la surveillance de la sécurité intérieure, de la sûreté et de la maintenance. Le PDG et co-fondateur, Doron Ben-David, possède une importante expérience en robotique et en aéronautique accumulée chez IAIIAI
(un important maître d'œuvre de la défense) et MAFAT (une organisation de recherche avancée au sein du ministère israélien de la Défense), qui est similaire à la DARPA aux États-Unis. Les investissements croissants dans les bâtiments intelligents et les marchés de la sécurité commerciale alimentent le besoin de systèmes autonomes pouvant utiliser la vision par ordinateur et d'autres entrées sensorielles dans les petits et grands espaces commerciaux intérieurs (bureaux, centres de données, entrepôts et espaces de vente au détail). Indoor Robotics cible ce marché en utilisant des drones d'intérieur équipés de caméras standard et de capteurs de portée thermique et infrarouge.

Ofir Bar-Levav est le directeur commercial. Il explique que le manque de GPS a empêché les drones d'intérieur de se localiser à l'intérieur des bâtiments (généralement refusés par GPS ou inexacts). De plus, il manquait des solutions d'accueil et d'alimentation pratiques et efficaces. Indoor Robotics résout ce problème avec quatre caméras montées sur drone (haut, bas, gauche, droite) et de simples capteurs de distance qui cartographient avec précision un espace intérieur et son contenu. Les données de la caméra (les caméras fournissent des données de localisation et de cartographie) et les capteurs thermiques (également montés sur le drone) sont analysés par un système d'IA pour détecter les problèmes potentiels de sécurité, de sûreté et de maintenance et avertir le client. Les drones s'alimentent grâce à une "tuile d'accueil" montée au plafond, ce qui permet d'économiser un espace au sol précieux et permet la collecte de données pendant la charge. Les avantages financiers de l'automatisation de ces processus banals où le travail humain est complexe et coûteux en termes de recrutement, de rétention et de formation sont évidents. L'utilisation de drones aériens par rapport aux robots au sol présente également des avantages significatifs en termes de coûts d'investissement et d'exploitation, une meilleure utilisation de l'espace au sol, la liberté de se déplacer sans rencontrer d'obstacles et l'efficacité de la capture des données de la caméra. Selon M. Bar-Levav, le TAM (Total Addressable Market) d'Indoor Robotics dans les systèmes de sécurité intelligents d'intérieur atteindra 80 milliards de dollars d'ici 2026. Les principaux emplacements des clients comprennent aujourd'hui des entrepôts, des centres de données et des campus de bureaux de grandes entreprises mondiales.

PUBLICITÉ


La vision par ordinateur révolutionne le jeu de l'autonomie - dans l'automatisation des mouvements, la sécurité, la surveillance intelligente des bâtiments, la détection des fraudes et la gestion du trafic. La puissance des semi-conducteurs et de l'IA sont de puissants catalyseurs. Une fois que les ordinateurs maîtrisent cette incroyable modalité sensorielle de manière évolutive, les possibilités sont infinies.

Source : https://www.forbes.com/sites/sabbirrangwala/2022/10/04/advances-in-computer-vision-propel-transportation-autonomy/