Mga Pagsulong sa Computer Vision Propel Transportation Autonomy

Ang autonomous na self-driving na kotse ay kinikilala ang mga palatandaan sa kalsada. Computer vision at artificial intelligence ... [+] konsepto.

makulit

Ang paningin ay isang malakas na pandama ng tao. Binibigyang-daan nito ang mga kumplikadong gawain at proseso na ating pinababayaan. Sa pagtaas ng AoT™ (Autonomy of Things) sa magkakaibang mga aplikasyon mula sa transportasyon at agrikultura hanggang sa robotics at gamot, nagiging makabuluhan ang papel ng mga camera, computing at machine learning sa pagbibigay ng mala-tao na paningin at katalusan. Ang computer vision bilang isang akademikong disiplina ay nagsimula noong 1960s, pangunahin sa mga unibersidad na nakatuon sa umuusbong na larangan ng artificial intelligence (AI) at machine learning. Kapansin-pansing umunlad ito sa susunod na apat na dekada habang ang mga makabuluhang pag-unlad sa semiconductor at mga teknolohiya sa computing ay ginawa. Ang mga kamakailang pagsulong sa malalim na pag-aaral at artificial intelligence ay lalong nagpabilis sa aplikasyon ng computer vision upang magbigay ng real-time, mababang latency na perception at cognition ng kapaligiran, na nagbibigay-daan sa awtonomiya, kaligtasan at kahusayan sa iba't ibang mga aplikasyon. Ang transportasyon ay isang lugar na nakinabang nang malaki.

Ang LiDAR (Light Detection and Ranging) ay isang aktibong optical imaging approach na gumagamit ng mga laser upang matukoy ang 3D na kapaligiran sa paligid ng isang bagay. Isa ito sa mga teknolohiyang sinusubukang guluhin ng mga solusyon sa computer vision (na umaasa lamang sa ilaw sa paligid at hindi gumagamit ng mga laser para sa 3D perception). Ang karaniwang tema ay ang mga driver ng tao ay hindi nangangailangan ng LiDAR para sa malalim na pang-unawa, kaya hindi rin dapat ang mga makina. Kasalukuyang komersyal na L3 autonomous na mga feature sa pagmamaneho (kumpletong awtonomiya sa mga partikular na heograpiya at lagay ng panahon, na ang driver ay handang kontrolin sa loob ng ilang segundo) mga produkto ngayon gumamit ng LiDAR. Ang mga diskarteng puro vision-based ay hindi pa rin nakapag-alok ng kakayahang ito sa komersyo.

TeslaTSLA
ay isang nangingibabaw na tagapagtaguyod ng paggamit ng passive camera-based na computer vision upang magbigay ng awtonomiya sa sasakyan ng pasahero. Sa panahon ng kamakailang kaganapan ng AI Day ng kumpanya, si Elon Musk at ang kanyang mga inhinyero ay nagbigay ng isang kahanga-hangang pagtatanghal ng AI nito, pamamahala ng data at mga kakayahan sa pag-compute na sumusuporta, bukod sa iba pang mga inisyatiba, ang tampok na Full Self Driving (FSD) sa maraming modelo ng Tesla. Kinakailangan ng FSD na ang driver ng tao ay makisali sa gawain sa pagmamaneho sa lahat ng oras (na naaayon sa awtonomiya ng L2). Sa kasalukuyan, available ang opsyong ito sa 160,000 sasakyan na binili ng mga customer sa US at Canada. Ang suite ng 8 camera sa bawat sasakyan ay nagbibigay ng 360° occupancy map. Ginagamit ang data ng camera (at iba pa) mula sa mga sasakyang ito upang sanayin ang neural network nito (na gumagamit ng auto-labeling) upang makilala ang mga bagay, magplano ng mga potensyal na trajectory ng sasakyan, pumili ng mga pinakamabuting kalagayan at i-activate ang naaangkop na mga pagkilos sa pagkontrol. ~75K update ng neural network ang naganap sa nakalipas na 12 buwan (~1 update kada 7 minuto) habang patuloy na kinokolekta ang mga bagong data at natukoy ang mga error sa pag-label o mga pagkakamali sa pagmamaniobra. Ang sinanay na network ay nagsasagawa ng pagpaplano at pagkontrol ng mga aksyon sa pamamagitan ng onboard, kalabisan na arkitektura ng purpose-built compute electronics. Inaasahan ng Tesla na hahantong ang FSD sa mga autonomous na sasakyan (AVs), na nagbibigay ng kumpletong awtonomiya sa ilang partikular na operational design domain na walang kinakailangang pakikipag-ugnayan sa driver ng tao (tinutukoy din bilang L4 autonomy).

Iba pang mga kumpanya tulad ng Phiar, Helm.ai at NODAR ay hinahabol din ang computer vision avenue. Nilalayon ng NODAR na makabuluhang palawakin ang hanay ng imaging at 3D na perception ng mga stereo camera system sa pamamagitan ng pag-aaral na mag-adjust para sa maling pagkakahanay ng camera at mga epekto ng vibration sa pamamagitan ng patented machine learning algorithm. Kamakailan ay nakalikom ito ng $12M para sa productization ng flagship na produkto nito, ang Hammerhead™, na gumagamit ng "off-the-shelf" na automotive-grade na mga camera at karaniwang compute platform.

Bukod sa gastos at laki, ang madalas na argumento laban sa paggamit ng LiDAR ay ang limitadong saklaw at resolution nito kumpara sa mga camera. Halimbawa, ang mga LiDAR na may 200 m na hanay at 5-10 M na puntos/segundo (PPS na katulad ng resolution) ay available ngayon. Sa 200 m, ang mga maliliit na hadlang tulad ng mga ladrilyo o mga labi ng gulong ay magrerehistro ng napakakaunting puntos (marahil 2-3 sa patayo at 3-5 sa pahalang na direksyon), na nagpapahirap sa pagkilala ng bagay. Ang mga bagay ay nagiging mas magaspang sa mas mahabang hanay. Sa paghahambing, ang mga karaniwang megapixel na camera na tumatakbo sa 30 Hz ay maaaring makabuo ng 30M pixels/segundo, na nagpapagana ng higit na mahusay na pagkilala sa bagay kahit na sa mahabang hanay. Ang mas advanced na mga camera (12 M pixels) ay maaaring dagdagan pa ito. Ang isyu ay kung paano gamitin ang napakalaking data na ito at makabuo ng naaaksyunan na perception na may mga millisecond-level na latency, mababang paggamit ng kuryente at masamang kondisyon ng ilaw.

Kinikilala, isang kumpanyang nakabase sa California, ay nagsisikap na lutasin ang problemang ito. Ayon kay CEO Mark Bolitho, ang misyon nito ay “maghatid ng superhuman visual na perception para sa ganap na autonomous na mga sasakyan.” Ang kumpanya ay itinatag noong 2017, nakalikom ng $75M hanggang ngayon at mayroong 70 empleyado. Si RK Anand, isang alum ng Juniper Networks, ay isa sa mga co-founder at Chief Product Officer. Naniniwala siya na ang paggamit ng mga camera na may mas mataas na resolution, na may > 120 dB dynamic range, na tumatakbo sa mataas na frame rate (halimbawa, OnSemi, Sony at Omnivision) ay nagbibigay ng data na kinakailangan upang lumikha ng high-resolution na 3D na impormasyon, na kritikal para sa pagsasakatuparan ng mga AV. Ang mga nagpapagana nito ay:

Mga ASIC na pinasadyang idinisenyo upang maproseso ang data nang mahusay at makagawa ng tumpak at mataas na resolution na mga 3D na mapa ng kapaligiran ng kotse. Ang mga ito ay gawa-gawa sa isang TSMC 7 nm na proseso, na may laki ng chip na 100 mm², na tumatakbo sa 1 GHz frequency.
Mga algorithm ng pagmamay-ari ng machine learning para iproseso ang milyun-milyong data point nang offline para magawa ang sinanay na neural network, na maaaring gumana nang mahusay at patuloy na matuto. Ang network na ito ay nagbibigay ng perception at kasama ang object classification at detection, semantic segmentation, lane detection, traffic signs at traffic light recognition
Pag-minimize ng off-chip na imbakan at pagpaparami ng mga pagpapatakbo na kung saan ay power intensive at lumikha ng mataas na latency. Ang disenyo ng ASIC ng Recogni ay na-optimize para sa logarithmic math at gumagamit ng karagdagan. Ang mga karagdagang kahusayan ay napagtanto sa pamamagitan ng pag-cluster ng mga timbang nang mahusay sa sinanay na neural network.

Sa yugto ng pagsasanay, ginagamit ang isang komersyal na LiDAR bilang ground truth upang sanayin ang mataas na resolution, mataas na dynamic na hanay ng stereo camera data upang kunin ang malalim na impormasyon at gawin itong matatag laban sa misalignment at vibration effect. Ayon kay G. Anand, ang kanilang pagpapatupad ng machine learning ay napakahusay na maaari nitong i-extrapolate ang mga pagtatantya ng lalim na lampas sa mga hanay ng pagsasanay na ibinigay ng pagkakalibrate na LiDAR (na nagbibigay ng ground truth sa saklaw na 100 m).

Figure 1: Ipinapakita ng mga berdeng kahon ang 3D na pagganap ng perception stack ng Recogni sa sinanay na data sa 100 ... [+] m saklaw. Ang asul na arrow ay nagpapakita ng depth perception sa mga distansyang lampas sa data ng pagsasanay sa 130 m.

Kinikilala

Ang data ng pagsasanay sa itaas ay isinagawa sa araw na may stereo na pares ng 8.3-megapixel na mga camera na tumatakbo sa 30 Hz frame rate (~0.5B pixels per second). Ipinapakita nito ang kakayahan ng sinanay na network na kunin ang 3D na impormasyon sa eksenang lampas sa 100 m range kung saan ito sinanay. Ang solusyon ng Recogni ay maaari ding i-extrapolate ang pag-aaral nito gamit ang data sa araw sa pagganap sa gabi (Larawan 2).

Figure 2: Ang perception stack ng Recogni na sinanay sa daytime data ay gumaganap din sa ilalim ng mas mababang antas ng liwanag ... [+] mga kondisyon sa gabi

Kinikilala

Ayon kay G. Anand, ang data ng hanay ay tumpak sa loob ng 5% (sa mahabang hanay) at malapit sa 2% (sa mas maikling mga hanay). Nagbibigay ang solusyon ng 1000 TOPS (trillion operations per second) na may 6 ms latency at 25W power consumption (40 TOPS/W), na nangunguna sa industriya. Ang mga katunggali na gumagamit ng integer math ay > 10X na mas mababa sa sukatang ito. Ang solusyon ng Recogni ay kasalukuyang nasa mga pagsubok sa maramihang automotive Tier 1 na mga supplier.

Magpropesiya ("paghuhula at nakikita kung nasaan ang aksyon"), na nakabase sa France, ay gumagamit ng mga camera na nakabatay sa kaganapan nito para sa mga AV, Advanced Driver Assistance Systems (ADAS), automation ng industriya, mga aplikasyon ng consumer at pangangalaga sa kalusugan. Itinatag noong 2014, ang kamakailan ay isinara ng kumpanya ang C round funding nito na $50M, na may kabuuang $127M na itinaas hanggang sa kasalukuyan. Ang Xiaomi, isang nangungunang tagagawa ng mga mobile phone, ay isa sa mga namumuhunan. Ang layunin ng Prophesee ay tularan ang paningin ng tao kung saan ang mga receptor sa retina ay tumutugon sa dinamikong impormasyon. Ang utak ng tao ay nakatuon sa pagproseso ng mga pagbabago sa eksena (lalo na sa pagmamaneho). Ang pangunahing ideya ay ang paggamit ng mga arkitektura ng camera at pixel na nakakakita ng mga pagbabago sa intensity ng liwanag sa itaas ng isang threshold (isang kaganapan) at nagbibigay lamang ng data na ito sa compute stack para sa karagdagang pagproseso. Ang mga pixel ay gumagana nang asynchronously (hindi naka-frame tulad ng sa mga regular na CMOS camera) at sa mas mataas na bilis dahil hindi nila kailangang isama ang mga photon tulad ng sa isang kumbensyonal na frame-based na camera at maghintay para sa buong frame na matapos ito bago ang readout ng data. Ang mga pakinabang ay makabuluhan – mas mababang bandwidth ng data, latency ng desisyon, imbakan, at paggamit ng kuryente. Ang unang commercial-grade VGA event-based vision sensor ng kumpanya ay nagtatampok ng mataas na dynamic range (>120 dB), mababang power consumption (26 mW sa sensor level o 3 nW/event). Inilunsad din ang isang HD (High Definition) na bersyon (pinagsamang binuo sa Sony), na may nangunguna sa industriya na laki ng pixel (< 5 μm).

Figure 3: High definition format na event-based na imaging sensor na may 5 um pixel pitch, na pinagsama-samang binuo ... [+] kasama si Sony

Magpropesiya

Ang mga sensor na ito ang bumubuo sa core ng Metavision® sensing platform, na gumagamit ng AI upang magbigay ng matalino at mahusay na perception para sa mga aplikasyon ng awtonomiya at nasa ilalim ng pagsusuri ng maraming kumpanya sa espasyo ng transportasyon. Bukod sa pasulong na pananaw para sa mga AV at ADAS, ang Prophesee ay aktibong nakikipag-ugnayan sa mga customer para sa in-cabin na pagsubaybay ng driver para sa L2 at L3 application, tingnan ang Figure 4:

Figure 4: XPERI In-cabin driver monitoring batay sa numan-inspired neuromorphic vision

Magpropesiya

Ang mga pagkakataon sa automotive ay kumikita, ngunit ang disenyo-in cycle ay mahaba. Sa nakalipas na dalawang taon, nakita ni Prophesee ang makabuluhang interes at traksyon sa espasyo ng machine vision para sa mga pang-industriyang aplikasyon. Kabilang dito ang high-speed counting, surface inspection at vibration monitoring.

Figure 5: Mataas na pagbibilang gamit ang mga camera na nakabatay sa kaganapan

Magpropesiya

Ipinahayag kamakailan ni Prophesee ang mga pakikipagtulungan kasama ang mga nangungunang developer ng machine vision system para samantalahin ang mga pagkakataon sa industriyal na automation, robotics, automotive at IoT (Internet of Things). Ang iba pang mga agarang pagkakataon ay ang pagwawasto ng blur ng imahe para sa mga mobile phone at AR/VR application. Gumagamit ang mga ito ng mga sensor na mas mababa ang format kaysa sa mga ginagamit para sa mas matagal na pagkakataon sa ADAS/AV, kumokonsumo ng mas mababang power, at gumagana nang may mas mababang latency.

Ang Israel ay isang nangungunang innovator sa mataas na teknolohiya, na may makabuluhang pamumuhunan sa pakikipagsapalaran at isang aktibong kapaligiran sa pagsisimula. Mula noong 2015, humigit-kumulang $70B sa venture-led investments sa sektor ng teknolohiya ang naganap. Ang isang bahagi nito ay nasa lugar ng computer vision. Pinangunahan ng Mobileye ang rebolusyong ito noong 1999 nang si Amnon Shashua, isang nangungunang AI researcher sa Hebrew University, ay nagtatag ng kumpanya upang tumuon sa camera-based na perception para sa ADAS at AVs. Nag-file ang kumpanya para sa isang IPO noong 2014 at nakuha ng IntelINTC
sa 2017 para sa $15B. Ngayon, madali itong nangungunang manlalaro sa computer vision at AV domain at kamakailan lamang inihayag ang intensyon nitong mag-file para sa isang IPO at maging isang malayang entidad. Ang Mobileye ay nagkaroon ng mga kita na $1.4B/taon at katamtamang pagkalugi ($75M). Nagbibigay ito ng mga kakayahan sa computer vision sa 50 automotive OEM na nag-deploy nito sa 800 modelo ng kotse para sa mga kakayahan ng ADAS. Sa hinaharap, nilalayon nilang manguna sa L4 na awtonomiya ng sasakyan (walang kinakailangang driver) gamit ang kadalubhasaan sa computer vision na ito at mga kakayahan ng LiDAR batay sa silicon photonics platform ng Intel. Ang halaga ng Mobileye ay tinatantya sa ~$50B kapag sila ay sa wakas ay naging publiko.

Kabisera ng Champel, na nakabase sa Jerusalem, ay nangunguna sa pamumuhunan sa mga kumpanyang bumubuo ng mga produkto batay sa computer vision para sa magkakaibang mga aplikasyon mula sa transportasyon at agrikultura hanggang sa seguridad at kaligtasan. Si Amir Weitman ay isang co-founder at managing partner at sinimulan ang kanyang venture company noong 2017. Ang unang pondo ay namuhunan ng $20M sa 14 na kumpanya. Ang isa sa kanilang mga pamumuhunan ay sa Innoviz, na naging publiko sa pamamagitan ng SPAC merger noong 2018 at naging LiDAR unicorn. Pinangunahan ni Omer Keilaf (na nagmula sa yunit ng teknolohiya ng Intelligence Corps ng Israel Defense Force), ang kumpanya ngayon ay nangunguna sa mga deployment ng LiDAR para sa ADAS at AV, na may maraming panalo sa disenyo sa BMW at Volkswagen.

Ang pangalawang pondo ng Champel Capital (Impact Deep Tech Fund II) ay pinasimulan noong Enero 2022 at nakalikom ng $30M hanggang ngayon (ang target ay $100 M sa pagtatapos ng 2022). Ang isang nangingibabaw na pagtuon ay sa computer vision, na may $12M na naka-deploy sa limang kumpanya. Tatlo sa mga ito ay gumagamit ng computer vision para sa transportasyon at robotics.

TankU, na nakabase sa Haifa, nagsimula ng operasyon noong 2018 at nakalikom ng $10M sa pagpopondo. Si Dan Valdhorn ay ang CEO at nagtapos ng Unit 8200, isang elite high-tech na grupo sa loob ng Israeli Defense Force na responsable para sa signal intelligence at code decryption. Ang mga produkto ng SaaS (Software as a Service) ng TankU ay nag-o-automate at secure na mga proseso sa mga kumplikadong panlabas na kapaligiran na nagseserbisyo sa mga sasakyan at driver. Ang mga produktong ito ay ginagamit ng mga may-ari ng mga fleet ng sasakyan, pribadong sasakyan, gasolinahan at mga electric charging station para maiwasan ang pagnanakaw at panloloko sa mga awtomatikong transaksyong pinansyal. Ang mga serbisyo sa gasolina ng sasakyan ay bumubuo ng ~$2T sa mga pandaigdigang kita taun-taon, kung saan ang mga pribado at komersyal na mga may-ari ng fleet ng sasakyan ay kumokonsumo ng 40% o $800B. Nalulugi ang mga retailer at may-ari ng fleet ng ~$100B taun-taon dahil sa pagnanakaw at panloloko (halimbawa, paggamit ng fleet fuel card para sa mga hindi awtorisadong pribadong sasakyan). Ang pandaraya sa CNP (Card not present) at pakikialam/pagnanakaw ng gasolina ay karagdagang pinagmumulan ng pagkawala, lalo na kapag gumagamit ng mga nakaw na detalye ng card sa mga mobile app para sa mga pagbabayad.

Pinapadali ng produkto ng TUfuel ng kumpanya ang one-tap na secure na pagbabayad, hinaharangan ang karamihan sa mga uri ng panloloko at inaalerto ang mga customer kapag naghinala ito ng panloloko. Ginagawa ito batay sa isang AI engine na sinanay sa data mula sa mga kasalukuyang CCTV sa mga pasilidad na ito at data ng digital na transaksyon (kabilang ang POS at iba pang back-end na data). Ang mga parameter tulad ng trajectory at dynamics ng sasakyan, ID ng sasakyan, tagal ng paglalakbay, mileage, oras ng paglalagay ng gasolina, dami ng gasolina, history ng gasolina, at gawi ng driver ay ilang mga attribute na sinusubaybayan upang matukoy ang panloloko. Tinutulungan din ng data na ito ang mga retailer na i-optimize ang pagpapatakbo ng site, mapahusay ang katapatan ng customer, at mag-deploy ng mga tool sa marketing na nakabatay sa pananaw. Ayon kay CEO Dan Valdhorn, nakita ng kanilang solusyon ang 70% ng fleet, 90% ng credit-card at 70% ng mga kaganapan sa panloloko na nauugnay sa pakikialam.

Figure 6: Gumagamit ang TUfuel ng real-time na data mula sa mga fuel station na CCTV camera at iba pang digital na data mula sa ... [+] Point of Service at mga aktibidad sa mobile app

TankU

Sonol ay isang kumpanya ng mga serbisyo ng enerhiya na nagmamay-ari at nagpapatakbo ng isang network ng 240 na istasyon at convenience store sa buong Israel. Ang TUfuel ay naka-deploy sa kanilang mga site at nagpakita ng pinahusay na seguridad, pag-iwas sa pandaraya, at katapatan ng customer. Ang mga pagsubok sa produkto ay isinasagawa sa US sa pakikipagtulungan sa isang nangungunang pandaigdigang tagapagtustos ng mga istasyon ng gas at kagamitan sa convenience store. Ang mga katulad na inisyatiba ay isinasagawa din sa Africa at Europe.

Batay sa Tel-Aviv ITC ay itinatag noong 2019 ng mga akademya ng machine learning mula sa Ben-Gurion University. Lumilikha ang ITC ng mga produkto ng SaaS na "sukatin ang daloy ng trapiko, hulaan ang pagsisikip at pagaanin ito sa pamamagitan ng matalinong pagmamanipula ng mga ilaw trapiko - bago magsimula ang mga jam." Katulad ng TankU, gumagamit ito ng data mula sa mga off-the-shelf na camera (nai-install na sa maraming intersection ng trapiko) upang makakuha ng live na data ng trapiko. Sinusuri ang data mula sa libu-libong camera sa buong lungsod, at ang mga parameter tulad ng uri ng sasakyan, bilis, direksyon ng paggalaw at pagkakasunud-sunod ng mga uri ng sasakyan (mga trak kumpara sa mga kotse) ay kinukuha sa pamamagitan ng paggamit ng mga proprietary AI algorithm. Hinuhulaan ng mga simulation ang daloy ng trapiko at mga posibleng sitwasyon ng traffic jam hanggang 30 minuto nang maaga. Ang mga ilaw ng trapiko ay inaayos gamit ang mga resultang ito para maayos ang daloy ng trapiko at maiwasan ang mga jam.

Figure 7: Ang data mula sa libu-libong mga camera ay pinagsama-sama ng isang VMS sa loob ng isang city run traffic control ... [+] silid. Pinoproseso ng mga server ng ITC ang data na ito sa pamamagitan ng sinanay na mga algorithm ng AI upang kontrolin ang mga ilaw ng trapiko

ITC

Ang pagsasanay sa AI system ay tumatagal ng isang buwan ng visual na data sa isang tipikal na lungsod at nagsasangkot ng kumbinasyon ng pinangangasiwaan at hindi pinangangasiwaang pag-aaral. Ang solusyon ng ITC ay naka-deploy na sa Tel-Aviv (nai-rank sa ika-25 sa pinakamasikip na lungsod sa mundo noong 2020), na may libu-libong camera na naka-deploy sa daan-daang intersection na kontrolado ng mga traffic light. Ang sistema ng ITC ay kasalukuyang namamahala ng 75K na sasakyan, na inaasahang patuloy na lumalaki. Ang kumpanya ay nag-i-install ng a katulad na kakayahan sa Luxembourg at nagsisimula ng mga pagsubok sa mga pangunahing lungsod sa US. Sa buong mundo, ang solusyon nito ay namamahala sa 300,000 sasakyan na may mga operating site sa Israel, USA, Brazil at Australia. Si Dvir Kenig, ang CTO, ay masigasig sa paglutas ng problemang ito – upang ibalik sa mga tao ang personal na oras, bawasan ang mga greenhouse gas, pahusayin ang pangkalahatang produktibidad at higit sa lahat, bawasan ang mga aksidente sa masikip na mga intersection. Ayon kay G. Kenig, "Ang aming mga deployment ay nagpapakita ng 30% na pagbawas sa mga traffic jam, binabawasan ang hindi produktibong oras sa pagmamaneho, stress, pagkonsumo ng gasolina at polusyon."

Panloob na Robotics ay itinatag sa 2018 at kamakailan lamang nakalikom ng $18M sa pondo. Ang kumpanya, na nakabase malapit sa Tel-Aviv, Israel, ay bubuo at nagbebenta ng mga autonomous na solusyon sa drone para sa panloob na seguridad, kaligtasan at pagsubaybay sa pagpapanatili. Ang CEO at co-founder, si Doron Ben-David, ay may makabuluhang robotics at aeronautics na karanasan na naipon sa IAIIAI
(isang pangunahing kontratista sa pagtatanggol) at MAFAT (isang advanced na organisasyon ng pananaliksik sa loob ng Ministri ng Depensa ng Israel), na katulad ng DARPA sa Estados Unidos. Ang lumalaking pamumuhunan sa mga matatalinong gusali at komersyal na mga merkado ng seguridad ay nagpapasigla sa pangangailangan para sa mga autonomous system na maaaring gumamit ng computer vision at iba pang sensory input sa maliliit at malalaking interior na komersyal na espasyo (mga opisina, data center, bodega, at retail space). Target ng Indoor Robotics ang market na ito sa pamamagitan ng paggamit ng mga indoor drone na nilagyan ng mga off-the-shelf na camera at thermal at infrared range sensor.

Figure 8: Ang autonomous drone fleet ng Indoor Robotics ay maaaring magpaandar sa sarili nito sa pamamagitan ng kisame na naka-mount ... [+] docking tile. Pinoproseso ng Tando Control Bridge ang data at kinokontrol ang landas ng paglipad

Panloob na Robotics

Si Ofir Bar-Levav ang Chief Business Officer. Ipinaliwanag niya na ang kakulangan ng GPS ay humadlang sa mga panloob na drone mula sa pag-localize ng kanilang mga sarili sa loob ng mga gusali (karaniwang tinatanggihan ng GPS o hindi tumpak). Bukod pa rito, kulang ang maginhawa at mahusay na docking at powering solutions. Tinutugunan ito ng Indoor Robotics gamit ang apat na drone-mounted camera (itaas, pababa, kaliwa, kanan) at simpleng range sensor na tumpak na nagmamapa ng isang panloob na espasyo at mga nilalaman nito. Ang data ng camera (ang mga camera ay nagbibigay ng lokalisasyon at data ng pagmamapa) at mga thermal sensor (na naka-mount din sa drone) ay sinusuri ng isang AI system para makita ang mga potensyal na isyu sa seguridad, kaligtasan at pagpapanatili at pag-iingat sa customer. Pinapaandar ng mga drone ang kanilang sarili sa pamamagitan ng "docking tile" na naka-mount sa kisame, na nakakatipid ng mahalagang espasyo sa sahig at nagbibigay-daan sa pagkolekta ng data habang nagcha-charge. Ang mga pinansiyal na bentahe ng pag-automate ng mga makamundong proseso na ito kung saan ang paggawa ng tao ay kumplikado at mahal sa mga tuntunin ng pangangalap, pagpapanatili at pagsasanay ay maliwanag. Ang paggamit ng mga aerial drone kumpara sa mga robot na nakabatay sa lupa ay mayroon ding mga makabuluhang pakinabang sa mga tuntunin ng kapital at mga gastos sa pagpapatakbo, mas mahusay na paggamit ng espasyo sa sahig, kalayaang gumalaw nang hindi nakakaranas ng mga hadlang at kahusayan sa pagkuha ng data ng camera. Ayon kay Mr. Bar-Levav, ang Indoor Robotics' TAM (Total Addressable Market) sa mga panloob na intelligent na sistema ng seguridad ay magiging $80B sa 2026. Kabilang sa mga pangunahing lokasyon ng customer ngayon ang mga bodega, data center at office campus ng mga nangungunang pandaigdigang korporasyon.

Binabago ng computer vision ang larong awtonomiya – sa automation ng paggalaw, seguridad, matalinong pagsubaybay sa gusali, pagtuklas ng panloloko at at pamamahala sa trapiko. Ang kapangyarihan ng semiconductors at AI ay makapangyarihang mga enabler. Kapag napag-aralan ng mga computer ang hindi kapani-paniwalang sensory modality sa isang scalable na paraan, ang mga posibilidad ay walang katapusan.

Pinagmulan: https://www.forbes.com/sites/sabbirrangwala/2022/10/04/advances-in-computer-vision-propel-transportation-autonomy/