Google의 Objectron은 AI를 사용하여 2D 비디오에서 3D 객체 추적
Google 은 2020 TensorFlow 개발자 서밋 의 시작과 함께 2D 이미지에서 객체를 발견하고 AI 모델을 통해 포즈와 크기를 추정하는 파이프 라인 (Objectron)을 발표했습니다. 이 회사는 로봇 공학, 자율 주행 차량, 이미지 검색 및 증강 현실에 영향을 미치며, 예를 들어 공장 현장 로봇이 실시간으로 장애물을 피하는 데 도움이 될 수 있다고 말합니다.
제한된 컴퓨팅 리소스 (예 : 스마트 폰 시스템 온 칩)를 처리 할 때 3D 객체 추적은 까다로운 전망입니다. 또한 데이터 부족과 다양한 모양과 객체 모양으로 인해 사용 가능한 유일한 이미지 (일반적으로 비디오)가 2D 인 경우 더욱 어려워집니다.
그런 다음 Objectron의 Google 팀은 어노 테이터가 분할 화면보기를 사용하여 2D 비디오 프레임을 표시하는 객체의 3D 경계 상자 (예 : 직사각형 테두리)에 레이블을 지정할 수있는 도구 세트를 개발했습니다. 3D 경계 상자는 점 구름, 카메라 위치 및 감지 된 평면과 함께 위에 배치되었습니다. 어노 테이터는 3D보기에서 3D 경계 상자를 그리고 2D 비디오 프레임의 투영을 검토하여 위치를 확인했으며 정적 오브젝트의 경우 대상 오브젝트에 단일 프레임으로 주석을 달기 만하면됩니다. 이 도구는 AR 세션 데이터의지면 진실 카메라 포즈 정보를 사용하여 객체의 위치를 모든 프레임으로 전파했습니다.
AI 모델의 예측 정확도를 높이기 위해 실제 데이터를 보완하기 위해 팀은 가상 세션을 AR 세션 데이터가 포함 된 장면에 배치하는 엔진을 개발했습니다. 이를 통해 카메라 포즈, 감지 된 평면 표면 및 추정 된 조명을 사용하여 장면과 일치하는 조명으로 물리적으로 가능한 배치를 생성 할 수 있었으며, 장면 형상을 존중하고 실제 배경에 매끄럽게 맞는 렌더링 된 객체로 고품질 합성 데이터를 생성했습니다. . 검증 테스트에서 합성 데이터로 정확도가 약 10 % 증가했습니다.
팀은 현재 최신 버전의 Objectron 모델이 플래그십 모바일 장치에서 실시간으로 실행될 수있을 정도로 가벼워 졌다고 덧붙였다. LG V60 ThinQ, Samsung Galaxy S20 + 및 Sony Xperia 1 II와 같은 휴대폰에서 사용되는 Adreno 650 모바일 그래픽 칩을 사용하면 초당 약 26 프레임을 처리 할 수 있습니다.
Objectron은 빠른 추론과 미디어 처리 (예 : 비디오 디코딩)로 구성된 크로스 플랫폼 AI 파이프 라인을 구축하기위한 프레임 워크 인 MediaPipe 에서 사용할 수 있습니다 . 신발과 의자를 인식하도록 훈련 된 모델과 엔드 투 엔드 데모 앱을 사용할 수 있습니다.
이 팀은 앞으로 새로운 개발 사례, 응용 프로그램 및 연구 노력을 자극하기 위해 연구 개발 커뮤니티와 추가 솔루션을 공유 할 계획이라고 밝혔다. 또한 Objectron 모델을 더 많은 범주의 개체로 확장하고 장치의 성능을 더욱 향상시킬 계획입니다.