Tesla AI Day: Vision(WIP)

Tesla사에서 AI Day를 개최했다. 일론 머스크가 테슬라를 much more than electric car company라고 소개하며 시작한다.

저 말이 왜이렇게 멋있는지...!ㅎㅎ 이 날 다양한 프레젠테이션이 이루어졌지만, 역시 나의 우상 Andrej Karpathy가 발표한 비전 기술을 열심히 살펴봤다. 라이다에 집중하던 자율주행시장에서 100% 비전 중심의 자율 주행을 목표로 하며, 안드레 카파씨가 이끄는 ai team이 계속해서 연구를 하고있다고 한다. 이 날의 발표에서는 (정확히 언제 들고나왔는지는 모르겠지만) 이 전부터 언급해왔던 HydraNet을 중심으로 비전기술을 설명하고 있다. 모든 내용을 아직까지 이해하지는 못하지만, 이렇게 하고 있구나... 라고 훑으면서 발톱만큼이라도 따라가보자...>!!

raw정보를 처리하는 Neural Network 설계
: 차량의 8개 카메라로부터 raw data -> 실시간 프로세싱 -> vector space(3차원)

raw input(1280*960) -> Feature Extractor(RegNet) -> Feature Pyramid Networks(BiFPN) -> Task Specific Heads

- regNet: output으로 서로 다른 해상도와 스케일의 여러 feature들을 제공해줌

저해상도, 채널수 ⬆️ - 뉴런이 이미지의 전체 내용을 큰 맥락에서
고해상도, 채널수 ⬇️ - 이미지의 디테일을 면밀하게

- BiFPN

top layers는 항상 넓게 보고있으니까, 멀리있는 Car도 식별할 수 있음

"HydraNets"

1. Feature Sharing ( 백본 공유 )

피쳐를 공유하기때문에, 테스트할 때 연산&추론 과정이 줄어든다

2. De-couples Tasks

모든 task를 독립적으로 수행

3. Representation Bottleneck

multi-task head로 넘어가기전에 features에 대한 병목현상이 일어남. 그래서 이 부분을 캐싱처리를 해놓고, 캐쉬된 피쳐로만 파인튜닝하고 선택한 헤드만 파인튜닝한다.
(end-to-end학습 once in a while -> 멀티스케일 레벨의 피쳐들 캐싱 -> fine tuning)과정을 반복

FSD: Full Self-Driving 완전 자율주행

같은 차를 8개 카메라에서 5개로 잡게됨. 같은 차로 인식하기 위해서 8개의 이미지들을 하나의 NN에 동시에 인풋해서 vector space로 옮겨가도록 함. 각각의 이미지들이 백본에서 처리됨 -> 퓨전되기를 원함 -> 이미지 공간에서의 피쳐가 벡터공간의 피쳐로 표현되도록 함 -> head 디코딩

Multi-headed Self attention을 사용하는 Transformer

tesla AI day 19분 supercut: https://www.youtube.com/watch?v=keWEE9FwS9o