반응형
  • 빅데이터: 데이터 양과 크기가 중요
  • 알고리즘: 인공지능 학습 & 자율주행 상황판단
  • 하드웨어: 차량(엣지컴퓨팅) & 데이터센터(슈퍼컴퓨팅)


성공적인 자율 유행 요건은 위와 같이 3가지가 있다. 테슬라 같은 경우 빅데이터 알고리즘 면에서 다른 경쟁자들을 압도하고 있는데 하드웨어는 어떤지 살펴볼거임. 이번에 공개된 슈퍼컴퓨터 도조의 성능과 엔비디아 하드웨어의 차이점을 비교해보자.




자율주행에 진심인 테슬라

자율주행차는 인지, 판단, 제어 세 요소가 중요하다. 그 중 판단은 AI 기술의 두 가지 축인 추론과 훈련 중 추론에 해당되는데 만약 AI가 사소한것 하나하나 전부 컨펌을 받는다면 자율주행은 개뿔 앞으로 가지도 못할거다. 테슬라 차량도 마찬가지임.

테슬라 본사에 있는 데이터 센터 성능이 아무리 좋더라도 실시간으로 상황 판단해야 하는 자율주행차 특성상 테슬라 차량 안에서 스스로 연산 후 제어까지 이루어져야 한다. 지연 시간은 용납될 수가 없음. 운전을 하는데 앞에 있는 사람을 피할지 그냥 직진할지 매번 클라우드 시스템에 물어볼 수가 없는 거다.



그래서 테슬라 차량에 들어가는 엣지 컴퓨팅이 중요한 이유다. 한때는 엔비디아의 SOC (통합반도체)를 사용했지만, 하드웨어 3.0 부터 테슬라 자체 제작칩을 탑재했다. 이제 엣지 컴퓨팅이란 곧 추론이고 이 추론은 테슬라 자체 내부에서 스스로 빠르게 이루어져야 한다는 알았다.

즉, 테슬라 차량에 있는 엣지 컴퓨팅 자체를 훈련을 시킬 필요가 있는데 이제 딥러닝의 영역이다. 이 딥러닝은 테슬라 차량 안에 내장된 엣지 컴퓨팅으로는 거의 불가능하다고 보면됨. 그래서 데이터 센터에서 따로 훈련을 시키고 그 훈련을 시킨 결과를 클라우드를 통해서 테슬라 차량으로 OTA (Over the Air) 업데이트 시켜주는거다.

그러니까 이번 AI데이 발표 때 나온 내용이 바로 이 훈련을 담당하는 슈퍼컴퓨터다. 이름은 바로 도조(Dojo)인데 도조란 일본어 도장을 따온것으로 습득한 데이터를 바탕으로 인공지능 학습 훈련시키겠다는 닉값을 제대로 함.

도조칩은 D1, 트레이닝 타일, 시스템 트레이, 캐비닛으로 구성되는 계단식 구조를 가지고 있다. 이를 통해서 열팽창계수라고 불리는 CTE를 54% 낮출 수가 있었음. 열팽창계수를 낮추는 이유는 정밀한 반도체일수록 열에 매우 민감하기 때문이다.

쉽게 팽창 수축하면 구조가 망가지기 때문인데 추가로 테슬라가 안정성에 정말 신경을 많이 썼다고 느껴지는 게 반도체 밀도를 균일하게 하기 위해서 엄청나게 많은 장치들을 넣었다. 오실레이터 같은 부품의 균열이 생기는 문제를 해결하기 위해서 별도의 소프트터미널 캡을 추가한다든가 더 낮은 큐팩터를 설정해서 진동을 피하거나 공명 등을 피하기 위한 주파수를 따로 설정하는 등 여러 가지 방법을 통해 안정성을 확실히 많이 올렸다.


반응형




테슬라 도조 vs 엔비디아 A100

그리고 도조의 구조를 자세히 살펴보면 가장 기본이 되는 D1칩 25개로 트레이닝 타일을 만든다. 그리고 트레이닝 타일 6개와 도조 인터페이스를 합쳐서 시스템 트레이를 만듦. 그리고 시스템 트레이 2개와 안에 컴파일러와 전원 부분을 합쳐서 커다란 캐비넷을 하나 만드는데 캐비넷 얼개가 모인거를 완성된 엑사팟(exapod)이라고 함.

이게 아마 테슬라 슈퍼컴퓨터의 최종 형태라고 보면 됨. 성능은 ㄹㅇ 미친 수준이다. 현재 기관과 기업에서 사용하는 일반적인 슈퍼컴퓨터보다도 훨씬 좋은 성능이다. 그 이유는 바로 가장 근간이 되는 D1칩 덕분임. 전 세계에서 트랜지스터 집적도가 가장 높다. 지금 7나노 공정으로 TSMC에서 위탁 생산 중인데 원래 AI 반도체 압도적인 1위는 바로 NVIDIA였다.

최근 중국 판매가 금지된 A100 칩셋이 있는데 이게 인공지능 컴퓨터의 무려 90% 이상 점유율을 차지하고 있었다. 그런데 이 A100 보다 집적도가 더 높은 게 바로 테슬라의 D1 칩셋인 거다.

도조vsa100


오토라벨링, 어큐팬시 네트워크같은 인공지능 성능에서 엔비디아의 A100 칩셋을 압도하고 있음을 보여줘 최대 4.4 배까지 높다고 한다. 즉, 테슬라의 인공지능을 가장 잘 살릴 수 있는 반도체 칩을 스스로 만들고 있음. 게다가 6개의 GPU 바스켓과 유사한 연산 능력을 보이는 게 바로 도저의 트레이닝 타일 단 1개다.

기존 데이터 업로딩에 소요되는 시간이 정말 많이 걸렸는데 그런데 그걸 전부 다 줄이고 남는 컴퓨팅 파워를 연산에 집중할 수 있게 됐음. 예전 AI 가속기에서 실제 연산을 했던 게 4%밖에 안 됐다고 함. 그런데 이 테슬라는 이걸 96%까지 끌어올리게 됐다. 한마디로 소프트웨어 하드웨어를 최적화 시킨거다.

그리고 연산력은 엔비디아 그래픽카드 역시 최고 수준이다. 엔비디아아 측에서 내년에 출시할 H100과 같은 라인업들은 기존 A100에 비해서 2~3배 이상의 성능을 보여준다고 함. 또 아직까지 테슬라의 데이터 센터에는 엔비디아의 A100 칩셋을 14,000개 이상 운용하고 있다. 그런데 엔비디아와 테슬라는 결정적 차이가 있다.





테슬라 (애플) vs 엔비디아 (안드로이드)

자율주행


엔비디아 같은 경우 접근 방식이 테슬라와 다르다. 통합 솔루션을 제공하고 있음. 이걸 End to End라고 하는데 데이터를 모으고 분석해서 훈련 그리고 실제로 차량에 탑재하는 과정까지 모든 통합 솔루션을 제공한다. 슈퍼컴퓨터뿐 아니라 엣지 컴퓨팅, 기타 소프트웨어, 개발도구까지 제공함. 즉, 엔비디아를 끼면 차만 가져가면 된다.

그래서 실제로 30여 개 이상의 완성차 업체들이 엔비디아 플랫폼을 이용하고 있다. 벤츠 같은 경우는 아예 소프트웨어 부분을 통째로, 엔비디아와 협업 중임. 범용성이 장점이라고 볼 수 있다.

그런데 테슬라는 효율에 더 욕심이 났다. 엔비디아의 연산력이 우수하나 테슬라 소프트웨어를 올리게 되면 효율이 떨어지는것임. 이건 마치 애플이 아이폰에 들어가는 칩셋을 자체 개발하는 이유와 같다. 결국 중요한 건 소프트웨어와 하드웨어의 최적화임.

그래서 테슬라는 직접 도조개발에 나선거다. 결국 테슬라는 지금의 애플과 비슷한 포지션이라고 보면 됨. 독자적인 운영체제를 만들어서 하드웨어와 결합시킴.

반면에 엔비디아 같은 경우는 안드로이드와 비슷하다. 플랫폼을 빌려주고 일단 시장 점유율을 먼저 키우겠다는 전략을 가지고 있음. 이 승부는 아직 누가 이길지는 모르겠다. 근데 이번 AI데이 때 Q&A에서 이런 말이 나왔다.

"테슬라 도조도 엔비디아처럼 통합 솔루션을 제공하겠다"라고 하는데 이는 엔비디아의 통합 솔루션을 잡아먹겠다는 포부인데 이 시장이 어떻게 흘러갈지 같이 지켜봐보자.



반응형
  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기