가상의 시대, 가상의 데이터

딥러닝 등 AI가 확대되면서 데이터가 중요하게 되었다. 그래서 실제 데이터를 수집하는 것이 매우 비싼 일이 되어 버렸다. 그런데, 가상의 데이터가 실제 데이터와 유사하다면, 굳이 실제 데이터를 수집하지 않아도 되지 않을까? 그래서 가상의 데이터를 만드는 기술과 회사들이 등장하게 되었다. 이런 데이터가 특별히 유용한 곳이 두곳이 있다. 첫째는 신약임상 데이터이고, 둘째로는 자율주행을 위한 데이터이다.

신약개발을 보면, 실제로 신약물질 발굴 보다 몇배로 돈이 많이 드는 것이 임상이다. 임상은 결국 실험데이터와 대조데이터와의 비교인데, 실험데이터와 대조데이터에 비용이 반반씩 들어가는 것이다. 그런데 대조데이터를 가상 데이터를 쓰다면? 실제로 대조데이터를 병원 데이터를 기반으로 합성해서 만들려는 시도들이 있다. 그러면 제약사 입장에서는 임상비용이 절반이나 줄어들어 좋고, 병원 입장에서는 노는 데이터로 돈 벌어 좋고! 물론 아직 문제가 있다. 가상 대조데이터를 통계적으로 유의미하게 만드는 방법도 아직은 좀 더 규명이 필요하고, 이 대조데이터가 임상적으로 의미가 있다고 FDA와 같은 기관에서 인정을 받는 것도 아직은 시간이 필요해 보인다.

자율주행을 위해서는 수 많은 이미지 데이터가 필요하다. 일반적인 주행 이미지도 중요하지만, 더욱 중요한 것은 독특한 사례를 (보통 ‘엣지 케이스’라고 불리는) 모으는 것이 매우 지난한 일이다. 이런 케이스를 어디서 하나씩 모아야 하나 싶기도 하고. 테슬라의 자율주행 수준이 가장 높다고 할때, 도로상의 이미지 정보를 가장 많이 보유하고 있어서 그럴 것이라고 한다. 하지만, 이런 독특한 도로 사례들을 가상의 데이터로 만들 수 있다면? 그래서 당연히 이런 회사들도 등장하고 있다. 가상의 데이터로 자율주행 알고리즘을 교육시키는 것이다. 테슬라가 수십년 굴러다니면서 모은 실제 데이터를 1~2년 빡세게 연구해서 가상데이터로 모아 버릴 수 있다면, 디지털 기술로 아날로그의 간극을 한방에 해소할 수 있지 않을까.