Key Takeaways
- 블록체인과 AI는 대비되는 특성으로 인해 상호보완의 잠재력을 지니고 있습니다. 현재 AI 섹터의 프로젝트들은 블록체인을 통해 중앙화된 AI의 잠재적인 문제를 해소하거나, AI를 통해 블록체인 생태계의 발전을 도모하는 두가지의 방향으로 나뉩니다.
- AI의 탈중앙화는 연산 자원, 학습 데이터, 추론 결과 등 AI 모델을 구성하는 거의 모든 수준에서 발생하고 있으며, 최근에는 이를 넘어서 AI의 연산 결과에 대한 검증력의 영역까지 확장되고 있습니다.
- 오라클을 통해 스마트 컨트랙트에서 AI 모델과의 상호작용을 도모하는 시도가 이루어지고 있습니다. 이를 통해 AI를 활용한 다양한 형태의 어플리케이션과 오프체인 툴이 개발되고 있으며, 특히 AI 섹터 초기 저수준에 머물러있던 AI 챗봇의 발전이 두드러집니다.
1. 블록체인과 AI의 결합
2022년 OpenAI가 DALL-E를 발표할 때만 하더라도 단순한 이미지만을 생성할 수 있었던 AI는 이제 생활 속에서 떼어놓을 수 없을 정도로 수준이 발전했습니다. 기술의 발전에 따른 AI 하입은 상상 가능한 모든 영역에서 발생하고 있으며, 이는 크립토에도 어김없이 작용했습니다. 이러한 하입으로 인해 ChatGPT의 사용권을 토큰을 주고 사는 정도의 낮은 수준의 프로젝트가 우후죽순으로 등장했고, 커뮤니티로 하여금 Crypto와 AI의 결합이 근본적으로 의미가 있는 것인지에 대한 의문을 갖게 되는 결과를 낳았습니다.
1.1. 블록체인과 AI의 시너지
이러한 우려에도 불구하고 AI와 블록체인의 대비되는 특성은 상호보완의 가능성을 제시합니다. 상용 AI는 대중이 운영할 수 없을 정도의 고사양의 연산자원을 요구하는 복잡한 작업을 수행하며, 이때문에 대부분의 최신 모델이 비공개된 채로 중앙화되어 운영된다는 단점을 갖고 있습니다. 반면 블록체인은 사용자의 공유 하드웨어를 기반으로 한 합의를 통해 데이터의 투명성과 조작 저항성을 제공하지만, 연산 복잡도에 명확한 한계를 갖고 있습니다. 이에 따라 AI와 블록체인을 결합하는 프로젝트의 방향성 또한 크게 둘로 나뉩니다.
- 블록체인을 통한 AI의 탈중앙화: AI의 기계적이고 빠른 업무 처리는 사용자로 하여금 AI가 객관적이고 기계적인 판단을 내린다고 착각하게 만듭니다. 하지만 AI는 학습과 추론 과정에서 명백하게 서비스 제공자와 모델 소유자의 주관이 개입될 수 있으며, 이것이 이루어지는 과정은 학습 데이터의 수집에서 사용자에게 추론 결과값을 서빙하기까지의 전 과정을 포괄합니다. 이러한 문제를 해소하기 위해 사용자가 로컬 환경에서 직접 모델을 학습시켜 사용하는 방법이 있을 수 있으나, 상용 모델의 성능을 따라잡기 위해서는 막대한 양의 데이터셋과 이를 학습시키기 위한 컴퓨팅 자원이라는 허들이 존재합니다. 블록체인의 탈중앙성과 검증 가능성, 검열 저항성, 인센티브 모델은 이러한 문제점을 해소하기에 적합한 성격을 갖고 있고, 이때문에 현재 다수의 웹3 프로젝트들이 AI의 탈중앙화에 직간접적으로 연결되어 있습니다.
- AI를 통한 생태계 다양화: AI와의 상호작용을 통해 크립토 생태계는 다양한 방향으로 발전할 수 있습니다. 토큰 인센티브를 기반으로 한 AI 에이전트 마켓플레이스, AI 기반 디파이 프로토콜, 온체인 게임에서의 AI 봇 등 AI를 결합한 형태의 탈중앙 어플리케이션들이 다수 등장했습니다. 또한 이러한 프로젝트를 위해 스마트 컨트랙트로 하여금 오프체인 AI와 보다 수월하게 상호작용할 수 있도록 하는 오라클 서비스, AI 디앱 개발 프레임워크 등이 개발되고 있습니다. AI를 통한 생태계 다양화는 비단 온체인 어플리케이션에 한정된 것은 아니며, 인공지능을 통한 온체인 데이터 분석 / 보안 감사 등 여러 영역에서의 확장이 이루어지고 있습니다.
1.2. 크립토 X AI의 현재
.png)
현재 AI 섹터에는 위의 그림과 같이 매우 많은 프로젝트들이 각기 다른 목적으로 개발 중에 있습니다. AI 섹터의 프로젝트들은 흔히 AI 모델의 lifecycle을 기준으로 삼아 infrastructure / middleware / application의 레이어로 나뉘곤 합니다. 하지만 이번 글에서는 이러한 보편적인 분류에서 벗어나, 앞에서 설명한 각 프로젝트의 목적성에 기준을 두고자 합니다.
이어지는 섹션에서는 AI 섹터의 프로젝트들이 해결하고자 하는 문제와 AI와의 결합을 통해 도모하는 시너지에 대해 살펴보고, 각 영역에서 미래가 기대되는 프로젝트에 대해 소개하겠습니다.
2. 블록체인을 통한 AI의 탈중앙화
2.1. 중앙화 AI의 문제점
대형 LLM 서비스들은 중앙화된 운영 구조로 인해 다양한 문제를 내포하고 있으며, 대표적인 문제점들은 아래와 같습니다.
- 데이터 무단 수집: LLM과 같은 대형 모델의 성능은 모델의 구조뿐만 아니라 데이터셋의 크기와 coverage에 의해 크게 좌우됩니다. 오늘날 일반 사용자에게 가장 많이 노출되는 AI 서비스들은 매우 포괄적인 범위의 지식을 다루는 범용 LLM을 기반으로 하고 있습니다. 이러한 모델은 넓은 coverage를 위해 필연적으로 막대한 양의 데이터 수집을 필요로 하게 됩니다. 하지만 모델 성능 향상을 위한 경쟁 과열은 곧 사용자 데이터를 무단으로 수집하는 문제를 낳았습니다. 오픈AI는 GPT-4를 학습시키는 과정에서 재활용이 금지된 유튜브 컨텐츠를 활용했다는 논란을 겪었으며, 구글은 학습 데이터 수집을 위해 자체 서비스의 개인정보 관련 규정을 수정하기까지 했습니다. 최근 구글 전 CEO인 에릭 슈미트의 “컨텐츠 일단 무단으로 사용하고 나중에 법적으로 해결하라”는 식의 발언이 논란이 된 바가 있듯이, 중앙화된 AI 서비스는 학습데이터 수집 과정에서 도덕적 해이가 발생할 수 있습니다.
- 주관적인 데이터 가공 및 모델 학습: AI를 위해 수집된 데이터는 학습을 위해 데이터에 대한 labeling, 유효하지 않은 데이터를 제거하는 cleaning, 데이터 수 증폭을 위한 mutation 등 여러 가공과정을 거칩니다. 이때 의도적으로 특정 특성을 가진 데이터를 학습 과정에서 배제하거나 학습자가 원하지 않는 특성를 추출해 제거하는 등 사용자의 주관을 모델에 주입시키는 행위가 이루어질 수 있습니다. 따라서 모델 소유자의 주관이 충분히 AI 모델에 투영되는 경우 AI 모델에 높은 신뢰도를 가진 일부 사용자의 주관에도 잠재적인 영향이 미칠 수 있습니다. 가장 대표적인 예로 구글의 LLM 서비스인 Gemini는 최근 특정 인종에 대해 과도하게 편향된 결과를 제공해 논란이 된 바 있습니다.
- 검열: 우리는 종종 LLM 서비스가 특정 주제나 용어에 대한 답변을 회피하거나 검열하는 모습을 확인할 수 있습니다. 이는 학습 데이터셋에 특정 영역의 질문에 대한 답변을 거절하는 시나리오를 추가하는 수동적인 방법과 추론으로 발생한 결과값을 임의의 규칙을 기반으로 필터링하는 능동적인 방법으로 이루어질 수 있습니다. 이러한 검열은 유해하거나 불법적인 컨텐츠의 생성을 방지하기 위한 목적이 크지만, 이는 곧 얼마든지 서비스 측에서 사용자에게 특정 영역의 정보를 일방적으로 차단하거나 주입시킬 수 있음을 의미합니다. 그럼에도 불구하고 사용자는 자신이 보고 있는 추론 결과가 검열에 의해 변형되지 않았는지 여부를 확인할 도리가 없습니다. 대부분의 상용 서비스는 closed-source 모델과 데이터셋을 사용하기 때문에 사용자가 자신의 환경에서 이를 재생산할 수 없기 때문입니다.