국가생명연구자원정보센터(KOBIC)

KOBICian’s Story

[43호] 유전체 박물관, 그 후 일 년

작성자 정해영 (KOBIC 센터장/책임연구원)
작성일2025-02-28 20:00:24
조회수223

정말 더디게 봄이 온다고 생각했는데 휴대폰으로 바깥 온도를 확인해 보니 무려 영상 16도에 이르고 있습니다. 올해 계획도 제대로 세우지 못했는데 시간은 어김없이 흘러서 벌써 3월, 새봄이 찾아왔습니다.

꼭 1년 전 제가 썼던 KOBICian’s Story 1호의 글 제목은 ‘유전체 박물관 - 자료(資料)와 사료(史料) 사이에서’였습니다. 3월 3일을 공개일로 설정한 데이터까지 합치면 지금까지 총 23개의 바이오프로젝트를 등록하였습니다. 미생물에서 유래한 데이터가 전부라서 데이터 자체의 용량은 그다지 크지 않습니다. 그러나 혹여 이 오래된 데이터를 교육이나 참고 목적으로 이용할 분들을 위해서 데이터 파일과 함께 설명 자료를 작성하는데 정말 많은 공을 들였습니다. 때로는 먼지 냄새가 나는 연구 노트를 뒤적이며 샘플 준비와 정보 분석 과정을 다시 기억해 내면서 연구 시나리오를 재구성하느라 애를 먹었습니다.

이 일을 하면서 가장 보람이 있었던 것은 K-BDS 설계·개발 및 유지보수, 그리고 제출된 데이터의 검수를 책임지는 담당자들과 계속 소통할 수 있었다는 점입니다. 등록자 입장에서 불편하게 느낄 수 있는 부분을 찾아내어 개선 아이디어를 제시하거나, 간혹 벌어지는 접속 장애 현상을 보고하기도 하였습니다. 겉으로 보기에는 하나의 웹사이트처럼 느껴지지만, 이를 안정적으로 돌아갈 수 있게 드러나지 않는 곳에서 노력하는 사람이 정말 많다는 것을 깨달았습니다. 데이터 등록 표준 양식을 계속하여 손질하고, 연구계의 요청에 따라 새로운 데이터 표준안을 만들어내는 담당자의 노고도 빼놓을 수 없습니다.

유전체 박물관(혹은 유전체 고물상?) 작업 난이도의 ‘끝판왕’은 바로 3월 3일에 공개될 미생물 유전체 시퀀싱 자료의 묶음이었습니다. 원래 이 프로젝트는 제가 2013년도에 KOBIC에 근무하던 시절에 추진했던 것입니다. 한국생명공학연구원 생물자원센터(KCTC)에서 보유한 당시 유전체 미해독 표준균주 및 생명연 소속 개인 연구자가 갖고 있던 미생물 균주 72건을 모아서 연구소 내 HiSeq 2000으로 유전체를 해독했습니다. 기초적인 QC와 조립을 마친 결과 파일은 균주를 제공한 연구자에게 돌려드린 후 각자 유용 유전자 탐색이나 논문 출판 등의 용도로 활용하시도록 하였습니다. 그러나 샘플 수집에 대한 공통적인 목적 같은 것이 원래 없었기 때문에, 전체 데이터를 종합적으로 다루면서 평가하려는 시도는 10년이 넘도록 하지 못하였고 다만 각 균주에 대해 개별적인 논문이 몇 편 나가고 말았었습니다. 그러다가 문득 원 데이터와 조립 결과물을 K-BDS에 등록하는 것이 좋겠다고 생각하여 작년 말부터 제가 직접 나서서 등록 작업을 시작하였습니다. 실은 오랜 시간이 흐르는 동안 외국에서 동일한 표준균주의 유전체 정보를 생산하여 이미 NCBI 등에 등록해 버렸다는 점은 아쉬움으로 남습니다.

제가 한꺼번에 다루었던 미생물 유전체 데이터 중 그 수가 가장 많았던 것은 병원체인 Acinetobacter baumannii(N=99, PRJNA448358)였습니다. 이번 프로젝트는 수치상으로는 이보다 적은 72개 샘플이지만, 전자의 경우는 한 곳의 병원에서 분리한 동일 종 세균이었고 분석 및 논문 작업이 동시에 이루어졌기 때문에 비교적 수월했습니다. 반면 이번에는 자료를 뒤져서 제각기 다른 균주의 분리 시기와 장소 등의 정보를 최대한 찾아내고, 유전체 조립까지 이어지기에는 상태가 좋지 않은 데이터를 걸러냄과 동시에, 과연 정확한 샘플을 가지고 실험을 한 것이 맞는지 최종 결과물의 분석을 통해 확인하는 복잡한 과정을 거쳤습니다. 데이터 업로드를 해 놓은 상태에서 오류를 발견하고 이를 수정하느라 관리자에게 몇 번이나 반려를 요청했는지 모릅니다. 2024년 말에 오픈된 K-BDS 고도화 버전에서 제공하는 엑셀 형태의 웹 입력 양식이 처음에는 생소하게 느껴졌으나, 이제는 너무나 편리하여 이 아이디어를 낸 사람에게 칭찬을 하고 싶을 지경입니다. 만약 K-BDS가 더욱 고도화를 거쳐서 수시로 변하는 미생물의 분류 체계를 반영하여 샘플의 ‘correct name’이 늘 유지될 수 있다면 더욱 좋을 것입니다.

QC를 통과하지 못한 샘플 8건은 원본 FASTQ 파일과 중간 분석 결과물을 묶어서 ‘미생물 유전체의 저품질 일루미나 시퀀싱 사례’라는 제목의 기타 데이터 타입으로 등록하였습니다. 망친 데이터를 등록하다니? 맞습니다. 기이한 일이라고 볼 수도 있습니다. 하지만 실험 현장에서 이런 일을 다시 겪지 않으려면 저품질 시퀀싱 결과가 도대체 어떤 것인지를 알 필요가 있습니다. 그리고 이를 통해서 좋지 못한 결과가 나오게 된 원인을 파악한다면, 실험 과정이나 자원 관리 등에서 개선을 해야 할 포인트를 찾아낼 수 있을 것입니다.

균주를 제공해 주신 연구자께도 감사의 뜻을 표하고 싶습니다. 균주 분리 당시의 정보는 많은 시간이 경과한 지금 찾기 쉬운 형태로 남아 있지는 않기 때문에, 저의 갑작스런 부탁을 받고 예전 기록을 뒤져서 바이오샘플 메타데이터 파일에 채울 정보를 찾아 주시는 수고를 마다하지 않으셨습니다. 또한 그 과정에서 균주 분양에 관한 정책을 확인해 주시고 검토를 거쳐 분양 가능 상태로 전환해 주신 생물자원센터 관계자께도 감사의 뜻을 전합니다.

최종적으로 56건의 데이터가 KRA에 등록되었고, 유전체 조립물의 KNA 등록을 앞두고 있습니다. 여기에 포함되어 있던 Paenibacillus azoreducens 표준균주는 아직 그 누구도 해독을 한 일이 없음을 발견하였습니다. 많은 고민 끝에 이 조립물은 NCBI에 중복 등록을 하였습니다. 그래야만 다른 참조 유전체와 같이 취급되어 전세계 연구자들에게 퍼져 나갈 수 있기 때문입니다. 앞으로 KNA에 더 많은 양질의 데이터가 모이고, 이것이 ‘데이터 브로커링’을 통해서 INSDC를 거쳐 활발히 퍼져 나가기를 기대합니다. 그것이 K-BDS가 지명도를 얻고 국제화에 다가가는 길일 것입니다.

KOBICian’s story는 KOBIC 멤버가 직접 작성하는 현장감 넘치는 글로서 KOBIC의 업무 방향이나 공식 입장과는 다를 수 있습니다.

다른 KOBICian’s Story 보기

시퀀싱 기술의 양질전화(量質轉化)를 담아낼 K-BDS 등록양식 고도화

KOBIC에 입사한 지 어느덧 4개월여의 시간이 흘렀습니다. 짧다면 짧고, 또 길다면 길게 느껴지는 시간이었습니다. 이번 글에서는 최근까지 '등록 양식 고도화 작업'을 수행했던, 단일세포와 공간전사체 데이터에 관한 이야기를 나누고자 합니다.

흔히 조직 수준의 평균적인 유전자 발현을 확인하는 bulk RNA-seq을 과일 셰이크에, 조직을 이루는 개별 세포 단위로 쪼개어 유전자 발현을 측정하는 단일세포 전사체 데이터를 개별 과일에 비교하곤 합니다. 그렇다면, 발현량에 세포나 조직의 위치 정보를 더해 조직 구조와 세포 상호작용을 이해할 수 있는 공간 전사체 데이터는 개별 식재료들을 정교하게 배치한 정찬이라고 볼 수 있을 것입니다. High-throughput sequencing(HTS) 기술은 어떻게 이러한 샘플의 복잡성을 반영하는 방향으로 발전할 수 있었을까요?

제가 처음 대학원 문을 두드리던 무렵에는 RNA-seq이 Microarray를 대체하고 주류 전사체 데이터 생산 기술로 자리매김하고 있었습니다. 이 데이터들에 익숙해질 무렵 단일세포 시퀀싱 기술로 생성된 전사체 데이터를 처음 접하고, 충격을 받았습니다. 여러 연구자가 경쟁하며 개별 연구에서 다루는 세포 수가 순식간에 백만 단위 규모로 폭발적으로 증가했죠. 그러나 시간이 지나며 세포 수라는 양적 가치에서 복합적인 정보들을 통합하는 질적 가치로 연구의 무게중심이 옮겨가는 흐름이 뚜렷해졌습니다. 여전히 많은 세포를 분석하는 연구는 계속되고 있지만, 이제는 여러 오믹스 기술과 공간 정보를 통합하여 개별 샘플로부터 더 풍부한 정보를 얻고, 이를 바탕으로 더 복잡한 생물학적 질문에 답하는 방향으로 연구가 진화하고 있습니다.

이러한 변화를 지켜보며 자연스레 떠오른 개념이 '양질전화(量質轉化)'입니다. 양적 변화가 점진적으로 축적되다 보면 어느 순간 질적 변화가 일어난다는 철학적 개념인데, HTS 기술 발전에 따라 단일세포와 공간전사체 기술의 등장을 지켜보며 이러한 개념을 엿볼 수 있었습니다.

HTS 기술이 성숙함에 따라 단순히 '더 많은 양'의 데이터를 생산한 것이 아닙니다. 단일 실험에서 수십억 개의 시퀀싱 read를 생산할 수 있게 되었고, 이는 단순한 양적 증가를 넘어 질적 변화를 가능하게 했습니다. 데이터 처리량의 규모가 특정 임계점을 넘어서자, 이전에는 불가능했던 패턴 인식과 통찰이 가능해진 것입니다. 세포 단위 정보를 식별하여 고해상도 데이터를 생산하거나, 공간 정보를 추가하여 기존의 유전자 발현 데이터에 새로운 맥락을 더하는 기술적 발전은 모두 시퀀싱 기술의 발전을 통해 점진적으로 증가한 생산량이 어느 수준에 도달하여 나타난 결과일 것입니다.

이렇게 생산된 단일세포와 공간전사체 데이터는 기존의 시퀀싱 데이터와는 상이한 특성들을 지닙니다. 세포 분리 방법, 세포 포집 효율, 이미징 정보 획득을 위한 조직 처리 과정 등 생산과정이 훨씬 복잡할 뿐만 아니라, 생성되는 데이터 자체도 세포 유형별 정보, 세포 간 상호작용, 공간적 분포 등 다층적인 정보를 포함합니다. 그동안 단일세포와 공간전사체 데이터가 국가 바이오 데이터 스테이션(K-BDS)에 등록되지 않은 것은 아니지만, 기존 양식으로는 데이터와 생산과정의 다양한 특성을 충분히 담아내지 못했기에 등록양식 고도화 작업이 필요했습니다.

고도화를 통해 담아내고자 했던 것은 먼저 다양한 데이터의 형태였습니다. 과거에는 몇 가지 표준화된 형식으로 데이터를 관리할 수 있었지만, 이제는 다양한 플랫폼과 기술에서 생성된 데이터의 이질성이 더욱 커졌습니다. 다양한 단일세포 및 공간전사체 기술들은 기존의 KRA뿐 아니라 서로 간에도 다른 형식과 해상도의 데이터를 생성하지만, '단일세포' 또는 '공간전사체'라는 범주 내에서 이들 데이터의 등록이 간편하게 이루어질 수 있도록 했습니다.

또한 메타데이터에 작성해야 할 항목들이 크게 늘어났습니다. 새로운 플랫폼과 기술에 따라 데이터를 해석하고 재현하기 위해서는 더 많은 실험 조건과 기술적 세부 사항이 기록되어야 합니다. 예를 들어, 단일세포 실험에서는 세포 분리 방법, 캡처 효율, 시퀀싱 깊이 등이, 공간전사체 실험에서는 조직 처리 방법, 섹션 두께 등 이미징 정보뿐 아니라 시퀀싱 정보와 산출된 이미지 정보를 연결하는 프로토콜 또한 중요한 메타데이터가 됩니다.

특히 이번 등록 양식 고도화에서는 발현량 매트릭스뿐 아니라 사용자가 제출하는 분석 데이터의 주요 유형을 정의하고 이들이 유래한 샘플 정보와의 연계성을 검증하여 사용자들의 편의를 도모하고자 했습니다. 이는 현재 NCBI GEO나 EBI의 Biostudies를 비롯한 주요 데이터베이스에서도 제공하지 않는 기능이라, 활용성 증대를 통해 K-BDS의 경쟁력을 강화하는 데 도움이 될 것으로 기대합니다.

시퀀싱 기술을 비롯한 바이오 데이터 생산 기술은 앞으로도 계속 발전할 것이며, 새로운 형태의 데이터들이 지속적으로 등장할 것입니다. K-BDS에서도 이러한 기술적 발전을 적시에 파악하고 반영하고자 노력하지만, 등록 양식의 고도화는 기술의 발전 속도를 따라가기 어려운 것이 현실입니다. 그럼에도 불구하고 이러한 노력은 필수적입니다. 새로운 기술로 생산된 데이터는 그에 맞는 메타데이터 없이 제대로 사용하기 어렵고, 충분한 부가 정보 없이 등록된 데이터는 추후 활용 가치가 크게 떨어지기 때문입니다. 그렇기 때문에 이번에 고도화될 단일세포와 공간전사체 데이터 등록양식이 오래도록 유용함을 잃지 않고 연구자들의 데이터 등록에 사용될 수 있기를 바랍니다.

작성자백부경
작성일2025-03-31
조회수155

[제46호] 달러 패권의 주요 사건과 시사점(3) - 중국몽은 유효한가?

지난 2개의 글을 통해 미국 달러화가 어떻게 전 세계에 널리 퍼지게 되었고 일본 경제와 엔화가 어떤 과정으로 달러 패권에 백기를 들게 됐는지 말씀드렸습니다. 마지막으로 위안화 이야기를 해보겠습니다. 2기 트럼프 행정부 출범이후 미국은 무역적자를 빌미로 전 세계에 관세 폭탄을 투하하고 있습니다. 그 표적의 중심에는 역시 중국이 있습니다.

<이미지 출처: 조선일보(https://www.chosun.com/economy/economy_general/2025/02/20/2YJIMYY4ZJCOHBL7LPMVBKRJXQ/)>

위 이미지는 뉴스기사에서 발췌한 2024년도 대미 무역흑자 국가 순위입니다. 역사는 반복됩니다. 미국은 중국에게 ‘제2의 플라자 합의’를 요구할 수 있을지, 그리고 어떤 방향으로 판을 짜 갈지 궁금해집니다.

1편에서 네트워크 외부성 개념을 설명하면서 화폐가 국제적으로 통용되기 위한 몇몇 조건을 설명 드렸습니다. 중국몽(China Dream)을 아시나요? 이는 2012년 시진핑이 중국 최고 리더로 부임하면서 내세운 정치지도 개념입니다. 그 중심에는 ‘위안화의 국제화’가 있습니다. 하지만 중국은 일본의 사례와 1990년 중후반 아시아의 여러 나라들이 겪었던 외환위기 및 그 결과를 철저히 학습했습니다. 중국이 금융시장을 개방하지 않고 ‘관리변동환율제’를 고집하는 이유이지 않을까 싶습니다. 위안화의 국제화를 원하면서 금융시장은 개방하지 않는다니, 생각해 보면 조금은 모순적입니다.. 그렇다면 중국의 속셈은 무엇이었을까요.

먼저 일대일로(一帶一路) 프로젝트입니다. 이는 중국의 신(新)실크로드 전략으로 내륙과 해상의 경제벨트 구축을 의미합니다. 신중국 설립 100주년이 되는 2049년까지 현대판 실크로드를 재구축해 중국과 주변 국가의 경제·무역협력을 확대한다는 목적을 가지고 있습니다.

<이미지 출처: Economist(https://www.economist.com/special-report/2020/02/06/china-wants-to-put-itself-back-at-the-centre-of-the-world)>

쉽게 말해 내륙길(철도)과 해상길(항구)를 건설하는 대규모 인프라 사업을 벌이되 핵심은 이를 위안화로 지원한다는 것입니다. 그 구체적인 방안은 위안화 채권 발행과 통화 스왑(swap)의 두 가지입니다. 채권은 향후 중국에게 갚아야 하는 빚이 되는 것이고, 통화 스왑은 해당 국가의 통화와 위안화를 약정된 환율로 맞교환 하는 방식입니다. 금융시장 개방 없이 위안화를 중국 밖으로 내 보내는 방법이 이해가 되시나요? 제2차 세계대전 이후 유럽 재건을 목적으로 하늘에서 달러를 뿌렸던 것과 유사한 방식입니다.

두 번째로는 페트로 위안화입니다. 중국은 미국이 장악하고 있는 석유 에너지 시스템을 벗어나고자 하는 동시에 위안화로 원유수입대금을 결제하기 위해 엄청난 노력을 기울이고 있습니다. 태양광, 풍력 등 석유대체 에너지원에 대한 기술개발 및 생산시설 투자를 늘리고 있으며 동시에 사우디아라비아, 러시아와 지속적으로 원유와 가스의 위안화 결제를 협의하고 있습니다. 사우디는 빈 살만, 러시아는 푸틴이라는 ‘스트롱맨’이 집권하고 있으니 가능성이 없는 이야기는 아닌 듯합니다. 최근 미국이 러시아-우크라이나 전쟁 종결에서 취하고 있는 입장은 이러한 맥락에서 이해한다면 납득이 갈 수도 있습니다.

달러 패권에 대한 위안화의 도전은 위기는 있었지만 아직 끝나지 않았습니다. 직접적인 통화 전략이 아닌 과학기술(예, DeepSeek, KOBICian 45호), 외교 분야에서 지속적으로 방안을 찾고 있는 중입니다. 판을 흔들고 미국에 협상 카드로 쓸 수 있는 무언가가 나올 때 까지 계속되겠죠. 3개의 짧은 글을 통해 달러 패권과 일본 엔화, 중국 위안화의 도전에 대해서 알아보았습니다. 화폐로 주제를 정한 이유는 네트워크 외부성이라는 개념이 생명연구자원(데이터, 소재)에도 적용 될 수 있다는 아이디어 때문이었습니다. 그렇다면 앞으로 어떤 전략을 취해야 우리나라 생명연구자원이 글로벌 연구자들의 선택을 받을 수 있을까요? 우리가 내어주어야 할 것과 취할 수 있는 것이 무엇인지 깊이 있게 고민해야합니다. 다음 글에서는 이러한 고민들을 국가 정책으로 구체화하는 이야기를 해보고자 합니다. KOBIC은 현재 ‘제4차 국가생명연구자원 관리·활용 기본계획’ 기획연구를 수행 중에 있습니다. 더 재밌는 이야기로 돌아오겠습니다.

작성자박강민
작성일2025-03-21
조회수138

[45호] 중국발 '값싼' 인공지능 DeepSeek의 등장이 갖는 의미

2024년 12월 중국에서 개발되어 발표된 DeepSeek-V3, 그리고 뒤이어 올해 1월에 발표된 증류모델 DeepSeek-R1는 딥러닝 기반의 인공지능 분야에 큰 충격을 주고 있습니다. 이전 서비스들에 비해서 너무나 싼 개발·구축 비용, 그리고 MIT 라이센스, 즉 오픈소스라서 사용자가 직접 설치하여 활용할 수 있기 때문입니다. 그럼에도 불구하고 그 성능은 GPT 서비스 등과 유사하다고 하니 놀라운 따름입니다.

DeepSeek는 헤지펀드 회사의 CEO이면서, 동시에 인공지능 연구회사(회사이름도 DeepSeek)의 창립자인 량원펑이 만들었습니다. DeepSeek-V3와 함께 발표된 기술 문서에 따르면 GPT-4o등 기존 LLM 모델에 비해서 벤치마킹 성능이 전혀 부족하지 않으면서도 모델 학습을 위해 사용한 비용은 557만 달러에 불과했다고 합니다(실제 인프라 구축 비용은 아니며, 모델 학습 시간동안 GPU를 빌린다고 가정할 때 드는 비용-실제 모델학습에 사용된 H800 GPU는 2,048개 이며, GPU 1개를 사용한다고 가정할 때 총 278만 8천 시간이 소요되었고, H800 GPU 1개당 1시간 빌릴 때 비용 2달러로 계산). 통상적으로 수천억 원 이상의 비용을 들여 엄청난 연산 자원을 구축해야만 고성능의 AI 서비스를 개발할 수 있다고 믿었던 고정관념을 깨뜨리는 계기가 되었습니다.

<DeepSeek-V3와 유사 모델의 성능비교, https://github.com/deepseek-ai/DeepSeek-V3>

그렇다면 DeepSeek는 어떤 방법으로 비용을 획기적으로 줄이면서 비슷한 성능을 낼 수 있었을까요? 결론부터 말씀드리면 인공지능 분야에서 수십 년 이상 연구 되어온 다양한 기법의 총망라로 가능하였으며, 엄밀하게 말해서 그 성능도 GPT-4o와 거의 동일하지만 추론 능력이 더욱 뛰어난 GPT-o1보다는 부족한 부분이 있는 것 같습니다.

LLM 모델이나 딥러닝의 상세 설계를 하는 연구자가 아니라면, 사실 어떻게 DeepSeek가 비용을 줄이는지 별로 궁금하게 여기지 않을 것 같으니 이 글에서는 간단하게 다음의 표로 대신하겠습니다.

<DeepSeek의 저비용 고성능 개발 방법>

방법	설명
부동소수점 8비트(FP8) 연산사용	전통적인 LLM 모델에서 가중치 계산을 위해 사용하는 부동소수점 32비트 혹은 16비트 연산 대신 8비트 연산을 사용하여 낮은 가격의 H800을 사용하더라도 가중치 연산 성능은 비슷함 (8비트에 대한 연산 성능은 H100과 H800이 동일)
CoT (Chain of Thought)/추론	곧바로 답을 찾는 것이 아니라 답을 찾기 위해서 여러 과정으로 나누어서 단계별로 접근하면 성능이 향상됨
MoE(Mixture of Experts)	큰 규모의 범용 모델을 만들기보다는 여러 개의 전문가 그룹으로 나누어서 결과를 취합하면 적은 비용으로 비슷한 성능 구현이 가능함
강화학습, Agent/SFT (Supervised Fine Tuning)	모델 학습 진행과 수정을 관리 감독하는 agent가 인간 피드백이나 평가지표의 측정을 통해서 모델을 조금씩 인위적으로 수정하면서 최적화하여 성능향상
증류(Distillation)	노드수와 파라미터 수가 많은 딥러닝 모델을 통해 미리 학습한 후 핵심 네트워크만 추려서 노드수와 파라미터 수를 줄임으로써 일정 수준의 성능은 보장하면서 딥러닝 모델을 실행할 수 있는 인프라 환경을 축소하는 기술
동시 연산-정보교환	통상적인 CUDA기반 모델은 데이터 이동시간은 GPU가 아무 일도 하지 못하지만 알고리즘 변형을 통해 정보교환과 연산이 동시에 가능하게 수정
CUDA/Assembly 레벨 최적화	CUDA 코딩의 최적화 및 Assembly언어 레벨의 코딩을 통해 성능 최적화
최적 모델 성과평가 개발	GRPO(Group Relative Policy Optimization)의 개발을 통해서 모델 학습 시 성과를 잘 평가하고 반영

위 방법 중에서 CoT(Chain of Thought)/추론과 관련하여 2022년에 발표된 흥미로운 연구 결과가 있습니다(“Large Language Models are Zero-Shot Reasoners”). 이에 따르면 어떤 수학문제에 대한 정답률이 17.7%인 LLM 모델(Large InstructGPT)에게 “차근차근 생각해 봐”라고 한마디 더 지시하면 정답률이 78.7%까지 높아진다는 것입니다. 통상적으로 일반적인 LLM 모델은 학습된 모델을 통해서 한번에 답을 찾으려 하지만, 이런 식으로 명령을 하게 되면 검토과정을 거치거나 추론 단계를 자체적으로 거쳐서 더 나은 결과를 가져올 수 있다는 것입니다. DeepSeek에서는 이러한 추론과정을 아예 강제함으로써 성능을 향상 시킬 수 있었을 것으로 생각됩니다.

기술문서에서는 통상적인 벤치마킹 결과 DeepSeek의 성능이 유수의 기존 서비스들과 유사하다고 하였습니다. 하지만 조금 어려운 추리문제 등에서는 GPT-o1보다 정답률이 떨어진다는 보고도 있습니다. 사실 GPT-o1은 작년 수능의 국어와 수학 문제를 풀 때 거의 만점을 받는다고 하니, GPT-4o보다 개선된 부분이 많은 것 같기도 합니다.

DeepSeek는 현재 무료로 사용 가능하지만, 보안 등의 이슈로 정부기관이나 공공공기관 등에서는 접속이 제한됩니다. 아쉽게도 휴대폰용 앱 역시 우리나라에서는 현재 다운로드가 되지 않습니다. 만약 업무에 활용하고자 한다면, 로컬에서 직접 설치하는 방법을 추천드립니다. LLM모델을 로컬에서 실행하게 해주는 Ollama를 설치한 후, ollama프롬프트에서 간단한 명령어로 모델 선택하여 다운로드 및 설치가 가능합니다. 윈도우, 맥, 리눅스 환경 모두 가능합니다. 파라미터의 개수가 가장 많은 DeepSeek-R1버전은 고성능 GPU와 128GB 이상의 메모리가 탑재된 고사양 컴퓨터가 필요하며, 증류 버전인 DeepSeek-R1-Distill-Qwen-1.5B은 일반적인 GPU 카드를 탑재한 PC에서도 충분히 실행이 가능합니다. 한글 사용을 고려한다면, 32B이상의 버전을 사용하는 것이 좋습니다.

DeepSeek의 발표로 인공지능서비스의 연구방향은 두 갈래로 나누어지고 있는 것 같습니다. 하나는 기존 LLM 모델이 추구하는 “Scaling은 계속된다”입니다. GPU의 처리속도가 점점 더 빨라짐에 따라, 더 많은 파라미터와 학습 데이터를 투입하여 고성능의 범용 인공지능 서비스를 개발하려는 움직임입니다. 다른 하나는 DeepSeek로 인해 가속화되는 “on premise” 또는 더 나아가 “on device”입니다. 개별 PC에서도 설치가 가능한 현재 버전의 DeepSeek만 잘 활용한다면, 이제는 특정 연구분야의 데이터만을 학습시킨 소규모 자체 인공지능 서비스를 제공할 수 있는 시기가 된 것 같습니다. 이와 함께 데이터의 중요성은 점점 더 커지고 있습니다. 지금까지 공개된 LLM 모델인 Llama3, Qwen, DeepSeek-R1 등도 어떤 학습 데이터로 어떻게 학습 시켰는지는 전혀 공개하지 않고 있습니다. 프로그램 코드는 공개하더라도 데이터는 공개하지 않는다는 것을 볼 때 어떤 데이터로 모델을 학습시키는가가 더 핵심적인 부분이란 생각도 듭니다.

작성자김판규
작성일2025-03-14
조회수253