저널

A collection of 68 posts
슈퍼브에이아이 커스텀 오토 라벨의 완벽 활용 가이드
저널

슈퍼브에이아이 커스텀 오토 라벨의 완벽 활용 가이드

속도와 정확성을 위한 고품질의 정답 데이터와 올바른 훈련 이터레이션 슈퍼브에이아이의 커스텀 오토 라벨은 데이터셋의 구축과 이터레이션에 드는 시간을 획기적으로 감소시켜줄 수 있는 강력한 툴입니다. 이 똑똑한 자동화 툴이 있으면 큰 사이즈의 데이터셋 준비를 수동으로 하는 것은 옛일이 될 것입니다. 특정 유즈 케이스에 적합하게 조정한 커스텀 오토 라벨을 구축하는 것은 어렵지
19 min read
롱테일 컴퓨터 비전을 위한 커스텀 오토 라벨을 소개합니다
저널

롱테일 컴퓨터 비전을 위한 커스텀 오토 라벨을 소개합니다

들어가면서 새롭게 개선된 슈퍼브에이아이의 커스텀 오토 라벨(Custom Auto-Label)을 여러분께 소개하게 되어 기쁩니다. 슈퍼브에이아이의 커스텀 오토 라벨은 데이터 라벨링 워크플로우를 자동화하여 컴퓨터 비전팀이 획기적이면서도 안정적인 롱테일 컴퓨터 비전(Computer Vision, CV) 모델을 개발할 수 있도록 돕습니다. 실제로 CV 어플리케이션을 구축할 때 투자가 필요한 부분은, 현실 속 시나리오에서 간과하기 쉬운
14 min read
대부분의 컴퓨터 비전팀이 풀지 못한 DataOps의 세 가지 난제 Part2
저널 Featured

대부분의 컴퓨터 비전팀이 풀지 못한 DataOps의 세 가지 난제 Part2

*본 글은 Superb AI의 James Le가 작성한 ‘Part 2: Three DataOps Challenges That Most Computer Vision Teams Struggle With’의 번역본입니다. ‍ ‍ 시작하며 ‍ 최첨단 아키텍처를 구현하고 모델 하이퍼파라미터를 조정하고 손실 함수를 최적화하는 것은 머신러닝의 재미있는 부분입니다. 겉으로는 있어 보이는 작업처럼 보일 수 있지만 상용화를 완료한 모델의 뒤에는 고품질 학습용 데이터셋을 구축하는
20 min read
컴퓨터 비전 데이터에 대한 모든 것
저널 Featured

컴퓨터 비전 데이터에 대한 모든 것

컴퓨터 비전이란 무엇인가? 컴퓨터 비전이라는 말에 이미 ‘시각'(vision)이라는 단어가 포함되어 있어서 유추할 수 있듯이, 사람의 시각과 관련한 시스템 구조를 모방하여 컴퓨터도 물체나 상황을 식별하고 해석할 수 있도록 하는 연구 분야입니다. 컴퓨터 비전에서 다루는 데이터에는 이미지와 이미지 속 텍스트를 인지하는 영역뿐만 아니라 비디오와 3D 영상도 포함됩니다. 비디오 영상은
23 min read
컴퓨터 비전 데이터를 위한 DataOps의 모든 것 Part1
저널

컴퓨터 비전 데이터를 위한 DataOps의 모든 것 Part1

*본 글은 Superb AI의 James Le가 작성한 ‘Part 1: An Overview of DataOps For Computer Vision’의 번역본입니다. ‍ 일반적으로 머신러닝 애플리케이션, 특히 컴퓨터 비전 애플리케이션 모델 학습은 데이터에 크게 의존합니다. 상용화 시스템에서는 추론을 수행하기 위해 입력 데이터가 공급되는데요. 이 추론의 결과값은 다시, 이어서 진행되는 반복 학습의 입력값으로 투입되어 훈련 데이터의
25 min read
Superb AI CTO가 전하는 Data-centric MLOps
저널

Superb AI CTO가 전하는 Data-centric MLOps

Superb AI는 데이터, 개발, 운영의 분리로 인해 생기는 사일로가 머신러닝의 상용화를 늦추고 있다는 데 일찍이 문제의식을 느끼고 머신러닝 파이프라인의 각 단계가 유기적으로 순환할 수 있도록 돕는, MLOps를 위한 머신러닝 데이터 플랫폼을 구축하고 있습니다. ‍ 아시는 분들도 계시겠지만, 저희는 실리콘밸리 산마테오에 현지 법인을 두고 국내 시장 뿐만 아니라 북미 시장을 대상으로 활발한
16 min read
Suite를 활용한 머신러닝 워크플로우 실전 체험기
저널

Suite를 활용한 머신러닝 워크플로우 실전 체험기

*이 포스팅은 슈퍼브에이아이의 인턴 홍찬의님이 작성한 글의 번역본입니다. *이 프로젝트에서 사용된 모든 코드는 다음 Github repository에서 볼 수 있습니다. ‍ ‍ 시작하며 2020년은 코로나 바이러스로 뒤덮인 한 해였습니다. 특히 ‘외출 시 마스크 필수착용’이 새로운 사회적 규범이 되면서, 일상이 완전히 바뀌어버렸습니다. 하지만 우리는 습관의 동물인 터라 문 밖을 나설 때 마스크를 써야
18 min read
우리 머신러닝 팀이 핵심 업무에 집중하지 못하는 이유
저널

우리 머신러닝 팀이 핵심 업무에 집중하지 못하는 이유

‍ 머신러닝 데이터는 살아있다 머신러닝 개발은 데이터를 넣고 학습시켜 모델을 개발하는 과정을 반복적으로 하는 것이 핵심입니다. 소프트웨어 엔지니어링에서 코드를 효율적으로 빌드하고 테스트하여 배포하도록 돕는 파이프라인 구축을 통해 안정적인 서비스를 제공할 수 있는 것처럼, 인공지능 개발에서는 데이터를 관여시키는 파이프라인 설계가 중요합니다. 그 파이프라인을 잘 이해하는 것은 데이터가 각 단계마다 어떻게 작동하는지 관찰하고
6 min read
데이터 준비 5단계, 실리콘밸리에서는 어떤 플랫폼을 사용할까?
저널

데이터 준비 5단계, 실리콘밸리에서는 어떤 플랫폼을 사용할까?

‍ *본 포스팅의 원문은 Arize AI의 기술 블로그에서 볼 수 있습니다. ‍ 전 산업군에서 인공지능(AI)과 머신러닝(ML)을 도입하고 있습니다. 많은 기업이 자사의 비즈니스에 인공지능 기술을 접목하기 위해, 적절한 머신러닝 인프라 플랫폼을 탐색하고 있기도 합니다. 머신러닝 인프라 환경은 혼란스럽고 복잡해서 시장의 다양한 플랫폼과 도구들을 이해하는 건 쉽지 않습니다. 본 포스팅에서는
11 min read
성공적인 머신러닝 프로젝트를 위한 17가지 핵심 질문
저널

성공적인 머신러닝 프로젝트를 위한 17가지 핵심 질문

‍ 효율적인 훈련 데이터 구축의 필요성 대두 컴퓨터의 출현, 특히 현대의 데이터베이스 확산 이후로는 대부분의 컴퓨팅 니즈는 정형화된 데이터에 의존했습니다. 디지털 시대가 도래함에 따라, 이미지, 비디오, 텍스트 그리고 오디오 같은 비정형 데이터의 양이 정형 데이터보다 많아졌습니다. Gartner에 따르면, 엔터프라이즈 데이터(enterprise data)의 80%가 비정형 데이터이며, 이 규모가 매년 55~
12 min read
머신러닝 데이터 플랫폼이란?
저널

머신러닝 데이터 플랫폼이란?

‍ 머신러닝 데이터 플랫폼 = 반복되는 데이터 확보, 재학습 사이클을 위한 MLOps 도구 ‍ 머신러닝 개발 과정에서 데이터 작업은 여러 번 반복되어 진행됩니다. 데이터 확보와 가공, 관리는 머신러닝 개발 프로젝트 기간 전체와 서비스 운영 기간 전체에 걸쳐 반복되어야 합니다. 맥킨지(McKinsey)의 분석에 따르면, 34%의 머신러닝 프로젝트 사례에서 데이터 확보와 재학습이 월(
5 min read
2021년 AI 학습용 데이터 구축 사업을 준비하는 기업이 꼭 알아야 할 3가지
저널

2021년 AI 학습용 데이터 구축 사업을 준비하는 기업이 꼭 알아야 할 3가지

‍ 들어가며 2017년부터 시작된 AI 학습용 데이터 구축 사업은 AI 열풍과 정부 지원 등에 힘입어 매년 규모가 커지고 있습니다. 2020년에 디지털 뉴딜 정책이라는 큰 흐름에 힘입어 연간 수천억대 규모의 사업으로 크게 그 규모가 확장 되었고, 2021년에 역시 이와 유사한 규모로 사업이 수행 될 예정이라, 많은 사업자들의 귀촉이 주목되고 있습니다. 2021년 1월
16 min read
AI 학습용 데이터셋의 품질을 끌어올리는 5가지 관리 포인트
저널

AI 학습용 데이터셋의 품질을 끌어올리는 5가지 관리 포인트

‍ 인공지능의 성능에 학습용 데이터의 품질이 미치는 영향은 어느 정도일까요? 여성 지원자를 차별했던 아마존의 AI 채용 시스템은 이미 유명한 사례가 되었습니다. 남성 비율이 높은 아마존의 직원 데이터를 학습에 사용했던 것이 문제의 원인이었습니다. 영국에서는 축구 중계 AI가 민머리심판의 머리를 공으로 인식하는 일도 있었는데요, 인공지능이 민머리와 축구공을 구분할 수 있을만큼 충분한 데이터를 학습하지
13 min read
컴퓨터 비전 프로젝트를 위한 DataOps 팀빌딩 하기 Part3
저널

컴퓨터 비전 프로젝트를 위한 DataOps 팀빌딩 하기 Part3

*본 글은 Superb AI의 James Le가 작성한 ‘Part 3: Building a DataOps Team for Your Computer Vision Projects’의 번역본입니다. 들어가며 ‍ 이 DataOps 시리즈의 파트1에서 저희는 DataOps와 데이터 분석의 개념을 소개하고 컴퓨터 비전을 위한 DataOps를 사용하는 경우를 보여드리고 엔터프라이즈용 컴퓨터 비전 시스템을 위한 6가지 DataOps 원칙들을 제시했습니다. 파트2에서는 (1) 컴퓨터
18 min read
DevOps의 다음은 MLOps입니다.
저널

DevOps의 다음은 MLOps입니다.

‍여러분, ‘DevOps’ 또는 ‘MLOps’를 들어보신 적 있나요? 아마 IT업계에 종사하시는 분들에게도 생소한 단어일 텐데요. 소프트웨어의 시대였던 지난 10여년 간, DevOps 도구들은 소프트웨어 개발과 운영의 생산성에 조용하지만 크게 기여해왔습니다. 그리고 다가오는 인공지능 시대에서는, MLOps 가 그 역할을 이어받을 것으로 주목받고 있죠. 슈퍼브 플랫폼 또한 단순한 라벨링 툴 이상의, 머신러닝 개발
12 min read
학습용 데이터 관리로부터 시작하는 MLOps
저널

학습용 데이터 관리로부터 시작하는 MLOps

‍Superb AI CRO 김계현님이 말하는 학습용 데이터 관리가 MLOps에 필수인 이유 Superb AI는 2020년 8월, 오토라벨링 (Auto-Labeling) 기술과 관련하여 미국에서 5개의 특허를 출원했습니다. 머신러닝 데이터 플랫폼 Suite의 Superb Auto-labeling™ 기술은 데이터 가공 생산성을 최대 약 10배 향상시킬 수 있습니다. 이 기술의 중심에는 Superb AI의 김계현 CRO가 있는데요, 김계현님은 딥러닝 중에서도
17 min read
머신러닝 전문가의 시선으로 훈련용 데이터 워크플로우 고찰하기
저널

머신러닝 전문가의 시선으로 훈련용 데이터 워크플로우 고찰하기

1. 들어가며 컴퓨팅이 등장하고 최신 데이터베이스가 보급되면서 대부분의 컴퓨팅 수요는 정형 데이터에 집중되었습니다. 그러나 시간이 흐르면서 우리는 새로운 데이터의 시대로 접어들고 있습니다. 디지털 데이터버스(digital data-verse)에서 이미지, 비디오, 텍스트, 오디오와 같은 비정형 데이터의 규모가 정형 데이터의 규모를 아득히 뛰어넘은 것이죠. 게다가 가트너(Gartner)는 기업이 보유한 데이터 중 비정형
14 min read
영어 훈련 데이터로 비영어 자연어 처리 모델 훈련 시키기
저널

영어 훈련 데이터로 비영어 자연어 처리 모델 훈련 시키기

안녕하세요! 저는 하버드 대학교에서 컴퓨터 사이언스를 전공 중인 3학년 홍찬의(Channy Hong)입니다. 지난 여름, 저는 YC가 지원하는 스타트업인 슈퍼브에이아이에서 이재연 멘토님과 이정권 슈퍼바이저님과 함께 자연어 처리(NLP) 연구라는 소중한 기회를 얻었습니다. 저는 이 인턴 경험을 통해 "제로샷 교차 언어 전이를 위한 문장 임베딩 기반 비지도 중간 언어 의미
22 min read