저널 성공적인 머신러닝 프로젝트를 위한 17가지 핵심 질문 효율적인 훈련 데이터 구축의 필요성 대두 컴퓨터의 출현, 특히 현대의 데이터베이스 확산 이후로는 대부분의 컴퓨팅 니즈는 정형화된 데이터에 의존했습니다. 디지털 시대가 도래함에 따라, 이미지, 비디오, 텍스트 그리고 오디오 같은 비정형 데이터의 양이 정형 데이터보다 많아졌습니다. Gartner에 따르면, 엔터프라이즈 데이터(enterprise data)의 80%가 비정형 데이터이며, 이 규모가 매년 55~
저널 머신러닝 데이터 플랫폼이란? 머신러닝 데이터 플랫폼 = 반복되는 데이터 확보, 재학습 사이클을 위한 MLOps 도구 머신러닝 개발 과정에서 데이터 작업은 여러 번 반복되어 진행됩니다. 데이터 확보와 가공, 관리는 머신러닝 개발 프로젝트 기간 전체와 서비스 운영 기간 전체에 걸쳐 반복되어야 합니다. 맥킨지(McKinsey)의 분석에 따르면, 34%의 머신러닝 프로젝트 사례에서 데이터 확보와 재학습이 월(
저널 2021년 AI 학습용 데이터 구축 사업을 준비하는 기업이 꼭 알아야 할 3가지 들어가며 2017년부터 시작된 AI 학습용 데이터 구축 사업은 AI 열풍과 정부 지원 등에 힘입어 매년 규모가 커지고 있습니다. 2020년에 디지털 뉴딜 정책이라는 큰 흐름에 힘입어 연간 수천억대 규모의 사업으로 크게 그 규모가 확장 되었고, 2021년에 역시 이와 유사한 규모로 사업이 수행 될 예정이라, 많은 사업자들의 귀촉이 주목되고 있습니다. 2021년 1월
저널 컴퓨터 비전 프로젝트를 위한 DataOps 팀빌딩 하기 Part3 *본 글은 Superb AI의 James Le가 작성한 ‘Part 3: Building a DataOps Team for Your Computer Vision Projects’의 번역본입니다. 들어가며 이 DataOps 시리즈의 파트1에서 저희는 DataOps와 데이터 분석의 개념을 소개하고 컴퓨터 비전을 위한 DataOps를 사용하는 경우를 보여드리고 엔터프라이즈용 컴퓨터 비전 시스템을 위한 6가지 DataOps 원칙들을 제시했습니다. 파트2에서는 (1) 컴퓨터
저널 AI 학습용 데이터셋의 품질을 끌어올리는 5가지 관리 포인트 인공지능의 성능에 학습용 데이터의 품질이 미치는 영향은 어느 정도일까요? 여성 지원자를 차별했던 아마존의 AI 채용 시스템은 이미 유명한 사례가 되었습니다. 남성 비율이 높은 아마존의 직원 데이터를 학습에 사용했던 것이 문제의 원인이었습니다. 영국에서는 축구 중계 AI가 민머리심판의 머리를 공으로 인식하는 일도 있었는데요, 인공지능이 민머리와 축구공을 구분할 수 있을만큼 충분한 데이터를 학습하지
저널 DevOps의 다음은 MLOps입니다. 여러분, ‘DevOps’ 또는 ‘MLOps’를 들어보신 적 있나요? 아마 IT업계에 종사하시는 분들에게도 생소한 단어일 텐데요. 소프트웨어의 시대였던 지난 10여년 간, DevOps 도구들은 소프트웨어 개발과 운영의 생산성에 조용하지만 크게 기여해왔습니다. 그리고 다가오는 인공지능 시대에서는, MLOps 가 그 역할을 이어받을 것으로 주목받고 있죠. 슈퍼브 플랫폼 또한 단순한 라벨링 툴 이상의, 머신러닝 개발
저널 학습용 데이터 관리로부터 시작하는 MLOps Superb AI CRO 김계현님이 말하는 학습용 데이터 관리가 MLOps에 필수인 이유 Superb AI는 2020년 8월, 오토라벨링 (Auto-Labeling) 기술과 관련하여 미국에서 5개의 특허를 출원했습니다. 머신러닝 데이터 플랫폼 Suite의 Superb Auto-labeling™ 기술은 데이터 가공 생산성을 최대 약 10배 향상시킬 수 있습니다. 이 기술의 중심에는 Superb AI의 김계현 CRO가 있는데요, 김계현님은 딥러닝 중에서도
저널 머신러닝 전문가의 시선으로 훈련용 데이터 워크플로우 고찰하기 1. 들어가며 컴퓨팅이 등장하고 최신 데이터베이스가 보급되면서 대부분의 컴퓨팅 수요는 정형 데이터에 집중되었습니다. 그러나 시간이 흐르면서 우리는 새로운 데이터의 시대로 접어들고 있습니다. 디지털 데이터버스(digital data-verse)에서 이미지, 비디오, 텍스트, 오디오와 같은 비정형 데이터의 규모가 정형 데이터의 규모를 아득히 뛰어넘은 것이죠. 게다가 가트너(Gartner)는 기업이 보유한 데이터 중 비정형
저널 영어 훈련 데이터로 비영어 자연어 처리 모델 훈련 시키기 안녕하세요! 저는 하버드 대학교에서 컴퓨터 사이언스를 전공 중인 3학년 홍찬의(Channy Hong)입니다. 지난 여름, 저는 YC가 지원하는 스타트업인 슈퍼브에이아이에서 이재연 멘토님과 이정권 슈퍼바이저님과 함께 자연어 처리(NLP) 연구라는 소중한 기회를 얻었습니다. 저는 이 인턴 경험을 통해 "제로샷 교차 언어 전이를 위한 문장 임베딩 기반 비지도 중간 언어 의미