저널 임베딩을 활용한 피처 엔지니어링: ML 엔지니어를 위한 실무 가이드 ‘임베딩을 활용한 피처 엔지니어링: ML 엔지니어를 위한 실무 가이드’는 빠르게 진화하는 머신러닝 세계에서 임베딩을 사용한 피처 엔지니어링의 필수 작업에 대한 실용적이고 포괄적인 접근 방식을 다룹니다. ML 엔지니어는 모델의 성능 개선을 위해 끊임없이 노력하지만, 로우 데이터에서 유용하면서 인사이트가 있는 특성을 추출하는 과정은 한결같이 어려운 과제로 여겨지고 있습니다. 이 포스트를 통해
저널 ML 프로젝트별 최적의 데이터 어노테이션 타입을 선택하는 방법 머신러닝이나 컴퓨터 비전 모델을 만드는 것은 어느 팀에게나 힘들고 귀찮은 일입니다. 특히 처음이라면 고난의 연속일 수 밖에 없죠. 하지만 시작이 반이라고, 어디서부터 시작해야 하고 어떤 라벨링 타입을 채용할지 결정하면 반은 온 것이나 다름 없습니다. 프로젝트를 어떻게 진행할지는 이 프로젝트에 얼마나 많은 디테일, 예산, 데이터, 시간이 필요한지에 따라 완전히 달라집니다. 그리고
저널 애그테크(AgTech) 컴퓨터 비전을 위한 데이터 소싱 가이드 전통적인 산업 농업 방법은 식량 생산뿐만 아니라 기타 원자재를 관리하고 제조업체에 공급함으로써 생계를 유지하며 글로벌 공급망과 경제에 크게 기여하고 있습니다. 이러한 광범위한 영향력을 고려하면, 이러한 기존 방식은 세계 각지에서 변화하는 시장 수요에 발맞추기 위해 혁신적으로 변화하고 있습니다. 농업 업계가 이러한 수요를 충족하기 위해 계획하고 있는 방법에는 머신러닝(ML) 및 컴퓨터
저널 컴퓨터 비전 데이터 큐레이션을 위한 임베딩의 미래 머신러닝에서 임베딩의 개념은 주성분 분석(PCA) 및 다차원 스케일링(MDS)과 같은 기술의 개발과 함께 2000년대 초반으로 거슬러 올라갑니다. 이러한 방법은 고차원 데이터 포인트의 저차원 표현을 찾는 데 중점을 두어 복잡한 데이터셋을 보다 쉽게 분석하고 시각화할 수 있도록 했습니다. 컴퓨터 비전에서 이미지 임베딩 개념은 2010년대 초 딥러닝 기술의 부상과 함께
저널 컴퓨터 비전용 데이터 구성을 위한 임베딩 생성하는 법 알아보기 컴퓨터 비전 분야에서 엔지니어와 데이터 사이언티스트는 방대한 양의 이미지 데이터를 이해하고 정리해야 하는 어려운 과제에 직면해 있습니다. 고성능 컴퓨터 비전 모델에 대한 수요가 계속 증가함에 따라 대량의 비정형 또는 로우 데이터를 효율적으로 처리하는 것이 점점 더 중요해지고 있습니다. 로우 데이터를 기계가 이해하고 활용할 수 있는 정형화된 형태로 변환하는 작업은 데이터
저널 컴퓨터 비전 데이터 큐레이션을 위한 이미지 임베딩이란 무엇인가요? 머신러닝(ML) 및 컴퓨터 비전(CV) 개발자는 주변 사물의 미세한 차이를 인식하는 사람의 능력을 모델로 구현하기 위해 노력합니다. 여기서 궁금해지는 것은 기계가 주변 환경의 사물을 정확하게 식별하도록 어떻게 훈련시킬 수 있을지입니다. 신경망이나 ML 모델에서 일정 수준의 일관된 성능을 달성하는 것과 마찬가지로, 그 해답은 모델 훈련에 사용된 데이터에 있습니다. 일반적인 모델로
저널 인터랙티브AI(Interactive AI)와 오토에딧(Auto-Edit)에 대해 알아보기 AI 개발 커뮤니티에서 널리 알려져 있으며 빈번히 사용되는 이미지 세그멘테이션의 유형으로는 시맨틱 세그멘테이션, 인스턴스 세그멘테이션, 판옵틱 세그멘테이션의 세 가지를 들 수 있습니다. 포괄적인 개념 또는 용어로서의 이미지 세그멘테이션이란 이미지 데이터를 오브젝트 라벨과 연관된 '세그먼트'로 분리 또는 분할하는 행위입니다. 다시 말해, 데이터 사이언티스트는 이미지 세그멘테이션을 활용해 이미지 데이터의
저널 외부 라벨링 서비스와의 협업 모범 사례 “최고의” 데이터 라벨링 접근법이 무엇이냐고 물으신다면, “만병통치약” 같은 해결책은 없습니다. 이상적인 선택은 문제의 복잡성이나 ML 시스템에 맞는 특정 어플리케이션에 좌우되기 때문입니다. 라벨링 접근법에 영향을 미치는 다른 요인으로는 라벨링이 필요한 데이터의 양, 팀의 크기, 뿐만 아니라 예산, 시간, 프로젝트에 필요한 기타 리소스들입니다. 가장 일반적인 방법으로는 내부적으로 혹은 인하우스로 데이터를 라벨링하는 방법,
저널 외부 라벨링 서비스 협력의 성공 사례 '최상의' 데이터 라벨링 방식이 무엇이냐고 묻는다면, ‘만능’ 솔루션은 존재하지 않습니다. 문제의 복잡성이나 ML 시스템의 특정 애플리케이션에 따라 이상적인 선택이 달라지기 때문이죠. 라벨링 방식에 영향을 미치는 다른 요소로는 어노테이션이 필요한 데이터의 양, 팀 규모, 예산, 시간 및 프로젝트에 필요한 기타 리소스 등이 있습니다. 가장 일반적인 방법은 인하우스 또는 내부에서
저널 ML프로젝트 실현 가능성을 높이는 예산 관리 방법 6가지 데이터 라벨링이 비싸고 시간 소모가 상당한 작업이라는 것은 잘 알려져 있습니다.따라서 라벨링 작업에 무턱대고 뛰어들기 전에 다음 소개할 몇 가지 팁들을 고려해 컴퓨터 비전 학습 데이터와 라벨링 예산을 효율적으로 운용할 수 있도록 신중히 계획을 짜야합니다. 들어가며 AI 및 컴퓨터 비전 프로젝트의 성공여부는 궁극적으로 학습 데이터셋의 품질과 대표성 뿐 아니라
저널 라벨링 자동화, 어떤 상황에서 필요할까요? 인공 지능은 지난 10년 동안 많은 변화를 가져왔습니다. 매일의 일상에서 그 변화의 발자취를 발견할 수 있죠. 하지만 이러한 변화가 가능하려면 매우 많은 데이터가 필요하고, 또 그 데이터를 가공 후 실제 적용하는 데는 그만큼 더 큰 노력이 필요합니다. 그래서 ML 전문가가 더 빠른 ML 모델의 실용화를 위해 데이터 라벨링 자동화로 눈을
저널 액티브러닝 101: 고품질 데이터를 향한 완성도 높은 가이드(1부) 액티브러닝(Active learning)은 더 나은 모델을 만들고 모델을 최상의 상태로 유지하는 매우 중요한 무기입니다. 그러나 액티브러닝은 종종 활용도가 떨어지기도 하고 아예 사용되지 않기도 하는데요.이 시리즈의 1부에서는 액티브러닝이 무엇이며 컴퓨터 비전(CV) 애플리케이션을 위한 학습용 데이터 라벨링과 어떤 연관이 있는지 설명합니다. 시작하겠습니다. 소개 머신러닝은 비즈니스 프로세스를 자동화하고 가속화하는 데
저널 리얼월드 머신러닝 애플리케이션을 위한 데이터 라벨링 접근법 들어가며 컴퓨터 비전과 머신 러닝 작업의 워크플로우에 있어서 데이터 라벨링은 필수적인 과정입니다. 이러한 데이터 라벨링이란 머신 러닝 모델 제작을 위해 이미지나 비디오, 오디오 파일 등을 식별하고 라벨링하는 작업을 말합니다. 이렇게 가공한 데이터는 실생활에 적용할 수 있는 예측 데이터로 활용할 수 있습니다. 자율 주행차를 예로 들면, 올바르게 라벨링 된 자율주행용 데이터셋은
저널 ML 통합 가시성과 데이터 옵스를 활용해 고품질의 정형 데이터와 비정형 데이터 확보하기 이 글은 슈퍼브에이아이와 어라이즈에이아이가 협력하여 작성한 공동 포스트입니다. 1 - 들어가며 머신러닝(ML)이 다른 소프트웨어 엔지니어링 분야와 점점 더 유사해지면서 매끄러운 워크플로우와 신뢰할 수 있는 결과물을 보장하기 위한 프로세스와 툴이 필요해졌습니다. 특히 데이터 품질에 대한 관심은 지속적으로 높아져 왔습니다. 데이터 품질을 제대로 관리하지 않을 경우, 기술과 아키텍처, 그리고 조직적인
저널 컴퓨터 비전 프로젝트를 위한 데이터옵스 팀 꾸리기 들어가며 컴퓨터 비전 프로젝트는 대개 (1) 프로덕션으로 전환하지 못하거나 (2) 컴퓨터 비전 사이언티스트와 엔지니어가 사소한 작업에 시간을 너무 많이 소비하거나 (3) 거버넌스 리스크의 증가 때문에 실패하게 됩니다. 이와 같은 문제를 해결하기 위해서는 데이터옵스(DataOps) 도구 및 프로세스의 활용을 통해, 프로덕션급으로 라벨링된 훈련 데이터를 얻는 등의 기초 활동에 투자하는 것이 필수입니다.
저널 데이터 프렙 옵스가 머신러닝 라이프 사이클의 잃어버린 퍼즐 조각이 맞을까? 일반적인 머신러닝 라이프 사이클은 세 가지로 구성됩니다. (1) 데이터 준비(데이터의 수집, 보관, 증강, 라벨링, 검증, 기능 선택), (2) 모델 개발(하이퍼파라미터 튜닝, 모델의 선택, 훈련, 테스트, 검증), 그리고 (3) 모델 운용(모델의 인퍼런스, 모니터링, 유지보수)입니다. 하지만 머신러닝 전문가들이 흔히 간과하지만 사실은 머신러닝 라이프 사이클에서 가장 중요한 영역이 있습니다.
저널 슈퍼브에이아이 커스텀 오토 라벨의 완벽 활용 가이드 속도와 정확성을 위한 고품질의 정답 데이터와 올바른 훈련 이터레이션 슈퍼브에이아이의 커스텀 오토 라벨은 데이터셋의 구축과 이터레이션에 드는 시간을 획기적으로 감소시켜줄 수 있는 강력한 툴입니다. 이 똑똑한 자동화 툴이 있으면 큰 사이즈의 데이터셋 준비를 수동으로 하는 것은 옛일이 될 것입니다. 특정 유즈 케이스에 적합하게 조정한 커스텀 오토 라벨을 구축하는 것은 어렵지
저널 롱테일 컴퓨터 비전을 위한 커스텀 오토 라벨을 소개합니다 들어가면서 새롭게 개선된 슈퍼브에이아이의 커스텀 오토 라벨(Custom Auto-Label)을 여러분께 소개하게 되어 기쁩니다. 슈퍼브에이아이의 커스텀 오토 라벨은 데이터 라벨링 워크플로우를 자동화하여 컴퓨터 비전팀이 획기적이면서도 안정적인 롱테일 컴퓨터 비전(Computer Vision, CV) 모델을 개발할 수 있도록 돕습니다. 실제로 CV 어플리케이션을 구축할 때 투자가 필요한 부분은, 현실 속 시나리오에서 간과하기 쉬운
저널 Featured 대부분의 컴퓨터 비전팀이 풀지 못한 DataOps의 세 가지 난제 Part2 *본 글은 Superb AI의 James Le가 작성한 ‘Part 2: Three DataOps Challenges That Most Computer Vision Teams Struggle With’의 번역본입니다. 시작하며 최첨단 아키텍처를 구현하고 모델 하이퍼파라미터를 조정하고 손실 함수를 최적화하는 것은 머신러닝의 재미있는 부분입니다. 겉으로는 있어 보이는 작업처럼 보일 수 있지만 상용화를 완료한 모델의 뒤에는 고품질 학습용 데이터셋을 구축하는
저널 Featured 컴퓨터 비전 데이터에 대한 모든 것 컴퓨터 비전이란 무엇인가? 컴퓨터 비전이라는 말에 이미 ‘시각'(vision)이라는 단어가 포함되어 있어서 유추할 수 있듯이, 사람의 시각과 관련한 시스템 구조를 모방하여 컴퓨터도 물체나 상황을 식별하고 해석할 수 있도록 하는 연구 분야입니다. 컴퓨터 비전에서 다루는 데이터에는 이미지와 이미지 속 텍스트를 인지하는 영역뿐만 아니라 비디오와 3D 영상도 포함됩니다. 비디오 영상은
저널 컴퓨터 비전 데이터를 위한 DataOps의 모든 것 Part1 *본 글은 Superb AI의 James Le가 작성한 ‘Part 1: An Overview of DataOps For Computer Vision’의 번역본입니다. 일반적으로 머신러닝 애플리케이션, 특히 컴퓨터 비전 애플리케이션 모델 학습은 데이터에 크게 의존합니다. 상용화 시스템에서는 추론을 수행하기 위해 입력 데이터가 공급되는데요. 이 추론의 결과값은 다시, 이어서 진행되는 반복 학습의 입력값으로 투입되어 훈련 데이터의
저널 Superb AI CTO가 전하는 Data-centric MLOps Superb AI는 데이터, 개발, 운영의 분리로 인해 생기는 사일로가 머신러닝의 상용화를 늦추고 있다는 데 일찍이 문제의식을 느끼고 머신러닝 파이프라인의 각 단계가 유기적으로 순환할 수 있도록 돕는, MLOps를 위한 머신러닝 데이터 플랫폼을 구축하고 있습니다. 아시는 분들도 계시겠지만, 저희는 실리콘밸리 산마테오에 현지 법인을 두고 국내 시장 뿐만 아니라 북미 시장을 대상으로 활발한
저널 Suite를 활용한 머신러닝 워크플로우 실전 체험기 *이 포스팅은 슈퍼브에이아이의 인턴 홍찬의님이 작성한 글의 번역본입니다. *이 프로젝트에서 사용된 모든 코드는 다음 Github repository에서 볼 수 있습니다. 시작하며 2020년은 코로나 바이러스로 뒤덮인 한 해였습니다. 특히 ‘외출 시 마스크 필수착용’이 새로운 사회적 규범이 되면서, 일상이 완전히 바뀌어버렸습니다. 하지만 우리는 습관의 동물인 터라 문 밖을 나설 때 마스크를 써야
저널 우리 머신러닝 팀이 핵심 업무에 집중하지 못하는 이유 머신러닝 데이터는 살아있다 머신러닝 개발은 데이터를 넣고 학습시켜 모델을 개발하는 과정을 반복적으로 하는 것이 핵심입니다. 소프트웨어 엔지니어링에서 코드를 효율적으로 빌드하고 테스트하여 배포하도록 돕는 파이프라인 구축을 통해 안정적인 서비스를 제공할 수 있는 것처럼, 인공지능 개발에서는 데이터를 관여시키는 파이프라인 설계가 중요합니다. 그 파이프라인을 잘 이해하는 것은 데이터가 각 단계마다 어떻게 작동하는지 관찰하고
저널 데이터 준비 5단계, 실리콘밸리에서는 어떤 플랫폼을 사용할까? *본 포스팅의 원문은 Arize AI의 기술 블로그에서 볼 수 있습니다. 전 산업군에서 인공지능(AI)과 머신러닝(ML)을 도입하고 있습니다. 많은 기업이 자사의 비즈니스에 인공지능 기술을 접목하기 위해, 적절한 머신러닝 인프라 플랫폼을 탐색하고 있기도 합니다. 머신러닝 인프라 환경은 혼란스럽고 복잡해서 시장의 다양한 플랫폼과 도구들을 이해하는 건 쉽지 않습니다. 본 포스팅에서는