가우시안 혼합 모델과 Em 알고리즘
K 평균 클러스터링 알고리즘
Bias and Variance
트레이닝, 디벨롭먼트, 테스트 셋 모두 같은 분포에서 나온다고 가정해 봅시다. 당신은 모델 성능을 위해 최대한 많은 트레이닝 셋을 얻고자 합니다. 물론 데이터는 다다익선이지만, 항상 기대만큼 도움이 되는 것은 아닙니다. 때로 시간낭비가 될 수도 있죠. 데이터를 더 구하는 일이 시간낭비인지 아닌지, 어떻게 판단할 수 있을까요?
위기에 빠진 구글 AI 그리고 비명세성 문제
구글은 최근 자사의 인공지능 연구원 Timnit Gebru를 해고했습니다. Gebru의 해고와 함께, 구글이 내놓은 최신 연구 논문은 세계 최대의 AI 연구부서의 무엇을 이야기하고 있을까요?
AI 프로젝트 아이디어 평가를 위한 5단계 기준
어떤 아이디어가 작업할 가치가 있는지 판단하는 능력은 AI 아키텍트가 갖추어야 할 가장 중요한 기술 중 하나입니다. 머신러닝은 대량생산, 헬스케어, 기후변화, 농업, 이커머스, 광고 등 다양한 분야에 적용되고 있습니다. 이 모든 분야에 대해 정통한 전문가가 아닌 사람이, “의미있는” 프로젝트가 무엇인지 어떻게 구분할 수 있을까요? 의미있는 프로젝트와 그렇지 않은 프로젝트를 효과적으로 구별할 수 있는 5단계를 소개해 드립니다.
Takeaways for Basic error analysis
기초적인 에러 분석(error analysis)에 대하여, 우리는 아래와 같은 6개의 교훈 또는 지침을 얻을 수 있습니다.
How big should the Eyeball and Blackbox dev sets be?
아이볼 디벨롭먼트 셋은 학습 알고리즘의 주요 에러 카테고리들이 무엇인지 보여줄 수 있을 만큼 커야 합니다. 당신이 작업 중인 태스크가 고양이 구분하기처럼 사람도 잘 할 수 있는 일이라면, 다음과 같은 지침을 참고할 수 있습니다:
데이터 결측치 채우는 6가지 방법
현실 세계의 데이터셋은 다양한 이유로 결측값을 포함하게 된다. 결측값들은 NaN, 공백 또는 기타 기호로 인코딩된다. 결측값이 매우 많은 데이터셋으로 모델을 훈련시키는 것은 학습 모델의 품질에 커다란 영향을 미칠 수 있다. 사이킷런 등 패키지의 학습 알고리즘 일부는 모든 데이터 값이 숫자값이며 모든 데이터가 의미있다고 가정한다.
Cleaning up mislabeled dev and test set examples
에러 분석을 진행하는 동안, 당신은 디벨롭먼트 셋 데이터 일부가 오분류된 것을 알게 될 수도 있습니다. 여기서 “오분류“라는 말은, 데이터가 알고리즘에 투입되기도 전에 휴먼 에러로 인해 라벨링이 잘못 되었음을 의미합니다.