Evaluating multiple ideas in parallel during error analysis

당신의 팀원들은 고양이 사진 분류기 개선을 위한 여러 아이디어를 내놓았습니다:

  • 강아지를 고양이로 인식하도록 알고리즘을 수정한다.
  • 커다란 고양이과 동물들(사자, 표범 등)을 애완묘로 인식하도록 알고리즘을 수정한다.
  • 흐릿한 사진에 대한 분류기 성능을 개선한다.

Evaluating multiple ideas in parallel during error analysis

당신은 위 아이디어들을 한번에 효율적으로 평가할 수 있습니다. 이러한 경우 저는 스프레드시트를 만들고, ~100개의 오분류된 디벨롭먼트 셋 사진들을 살펴보며 시트를 작성합니다. 또한 특정한 샘플 이미지를 기억하는데 도움이 될 만한 코멘트를 적기도 합니다. 이 프로세스를 시각화하기 위해, 간단히 4개의 오분류 샘플에 대하여 작성할 수 있는 스프레드시트를 살펴보겠습니다.

스크린샷 2021-02-15 오후 9.27.42

위 시트의 사진 #3은 Great cat과 Blurry 컬럼에 모두 해당합니다. 게다가, 하나의 샘플이 여러 개의 카테고리에 해당할 수 있기 때문에, 하단 퍼센티지의 총합이 100%가 아니게 될 수도 있습니다.

당신은 아마도 강아지, 커다란 고양이과, 흐릿한 사진 이라는 카테고리를 먼저 만들고 오뷴류 샘플들을 하나씩 분류하기 시작했을 겁니다. 그러나 오분류 샘플들을 확인하는 과정에서 당신은 어쩌면 새로운 에러 카테고리를 추가하고 싶어질 지도 모릅니다.

예를 들어, 10개 정도의 사진을 보던 중 당신은 인스타그램 필터가 적용된 사진들에서 오분류가 자주 발생한다는 것을 알게 되었습니다. 당신은 다시 돌아가 인스타그램 컬럼을 스프레드시트에 추가할 수 있습니다.

알고리즘이 오분류한 샘플 데이터를 직접 확인하면서, “사람이라면 어떻게 분류했을까” 또는 “사람이라면 구별 가능했을까”를 생각해보는 작업은 새로운 에러 카테고리와 솔루션에 대한 좋은 단서들을 제공하기도 합니다.

가장 도움이 되는 에러 카테고리들은 해결책 또는 개선책이 명확한 카테고리들일 것입니다. 예를 들어, 인스타그램 카테고리는 만약 당신이 인스타그램 필터를 “취소”하고 원본 사진을 복구하는 방법을 알고 있을 때 가장 도움이 될 것입니다.

그러나 어떻게 개선해야 할 지 알고 있는 에러 카테고리에 지나치게 시야를 가두지는 마시기 바랍니다. 이 프로세스의 목적은 집중할 가치가 있는 가장 유망한 영역에 관한 직관을 만드는 것이기 때문입니다.

에러 분석은 반복적인 프로세스입니다. 당장 떠오르는 에러 카테고리가 없더라도 걱정할 필요는 없습니다. 오분류 이미지 몇 장을 보고 나면, 당신은 아마 에러 카테고리 몇 가지를 떠올렸을 겁니다. 더 많은 이미지를 하나씩 분류해 나가는 동안, 당신은 새로운 카테고리를 더 생각해내고, 새 카테고리의 관점에서 이미 확인했던 오분류 이미지도 재평가하게 될 수 있습니다.

당신이 100개의 오분류된 디벨롭먼트 셋 데이터에 대해 에러 분석을 마쳤고, 아래와 같은 스프레드시트를 작성했다고 가정해 봅시다:

스크린샷 2021-02-15 오후 9.27.57

이제 당신은 강아지 라는 오분류 문제를 해결하는 것은 최대 8%의 에러를 제거할 수 있다는 사실을 알게 되었습니다. 커다란 고양이과 동물 또는 흐릿한 사진 오분류 문제는 더 많은 에러를 제거할 수 있습니다. 따라서, 당신은 커다란 고양이과 동물 또는 흐릿한 사진 오분류 문제 중 하나를 선택하여 집중하게 될 것입니다. 만약 당신의 팀에 인력이 충분하다면, 두 개의 오분류 문제에 대하여 인원을 분배할 수도 있을 겁니다.

에러 분석은 가장 우선순위가 높은 작업이 무엇인지 알려주는 엄밀한 수학적 공식을 제공하지는 않습니다. 또, 각각의 에러 카테고리에 대하여 얼마만큼의 개선을 기대할 수 있으며 필요 작업량은 어느 정도일지에 대해서도 고려해야만 합니다.


deeplearning.ai를 이끄는 Andrew Ng의 책, MACHINE LEARNING YEARNING은 머신러닝 프로젝트 수행에 있어 반드시 알아야 할 개념과 노하우를 담고 있습니다. 총 58편으로 이루어진 이 책을 1편씩 번역하여 게재합니다.

Machine Learning Yearning 전체 목록 보기