robust ready, preprocess love.


  • 홈

  • 카테고리

  • 태그

  • About

  • 검색

Em 알고리즘 뽀개기

작성일 2021-07-05

EM Algorithm

더 읽어보기 »

가우시안 혼합 모델과 Em 알고리즘

작성일 2021-06-30
더 읽어보기 »

K 평균 클러스터링 알고리즘

작성일 2021-06-29
더 읽어보기 »

Bias and Variance

작성일 2021-03-12 | In ML Best Practice

트레이닝, 디벨롭먼트, 테스트 셋 모두 같은 분포에서 나온다고 가정해 봅시다. 당신은 모델 성능을 위해 최대한 많은 트레이닝 셋을 얻고자 합니다. 물론 데이터는 다다익선이지만, 항상 기대만큼 도움이 되는 것은 아닙니다. 때로 시간낭비가 될 수도 있죠. 데이터를 더 구하는 일이 시간낭비인지 아닌지, 어떻게 판단할 수 있을까요?

더 읽어보기 »

위기에 빠진 구글 AI 그리고 비명세성 문제

작성일 2021-03-09 | In AI Research

구글은 최근 자사의 인공지능 연구원 Timnit Gebru를 해고했습니다. Gebru의 해고와 함께, 구글이 내놓은 최신 연구 논문은 세계 최대의 AI 연구부서의 무엇을 이야기하고 있을까요?

더 읽어보기 »

AI 프로젝트 아이디어 평가를 위한 5단계 기준

작성일 2021-03-08 | In ML Best Practice

어떤 아이디어가 작업할 가치가 있는지 판단하는 능력은 AI 아키텍트가 갖추어야 할 가장 중요한 기술 중 하나입니다. 머신러닝은 대량생산, 헬스케어, 기후변화, 농업, 이커머스, 광고 등 다양한 분야에 적용되고 있습니다. 이 모든 분야에 대해 정통한 전문가가 아닌 사람이, “의미있는” 프로젝트가 무엇인지 어떻게 구분할 수 있을까요? 의미있는 프로젝트와 그렇지 않은 프로젝트를 효과적으로 구별할 수 있는 5단계를 소개해 드립니다.

더 읽어보기 »

Takeaways for Basic error analysis

작성일 2021-02-22 | In ML Best Practice

기초적인 에러 분석(error analysis)에 대하여, 우리는 아래와 같은 6개의 교훈 또는 지침을 얻을 수 있습니다.

더 읽어보기 »

How big should the Eyeball and Blackbox dev sets be?

작성일 2021-02-22 | In ML Best Practice

아이볼 디벨롭먼트 셋은 학습 알고리즘의 주요 에러 카테고리들이 무엇인지 보여줄 수 있을 만큼 커야 합니다. 당신이 작업 중인 태스크가 고양이 구분하기처럼 사람도 잘 할 수 있는 일이라면, 다음과 같은 지침을 참고할 수 있습니다:

더 읽어보기 »

데이터 결측치 채우는 6가지 방법

작성일 2021-02-18 | In Data Preprocessing

현실 세계의 데이터셋은 다양한 이유로 결측값을 포함하게 된다. 결측값들은 NaN, 공백 또는 기타 기호로 인코딩된다. 결측값이 매우 많은 데이터셋으로 모델을 훈련시키는 것은 학습 모델의 품질에 커다란 영향을 미칠 수 있다. 사이킷런 등 패키지의 학습 알고리즘 일부는 모든 데이터 값이 숫자값이며 모든 데이터가 의미있다고 가정한다.

더 읽어보기 »

Cleaning up mislabeled dev and test set examples

작성일 2021-02-17 | In ML Best Practice

에러 분석을 진행하는 동안, 당신은 디벨롭먼트 셋 데이터 일부가 오분류된 것을 알게 될 수도 있습니다. 여기서 “오분류“라는 말은, 데이터가 알고리즘에 투입되기도 전에 휴먼 에러로 인해 라벨링이 잘못 되었음을 의미합니다.

더 읽어보기 »
1 2 … 4
Kyuhyung Choi (choigww)

Kyuhyung Choi (choigww)

35 포스트
8 카테고리
63 태그
RSS
Github
© 2021 Kyuhyung Choi (choigww)
Powered by Jekyll
Theme - NexT.Muse