DL, ML

ML: Image data Machine Learning project / 이미지 데이터셋 머신러닝 프로젝트 #1 데이터 및 주제 선정

HI !

더보기

너무나 블로그에 글을 쓰고 싶었다.... 너무 바빴던 3-5월. 이 기세로 아마 올해 내내 바쁘지 않을까 싶다.

내가 grafana를 활용해서 대시보드를 만들 때는 한국어 자료가 많이 없었어서 내가 다시 보려고 작성해 둔 글에, 최근 구글 유입이 많아졌다.
가끔 내게 질문하시는 분들도 계셨고, 부족하지만 내가 해드릴 수 있는 답변을 드리면서 또 뿌듯하기도 하고!
그리고 이번 학기 '통계적 기계학습(Statistical Machine Learning)'을 수강하면서 프로젝트 진행 중에 파이토치에 관련 궁금한 것을
Pytorch forum에 올려보기도했는데, NVidia DL Software engineer 라는 분이 답을 주셨다.
막 연예인한테 답글받은 성덕이 된 기분이었고(ㅎㅎ), 그 분을 보면서 '나도 부족하지만 꾸준히 블로그에 나의 지식(?)을 오픈해둬야겠다.' 라고 다시 다짐!

대충 블로그에 대한 열정이 다시 차올랐다는 기나긴 서두였다.

 

하여튼 오랜만에 돌아온 전공관련 글이다.
앞에서 말했듯, 이번 학기 통계적 기계학습 수업을 수강 중이다.
이 수업을 수강한 이유는 딱 2가지! 1. 함께 통계를 복전하는 친구 두명이 교수님을 강추했다.(교수님 보고계신가요? ㅋ ㅋ ㅋ ㅋ ㅋ) 2. 프로젝트
인턴 다 포기하고 프로젝트하러 복학했다. 프로젝트에 이번 학기 갈아넣기 위해, 15학점만 수강중이다.
진짜 잘 하 고 싶 다. . . . . . . . . . . . .
사실 지금 이미 중간제출(milestone)까지 제출한 상태지만, 처음 데이터와 주제를 선정할 때부터 차례대로 다시 글을 적어 내려가보려고 한다.

-

오늘은 데이터 및 주제 선정에 관련한 글이다.
언제나 시작이 가장 어렵듯, 우리 팀도 주제 정하는 게 쉽지않았다. 할 줄 아는 건 없지만, 하고싶은 건 많으니까.
처음에는 교수님께서 올려주신 스탠포드 대학 수업의 프로젝트들을 살펴보았다. ( http://cs230.stanford.edu/past-projects/ )WoW 🧐 너네 진짜로 학부생 맞아? 그짓부렁..
제일 인상깊었던 것은 'CNN Transfer Learning for Visual Guitar Chord Classificatioin'. 위에 공유한 링크에 들어가면, fall2019 학기의 outstanding 목록에있다. 기타연주하는 것을 영상을 찍어서 RGB채널의 이미지로 잘라낸 후, hands부분을 crop했다고 한다. 코드를 잡는 손 모양을 학습시키는 것이었다. 주제도 새롭고, 모델링도, 포스터도, 직접 이미지 모은 것도 너무너무 멋진.....
직접 데이터셋을 모아서 해볼 수도 있겠구나 싶었다. 욕심이 다시 차오른다. 🔥🔥🔥

소연이랑 교수님한테 수업 질문하러 갔다가, 프로젝트 주제에 대해 이야기해보았는데
교수님께서 .... "이미지를 직접 모으겠다구요?!?!?!?!??????????????????????"라며 놀라셨다.
ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ 지금 생각해보니 매우 무모한 말이긴 했군...^*^
이미지까지 모았으면, 지금 겨우 이미지 로딩정도 하지않았을까 싶다.

-

하여튼 이미지 콜렉터의 꿈은 접고, 본격 주제 탐색에 들어갔다. 가장 다뤄보고싶었던 것은 얼굴데이터였다. FDDB정도...?
아직까지도 종식되지않은 코로나19라는 pandemic사태로 부터 시작된 생각이었다.
공항, 백화점 등의 공공장소에 가면 현재 열화상 카메라로 열을 감지하는 인력이 배치되어있다.
감염이 발생할 수 있는 이러한 위험 상황에서 인력 배치 없이, 열감지를 할 수 있었으면 하는 생각이 들었다.
실제로 이번에 개발된 기술이라는 것을 찾아보며 알게되었지만,,, 나는 학생 입장에서,,,, 해보리라,,,,,(머쓱
뇌를 풀가동하여 뇌내망상을 해 본 결과, 열화상비디오를 실시간으로 프레임화하여, 사진으로 불러온 후(주제가 imageset을 활용한 것이라서) object detection을 진행하고, 이게 사람이라면 열감지를 하고, 열이 높다면 신원을 확인할 수 있는 것을 해보고싶었다. 이렇게 활용 할 수 있도록, 유명인 얼굴 데이터를 가지고, object detection을 한 후에 face recognition을 진행해서 이게 누구인지 알아맞추는 프로젝트가 내가 제안한 주제. (나름의 brief한 제안서도 만들어봤었다.)

근데 생각만 해도 어려웠다. 처음부터 끝까지 챌린지인 느낌?ㅎㅎ 교수님께서도 마치 이번 학기의 특수성으로 인해 너희 생각만큼 잘 진행되지 않을테니, 조금은 루즈하게 가져가는 것이 좋겠다고 말씀하셨다.

 

우리 팀원 중 한 분이 가져오신 fabric 이미지데이터를 보고, small size의 데이터셋으로 높은 성능을 내보는 건 어떨까? 혹은 정상데이터만 가지고 비정상데이터를 감지하는 걸 해보는 건 어떨까? 라는 생각이 들었다. 보통 우리가 도전하는 supervised learning의 경우, 결함 혹은 정상의 정보가 있어야만 그리고 결함데이터와 정상데이터가 있어야만 모델을 학습시킨 후 결함 감지가 가능해진다. 그러나 실제로 내가 공장을 가동한다고 생각해보자! 과-연, 결함데이터가 하루에 몇 개나 발생할까? 임의로 만들어줘야하는 경우도 생길텐데, 그런 것들이 막대한 손해로 이어지는 경우에는 또 어떤가? 이런 이유로 unsupervised learning을 통해 정상 이미지만 학습시키는 모델을 구현해보자는 꿈(?)을 꾸게 되었다.
그렇게 우리는 데이터 사이즈가 작은 패브릭 이미지로 unsupervised learning을 진행 중이다. (사진으로 대략의 이미지셋 정보를 작성해두었지만, 정확한 출처와 전처리 방법에 대해서는 다음 글에서 소개하겠다!)

 
이번 프로젝트나 다른 프로젝트들을 진행하면서 항상 느끼는 것은 어떤 기술을 활용할 것인지에 앞서서 어떤 문제를 해결할 것인지, 즉 컨텐츠의 부분이 중요하다는 것이다. 기술이라는 것이 결국 우리의 생활에서 어떠한 불편함이나 문제를 해결하기위한 것인데, 가장 중요한 부분을 뛰어넘고 구현된 기술은 아무리 훌륭해도 당장은 쓸모가 없을테다. 항상 내게 혹은 세상에 필요한 게 무엇인지 생각하면서 살아가는 요즘이다🖌

-

오늘은 여기까지,

프로젝트의 본격적인 내용은 다음 글로 찾아오겠다 👻