데이터 라벨링
데이터 라벨링을 부업으로 하여 돈을 벌 수 있다고 하여 일단 시작했다. 하지만 이것도 쉬운 일이 아니다. 컴퓨터를 쓸 줄은 알지만 인공지능에 대해 전혀 모르니, 받아주는 곳이 없다. 그래서 공부부터 시작했다.
인공지능에 관하여 데이터 라벨링이 아니더라도 배우고 싶었다. 하지만 '인공지능'이라는 이름만으로도 가슴이 막혀오는 중압감에 감히 시작을 못했다. 그러다가 '데이터 라벨링'에 이끌려 들어왔고, 이 참에 기초 공부를 하여 본격적인 데이터 라벨링 부업도 하고, 더 깊이 공부하여 사람 구실 좀 해보자. 어렵기야 하겠지만 못 할 것은 아니다. 사람이 만든 것을 사람이 이해 못 할 것이 없다. 시작해보니 이거 할 만하다.
딱 월 300만 원만 벌자. 데이터 라벨링으로 월 900만 원을 번 사람도 있다고 한다. 그렇게 하기 위해 얼마나 많은 시간을 드렸을까. 눈이 빠지도록 해야 가능한 수입이 아닐지... 부업으로 월 300!
아래 내용은 '한국인공지능협회'에서 만든 강의 자료를 바탕으로 작성되었다.
제3강 인공지능의 알고리즘
인공지능 알고리즘
1. 딥러닝의 표현방식
딥러닝은 기계가 자동을 대규모 에터에서 패턴과 규칙을 학습, 이 학습을 기반으로 의사결정이나 예측 등을 수행하는 기술을 말한다.
2. 딥러닝의 구조
딥러닝의 3단계 구조
1)입력층(input layer)
2)은닉층(hidden layer)
3)출력층(ouptut layer)
3. 딥러닝의 동작원리
수능시험을 예로 들었다. 제1차 수능시험 모의고사를 치르고 나서 오답을 찾아 수정한다. 그리고 틀린 문제를 대상으로 2차 모의고사를 보고 오류를 찾아내어 수정한다. 그리고 다시 3차...로 반복한다. 이런 과정을 '에포크(epoch)'라 한다. 이렇게 모의고사와 수정을 여러 차례 반복한 후 비슷한 문제로 평가를 거쳐 실전에 투입된다. 이때 시험재료의 80%를 훈련에 사용하고 20%를 평가에 사용한다.
4. 인공지능 프로그램의 개발절차
'라이브러리' '도서관'이란 뜻이지만 프로그래밍에서는 '필요한 기능들이 모여있는 코드의 묶음'이라고 생각할 수 있다. 이것은 전문가들이 이미 만들어 놓은 작업 틀이다. 이것을 필요할 때마다 직접 호출하여 사용할 수 있다.
인공지능 객체검출 방법의 이해
대상 객체가 하나일 경우가 있고 여러 개일 경우가 있다. 이때 인공지능이 객체를 인식하는 방법이 다르다.
1. Single Object일 경우
인공지능이 한 개의 객체를 검출하였을 때, Single object라 한다. 한 개 이상의 객체를 검출하였을 때는 Multi object라 한다.
인공지능이 한 개의 객체를 검출하였을 때의 처리방법을 '분류(Classification)'이라 한다. 인공지능이 찾아낸 객체가 어디에 있는지를 지정해야 한다. 객체를 네모로 구획하는 것을 bounding box라고 한다. 객체를 찾아낸 후 네모로 구획하는 과정을 '영역표시(Localization)'라고 한다.
2. Multi object일 경우
인공지능이 여러개의 객체를 검출하는 것을 '객체검출(object detction)이라고 한다.
'객체검출(object detction)' : 인공지능이 학습을 통하여 여러 개의 객체를 인식하고, 인식된 객체를 바운딩 박스와 색을 이용하여 영역표시 하는 것.
'분류(Classification)' : 인공지능이 하나의 객체를 인식하고 네모로 구획하여 영역표시 하는 것.
'Multi object'는 여러 개의 대상을 바운딩 박스와 색을 이용하여 영역을 표시하는 것이다.
3. 의미적 분할(Instance Segmentation)
대상에서 의미 있는 부분만 추출하여 영역을 표시하는 방법이다.
"의미적 분할(Instance Segmentation)'은 정교하고 복잡한 인공지능 구현을 위하여 이미지의 영역별 의미를 부여하는 경우 사용하는 방식이다. 데이터 라벨링 작업 시, 의미적 분할로 해주어야 하기 때문에 많은 시간을 필요로 하는 작업이다.
핵심 딥러닝 알고리즘 이해
딥러닝 알고리즘에는 많은 방법이 있지만, 그중에서도 핵심이 되는 알고리즘은 아래 3 가지이다.
1. CNN(Convolution Neural Network) : 사진, 영상 처리에 많이 사용되는 알고리즘이다. 데이터의 특징을 분석하여 패턴을 파악하는 방식
2. RNN(Recurrect Neural Network) : 음성처리에 많이 사용되는 알고리즘이다. 이것의 특징은 순서대로 진행되는 것이 아니라 전. 후로 순환되는 알고리즘이다.
3. GAN(Generative Adversarial Network) : 이미지 생성과 복원에 많이 사용되며, 가장 최근에 만들어진 알고리즘이다. 이것의 특징은 하나의 인공지능에 두 개의 신경망을 두고 상호 경쟁하게 하는 것이다. 하나는 가짜 데이터를 만들어 내는 신경망, 다른 하나는 이것의 진위를 파악하는 신경망으로 구성되어 있다. 이 둘이 적대적으로 작용하면서 가짜 데이터를 진짜 데이터 수준까지 끌어올리는 작업을 하게 된다.
'데이터라벨링' 카테고리의 다른 글
데이터 라벨링, Welocalize 소개 (0) | 2023.01.14 |
---|---|
데이터 라벨링 웹사이트, LabelOn 소개 (0) | 2023.01.13 |
데이터 라벨링 4강, 빅데티어와 데이터 라벨링의 정의 (0) | 2023.01.02 |
데이터 라벨링의 개념 이해하면 월 900만원도 가능 (0) | 2022.12.29 |
데이터 라벨링 시작하기 (0) | 2022.12.29 |