AI/Machine Leaning

정규화와 표준화 둘 중 어떤 상황에 어떤 방법을 선택해야 하는지 궁금해 알아보았다.참고 정규화 (Normalization)정규화의 목적은 데이터셋의 numerical value 범위의 차이를 왜곡하지 않고 공통 척도로 변경하는 것이다.기계학습에서 모든 데이터셋이 정규화 될 필요는 없고, 피처의 범위가 다른 경우에만 필요하다. Min-Max ScalingMin-Max Scaling은 정규화의 한 방법으로 모든 피처가 정확하게 [0,1] 사이에 위치하도록 데이터를 변경한다. 2차원 데이터셋일 경우에는 모든 데이터가 x축의 0과 1, y축의 0과 1 사이의 사각 영역에 담기게 된다.즉, 데이터에서 최솟값을 빼고 전체 범위로 나누는 것이다.  예시) 만약 두 시험의 최소 점수가 0점 최대 점수가 각각 100점,..
딥러닝을 공부하며 캐글(Kaggle)의 dataset을 활용해 실습한 내용을 기록하기 위해 작성한 글이다 순서 Kaggle에서 Sign Language MNIST 를 받아 알파벳 수화 이미지를 이용해서 알파벳을 예측하는 과정은 다음과 같다 1. 캐글(Kaggle) 환경 변수 설정 (os) 2. 데이터셋 다운로드 3. 데이터셋 로드 (pandas.read_csv) 4. 전처리 5. 모델 설계 6. 모델 학습 7. 학습 결과 - history 그래프 1. 캐글(Kaggle) 환경 변수 설정 (os) import os os.environ['KAGGLE_USERNAME'] = 'username' os.environ['KAGGLE_KEY'] = 'key' 2. 데이터셋 다운로드 !kaggle datasets do..
선형회귀, 논리회귀에서는 모두 1차 함수를 이용해서 문제를 풀었다. 하지만 자연계에는 직선으로 설명할 수 없는 문제들이 훨씬 더 많다. 이러한 문제들을 해결하기 위해 딥러닝을 사용한다. 딥러닝의 주요 개념 Batch size, Epoch - batch 와 iteration 만약 우리가 10,000,000개의 데이터셋을 가지고 있다고 가정해보자. 10,000,000개의 데이터셋을 한꺼번에 메모리에 올리고 학습시키려면 엄청난 용량을 가진 메모리가 필요하고 그 메모리를 사는데 (메모리가 없다면 개발하는데) 천문학적인 비용이 들 것이다. 따라서 우리는 이 데이터셋을 작은 단위로 쪼개서 학습을 시키는데 쪼개는 단위를 배치(Batch)라고 부른다. 예를 들어서 1,000만개의 데이터셋을 1,000개 씩으로 쪼개어 ..
다항 논리회귀를 공부하며 캐글(Kaggle)의 dataset을 활용해 실습한 내용을 기록하기 위해 작성한 글이다 순서 Kaggle에서 wine 정보(wineuci)를 다운로드 받아 와인의 정보를 이용해서 와인을 예측하는 과정은 다음과 같다 1. 캐글(Kaggle) 환경 변수 설정 (os) 2. 데이터셋 다운로드 3. 데이터셋 로드 (pandas.read_csv) 4. 전처리 5. 학습/검증 데이터 분할 6. 모델 학습 1. 캐글(Kaggle) 환경 변수 설정 (os) import os os.environ['KAGGLE_USERNAME'] = 'username' os.environ['KAGGLE_KEY'] = 'key' 2. 데이터셋 다운로드 !kaggle datasets download -d brynja..
오늘 공부한 이진 논리회귀를 캐글(Kaggle)의 dataset을 활용해 실습한 내용을 기록하기 위해 작성한 글이다 순서 Kaggle에서 타이타닉 탑승자(titanic)을 다운로드 받아 생존자/사망자를 분류하는 과정은 다음과 같다 1. 캐글(Kaggle) 환경 변수 설정 (os) 2. 데이터셋 다운로드 3. 데이터셋 로드 (pandas.read_csv) 4. 전처리 5. 모델 학습 1. 캐글(Kaggle) 환경 변수 설정 (os) import os os.environ['KAGGLE_USERNAME'] = 'username' os.environ['KAGGLE_KEY'] = 'key' 2. 데이터셋 다운로드 !kaggle datasets download -d heptapod/titanic !unzip tit..
머신러닝 Linear regression, Logistic regression 공부 중 Keras의 Dence와 그것에 들어가는 인자값과 어떤 상황에 어떤 Dense Activation Function을 사용해야 하는지 공부한 내용을 정리한다. 머신러닝에서는 어떻게 학습을 하고 이를 반영할 지에 대한 설계를 위해 레이어 층을 쌓는다. 그 중 하나의 기본 레이어가 Dense layer이다. 연속적으로 상관관계가 있는 데이터가 아니라면 보통 머신러닝에서 가장 기본적인 층인 Dense 레이어로 학습시킨다. (서로 연속적으로 상관관계가 있는 데이터는 대표적으로 영상이 있다) tf.keras.layers.Dense spec (출처) tf.keras.layers.Dense( units, activation=None..
오늘 공부한 머신러닝 선형회귀를 캐글(Kaggle)의 dataset을 활용해 실습한 내용을 기록하기 위해 작성한 글이다 순서 Kaggle에서 연차-연봉 데이터셋(Salary)을 다운로드 받아 연차로부터 연봉을 예측하는 과정은 다음과 같다 1. 캐글(Kaggle) 환경 변수 설정 (os) 2. 데이터셋 다운로드 3. 데이터셋 로드 (pandas.load) 4. 데이터셋 크기 확인 (df.shape) * df : data frame 5. 데이터셋 그려서 살펴보기 (seaborn.pairplot) 6. 데이터셋 가공 [1] (np.array) 7. 데이터셋 가공 [2] (data.reshape) 8. 데이터셋 분할 (train_test_split) 9. 학습 (Sequental, Dense) 10. 검증 데이..
Sungwoo Koo
'AI/Machine Leaning' 카테고리의 글 목록