데이터 분석일기

Computer vision. 말 그대로, 컴퓨터가 인간의 시각적 인식 능력을 가지고 이미지를 분석하고 해석하는 기술 분야이다. 컴퓨터 비전의 목표는 디지털 이미지를 분석하여 의미 있는 정보를 추출하고, 이를 바탕으로 다양한 작업을 수행하는 것. 이를 수행하기 위해, 컴퓨터는 시각적 인식 능력을 가지고 이미지를 처리하고 해석하는 알고리즘을 사용하여 객체를 인식하거나 추적한다. 장면을 이해하거나, 3D 형태로 재구성하는 등의 작업도 수행한다. 컴퓨터 비전의 주요 기술에는,이미지 처리, 객체인식, 패턴인식, 이미지 분류, 세그멘테이션이 있고 주로 의료, 자율 주행, 보안, 산업 자동화에 응용되어 쓰일 수 있다.  그 중 몇가지 모델에 대해 설명하자면, 객체 인식에서 널리 사용되는 딥러닝 모델 중 하나인 YO..
Pytorch와 TensorFlow는 딥러닝 프레임워크로, 딥러닝 모델을 쉽게 구축하고 학습할 수 있도록 도와준다. TensorFlow: 텐서플로는 구글에서 개발한 오픈소스 딥러닝 프레임워크이다. 계산을 수행하기 위해 데이터 플로우 그래프를 사용하는 특징을 가지고 있다. 데이터 플로우 그래프 (Data Flow Graph): TensorFlow는 연산을 노드로, 데이터를 엣지로 하는 그래프 형태로 모델을 표현합니다. 이 그래프에서 노드는 수학적인 연산을 나타내며, 엣지는 데이터 배열이나 텐서를 나타낸다. 이러한 데이터 플로우 그래프를 통해 병렬 처리 및 최적화가 가능하며, 분산 학습에도 효과적으로 활용된다. 텐서 (Tensor): TensorFlow에서는 다차원 배열을 텐서라고 부릅니다. 텐서는 그래프 ..
convolution neural network convolution 하나의 함수와 또 다른 함수를 반전 이동한 값을 곱한 다음, 구간에 대해 적분하여 새로운 함수를 구하는 수학 연산자 : 사람은 이미지를 보거나 실생활을 할때 픽셀을 보지 않는다. 특정한 특징이 있는걸 감지한다. 컨볼루션 주요목적은 이미지에서 특징을 찾는것. 특징 맵 만들어서 픽셀간의 공간관계를 만든다. 동시에 신경망이 감지해서 특정한 이미지를 인식한다. ReLU: 정류선형 컨볼루션하고 정류화하는 큰 단계. 비선형을 높이기 위함이다. 네트워크에 비선형을 높이는 이유는 이미지 자체는 굉장히 비선형적이다. 다른 객체를 인식하면 이미지에 비선형들이 많아진다. 색도 다양하고 크기도 다양하기 때문이다. max pooling : pooling은 c..
뉴런(Neuron) : 인공신경망 뉴런 자체로는 거의 쓸모가 없다. 그러나 동시에 수백개 수천개의 뉴런이 협업하면 큰 효과가 생긴다. 뉴런은 입력신호를 받고 출력을 한다. 여러개의 독립변수로 이루어진 input 값을 뉴런을 통해 출력이 된다. 독립변수는 표준화를 해주어야 한다. 다루고 있는게 한 행이라고 생각하면 된다. 하나의 관측치와 관련된 다른 관측치, 다른 특성, 속성이다. 시냅스: 가중치는 인공신경망에 꼭 필요하다. 가중치를 조정하면서 뉴런이 결정을 내린다. 뉴런 안에는 입력된 모든 값들이 합산이 된다. 모든 입력값의 가중합계는 중요하다. 그리고 활성화 함수를 적용한다. 그걸로 뉴런이 신호에 전달여부를 이해한다. 그리고 뉴런이 다음 뉴런에 신호를 전달한다. Activation Function 활성..
CNN :주로 컴퓨터 비전(이미지, 동영상관련 처리) 에서 사용되는 딥러닝 모델로 이미지로 부터 특성을 추출하는 Convolution 레이어를 전처리 Layer로 포함시킨 딥러닝 모델. Image Classification (이미지 분류) 입력된 이미지가 어떤 라벨에 대응되는지 이미지에 대한 분류(Classification)을 처리. 딱 그 물체의 사진 Object Detection(물체 검출) 이미지 안의 Object(물체)들의 위치를 찾고 어떤 물체인지 분류하는 작업을 한다. Localization : 이미지안에서 하나의 Object의 위치와 class를 분류한다. Detection: 이미지 안의 여러개의 Object의 위치와 Class를 분류한다. Image Segmentation(세분화) : 이미..
인공지능(AI): 기계가 사람의 지능을 모방하게 하는 기술. 규칙기반, 데이터 학습기반 데이터에서 패턴을 찾아서 무언가를 예측해야하는 것: 데이터 학습기반(컴퓨터) 규칙 기반 시스템은 사람이 수동으로 규칙을 정의하고, 데이터 기반 시스템(추론, 예측)은 데이터에서 패턴을 학습하는 방식으로 동작한다. 머신러닝(Machine Learning) : 데이터 학습 기반의 인공지능 분야 기계에게 어떻게 동작할지 일일이 코드로 입력하지 않고 데이터를 이용해 학습할 수 있도록 하는 알고리즘 기술을 개발하는 인공지능의 한 분야이다. 딥러닝(Deep Learning) : 인공신경망 알고리즘을 기반으로 하는 머신러닝의 한 분야. 비정형데이터에서 뛰어난 성능을 나타낸다. - 비정형 데이터 : 정해진 규칙 없이 저장되어 값의 ..
Data 전처리란 : Raw Data을 학습하기 전에 변경하는 작업 Garbage in, Garbage out. - 좋은 train dataset으로 학습 해야 좋은 예측 결과를 만드는 모델을 학습할 수 있다. - 좋은 train dataset을 만드는 것은 모델의 성능에 가장 큰 영향을 준다. 목적에 따른 전처리 분류 1. 학습이 가능한 데이터셋을 만들기 위한 전처리 - 머신러닝 알고리즘은 숫자만 처리할 수 있다. (수식이므로) 그래서 결측치, 문자열이 있으면 학습이나 추론을 할 수 없다. 2. 학습이 더 잘되도록 만들기 위한 전처리 - 공학적 전처리 (Feature Engineering) - 도메인 지식에 의한 전처리 레이블 인코딩(Label encoding) 범주형 feature의 고윳값들 오름차수..
문제 유형별 MLP 네트워크MLP(Multi Layer Perceptron)Fully Connected Layer로 구성된 네트워크 Regression(회귀)회귀: 연속형(모든값이 정답이 될수있다.) 실수값을 맞추는것. 대상이 무한대이고 대상이 정해져있지 않다. ⇒ 확률이 0성능을 평가할 때 얼마나 잘 맞췄는지가 아니라 얼마나 덜 틀렸는지로 평가한다. 분류: 이진분류 / 다중분류. 범주형(값이 정해져있다)얼마나 잘 맞췄는지로 평가한다. 이진분류- 맞는지 여부(positive (o → 1), negative (x→0))다중분류- class가 여러개 ex. 강아지의 품종이 10개가 있다. 이중 강아지의 품종을 맞춰라. → 모델을 구성하는 방법과 사용하는 변수가 달라진다. 분류 (Classification)F..
데이터 시각화 데이터의 분석 결과를 쉽게 이해하고 판단할 수 있도록 데이터를 시각적으로 표현하여 전달하기 위한 과정을 말한다. 많은 양의 데이터를 한눈에 파악할 수 있다. 누구나 데이터를 인지하고 활용할 수 있다. 숫자를 보여주면 숫자를 다루던 사람들은 알지만, 모르는 사람들은 알기 어렵다. 그러나 자유도는 높지만 진입장벽이 있다. 대표적인 시각화 라이브러리 matplotlib: 가장 기본이 되는 라이브러리. 함수들이 내부적으로는 matplotlib을 사용한다. seaborn pandas plotly : matplotlib을 사용하지 않고 자바스크립트를 사용 (웹에서 볼수 있도록 한다.) folium: 지도 시각화. matplotlib : 데이터 시각화를 위한 파이썬 패키지. 2차원 그래프를 주로 그린다..
정돈된 데이터 (Tidy data) 원하는 형태로 자유롭게 만드는 것. 데이터의 구조를 바꾸는 것 처음 제공되는 데이터셋 = raw data (대부분 빠져있는 값들이 많다. 필요없는 컬럼등..) : 정제하고 전처리를 해야한다. 정돈되지 않은 데이터의 가장 흔한 형태 열 이름이 변수 이름이 아니라 값인 경우 열 이름에 복수 개의 변수가 저장된 경우 : 하나의 열에 여러개를 저장하지 말것 ex. 주소와 이름을 합치지x. 한개의 단위에는 하나만 넣는다. 변수가 행과 열에 모두 저장된 경우 같은 테이블에 복수의 관측단위가 저장된 경우 단일 관측 단위가 복수 테이블에 저장된 경우 stack() : 컬럼의 이름들을 index로 만들어준다. df.stack() unstack() : stack()과 반대로 index를..
줄피
'데이터 분석일기' 카테고리의 글 목록