전체 글

Computer vision. 말 그대로, 컴퓨터가 인간의 시각적 인식 능력을 가지고 이미지를 분석하고 해석하는 기술 분야이다. 컴퓨터 비전의 목표는 디지털 이미지를 분석하여 의미 있는 정보를 추출하고, 이를 바탕으로 다양한 작업을 수행하는 것. 이를 수행하기 위해, 컴퓨터는 시각적 인식 능력을 가지고 이미지를 처리하고 해석하는 알고리즘을 사용하여 객체를 인식하거나 추적한다. 장면을 이해하거나, 3D 형태로 재구성하는 등의 작업도 수행한다. 컴퓨터 비전의 주요 기술에는,이미지 처리, 객체인식, 패턴인식, 이미지 분류, 세그멘테이션이 있고 주로 의료, 자율 주행, 보안, 산업 자동화에 응용되어 쓰일 수 있다.  그 중 몇가지 모델에 대해 설명하자면, 객체 인식에서 널리 사용되는 딥러닝 모델 중 하나인 YO..
Pytorch와 TensorFlow는 딥러닝 프레임워크로, 딥러닝 모델을 쉽게 구축하고 학습할 수 있도록 도와준다. TensorFlow: 텐서플로는 구글에서 개발한 오픈소스 딥러닝 프레임워크이다. 계산을 수행하기 위해 데이터 플로우 그래프를 사용하는 특징을 가지고 있다. 데이터 플로우 그래프 (Data Flow Graph): TensorFlow는 연산을 노드로, 데이터를 엣지로 하는 그래프 형태로 모델을 표현합니다. 이 그래프에서 노드는 수학적인 연산을 나타내며, 엣지는 데이터 배열이나 텐서를 나타낸다. 이러한 데이터 플로우 그래프를 통해 병렬 처리 및 최적화가 가능하며, 분산 학습에도 효과적으로 활용된다. 텐서 (Tensor): TensorFlow에서는 다차원 배열을 텐서라고 부릅니다. 텐서는 그래프 ..
Langchain은 chatgpt와 같은 llm 위에 ai 애플리케이션 구축을 위한 llm프레임워크 LangChain의 API는 간단하고 직관적이며 이해하기 쉽다. RAG는 검색과 AI 기술을 결합하여 생성된 응답의 품질과 관련성을 향상시킨다. RAG는 질문 답변 시스템을 만들기 위해 chatGPT와 같은 검색 및 언어 모델을 통합하는 것이다. 우리가 데이터 소스를 기반으로 사용자 질문에 답할 수 있는 AI 시스템 프로세스를 4단계로 나누어 볼 수 있다. 1단계: load 우리가 가지고 있는 JSON이나 데이터를 로드. LangChain은 HTML, PDF, 코드 등 다양한 유형의 문서에 대해 100개 이상의 문서 로더를 제공한다. 2단계: split(분할) 문서를 로드한 후에는 문서를 더 작은 부분으로..
자연어 처리 (NLP: Natural Language Processing) 인공지능의 한 분야로 비정형 데이터인 자연어(글자나 음성의 형태)를 기계가 사람처럼 이해하고 반응할 수 있도록 하려는 분야 간단하게 말하자면 컴퓨터와 사람의 언어 사이의 상호작용에 관해 연구하는 분야이다. 컴퓨터가 이용자와의 대화 속에서 의도를 찾아내고 다양한 형태의 데이터로부터 정확한 정보를 제공하는 것을 목적으로한다. 1. 비정형 데이터 형식으로 들어온 음성이나 텍스트 데이터의 입력값 분석 -> 이를 토대로 결과 출력 2. 여기서 NLP 알고리즘이 해당 대화를 분석하는 과정을 '자연어의 이해'라고 한다. 3. 그리고 분석과정을 거친 후 결과를 도출하는 것은 '자연어 생성'이라고 한다. ex. 챗봇, ChatGPT 등 자연어 이..
다양한 언어모델을 효율적으로 사용할 수 있도록 프롬프트를 개발하고 최적화하는 분야 프롬프트 엔지니어링은 LLM의 기능과 한계를 더 잘 이해하는데 도움이 된다 개발자는 프롬프트 엔지니어링을 사용해서 LLM 및 인터페이스를 형성하고, 빌드하는 프롬프트 기술을 설계한다. LLM 설정 프롬프트를 사용할 때, API를 사용하거나 직접 LLM과 상호작용 할 수 있다. 몇 가지 파라미터를 설정하여 프롬프트에서 여러가지 결과를 얻을 수 있다. temperature : Temperature는 모델의 예측 가능성을 제어하는 다이얼이라고 생각하면 된다. 낮을수록 항상 가장 확률이 높은 토큰이 선택되기 때문에 더 결정론적인 결과를 낳는다. top_p : 응답 가변성 미세 조정하기. 모델이 응답을 생성하는 결정성을 제어할 수 ..
LLM과 LLaMA LLM은 Large Language Model의 약자로, 거대언어모델이라는 뜻이다. 방대한 양의 데이터를 기반으로 사전학습된 초대형 딥러닝 알고리즘이다. LLaMA(Large Language Model Meta AI) 는 Meta가 공개한 대규모 인공지능 언어모델이다. 텍스트생성, 대화 등 다양하고 복잡한 작업을 수행할 수 있는 인공지능이다. Understanding the Transformer Architecture of LLaMA: 바닐라 트랜스포머와 LLaMA의 다이어그램 Pre-normalization Using RMSNorm: LLaMA 접근 방식에서는 변환기 하위계층의 입력을 정규화 하기 위해 RMSNorm이라는 기술이 사용된다. layer 정규화와 관련된 계산 비용을 최적..
convolution neural network convolution 하나의 함수와 또 다른 함수를 반전 이동한 값을 곱한 다음, 구간에 대해 적분하여 새로운 함수를 구하는 수학 연산자 : 사람은 이미지를 보거나 실생활을 할때 픽셀을 보지 않는다. 특정한 특징이 있는걸 감지한다. 컨볼루션 주요목적은 이미지에서 특징을 찾는것. 특징 맵 만들어서 픽셀간의 공간관계를 만든다. 동시에 신경망이 감지해서 특정한 이미지를 인식한다. ReLU: 정류선형 컨볼루션하고 정류화하는 큰 단계. 비선형을 높이기 위함이다. 네트워크에 비선형을 높이는 이유는 이미지 자체는 굉장히 비선형적이다. 다른 객체를 인식하면 이미지에 비선형들이 많아진다. 색도 다양하고 크기도 다양하기 때문이다. max pooling : pooling은 c..
뉴런(Neuron) : 인공신경망 뉴런 자체로는 거의 쓸모가 없다. 그러나 동시에 수백개 수천개의 뉴런이 협업하면 큰 효과가 생긴다. 뉴런은 입력신호를 받고 출력을 한다. 여러개의 독립변수로 이루어진 input 값을 뉴런을 통해 출력이 된다. 독립변수는 표준화를 해주어야 한다. 다루고 있는게 한 행이라고 생각하면 된다. 하나의 관측치와 관련된 다른 관측치, 다른 특성, 속성이다. 시냅스: 가중치는 인공신경망에 꼭 필요하다. 가중치를 조정하면서 뉴런이 결정을 내린다. 뉴런 안에는 입력된 모든 값들이 합산이 된다. 모든 입력값의 가중합계는 중요하다. 그리고 활성화 함수를 적용한다. 그걸로 뉴런이 신호에 전달여부를 이해한다. 그리고 뉴런이 다음 뉴런에 신호를 전달한다. Activation Function 활성..
CNN :주로 컴퓨터 비전(이미지, 동영상관련 처리) 에서 사용되는 딥러닝 모델로 이미지로 부터 특성을 추출하는 Convolution 레이어를 전처리 Layer로 포함시킨 딥러닝 모델. Image Classification (이미지 분류) 입력된 이미지가 어떤 라벨에 대응되는지 이미지에 대한 분류(Classification)을 처리. 딱 그 물체의 사진 Object Detection(물체 검출) 이미지 안의 Object(물체)들의 위치를 찾고 어떤 물체인지 분류하는 작업을 한다. Localization : 이미지안에서 하나의 Object의 위치와 class를 분류한다. Detection: 이미지 안의 여러개의 Object의 위치와 Class를 분류한다. Image Segmentation(세분화) : 이미..
인공지능(AI): 기계가 사람의 지능을 모방하게 하는 기술. 규칙기반, 데이터 학습기반 데이터에서 패턴을 찾아서 무언가를 예측해야하는 것: 데이터 학습기반(컴퓨터) 규칙 기반 시스템은 사람이 수동으로 규칙을 정의하고, 데이터 기반 시스템(추론, 예측)은 데이터에서 패턴을 학습하는 방식으로 동작한다. 머신러닝(Machine Learning) : 데이터 학습 기반의 인공지능 분야 기계에게 어떻게 동작할지 일일이 코드로 입력하지 않고 데이터를 이용해 학습할 수 있도록 하는 알고리즘 기술을 개발하는 인공지능의 한 분야이다. 딥러닝(Deep Learning) : 인공신경망 알고리즘을 기반으로 하는 머신러닝의 한 분야. 비정형데이터에서 뛰어난 성능을 나타낸다. - 비정형 데이터 : 정해진 규칙 없이 저장되어 값의 ..
줄피
썸머로그