데이터 시각화 데이터의 분석 결과를 쉽게 이해하고 판단할 수 있도록 데이터를 시각적으로 표현하여 전달하기 위한 과정을 말한다. 많은 양의 데이터를 한눈에 파악할 수 있다. 누구나 데이터를 인지하고 활용할 수 있다. 숫자를 보여주면 숫자를 다루던 사람들은 알지만, 모르는 사람들은 알기 어렵다. 그러나 자유도는 높지만 진입장벽이 있다. 대표적인 시각화 라이브러리 matplotlib: 가장 기본이 되는 라이브러리. 함수들이 내부적으로는 matplotlib을 사용한다. seaborn pandas plotly : matplotlib을 사용하지 않고 자바스크립트를 사용 (웹에서 볼수 있도록 한다.) folium: 지도 시각화. matplotlib : 데이터 시각화를 위한 파이썬 패키지. 2차원 그래프를 주로 그린다..
데이터 분석일기/pandas
정돈된 데이터 (Tidy data) 원하는 형태로 자유롭게 만드는 것. 데이터의 구조를 바꾸는 것 처음 제공되는 데이터셋 = raw data (대부분 빠져있는 값들이 많다. 필요없는 컬럼등..) : 정제하고 전처리를 해야한다. 정돈되지 않은 데이터의 가장 흔한 형태 열 이름이 변수 이름이 아니라 값인 경우 열 이름에 복수 개의 변수가 저장된 경우 : 하나의 열에 여러개를 저장하지 말것 ex. 주소와 이름을 합치지x. 한개의 단위에는 하나만 넣는다. 변수가 행과 열에 모두 저장된 경우 같은 테이블에 복수의 관측단위가 저장된 경우 단일 관측 단위가 복수 테이블에 저장된 경우 stack() : 컬럼의 이름들을 index로 만들어준다. df.stack() unstack() : stack()과 반대로 index를..