Develop/Data Analysis 8

pandas 일자 및 시간 처리 방법을 알아보자. (feat. dt)

문제에서 .dt 사용할 일이 많아서 찾아보니 다양한 것을 할 수 있었구나.   오늘은 판다스 datetime인 dt 메서드에 대해 알아보자.오늘의 배움datetime 속성에 대해 알아보자. 파이썬을 통해 데이터 분석을 하면 판다스를 정말 많이 사용하게 된다. 특히 날짜 및 시간과 관련해서 판다스 함수가 내장되어 있기 때문에 필요할 때 적절히 사용하면 편리한 것 같다.  실제로 실습 문제를 풀다가, 특정 연도, 시간 등을 많이 이용해야했고, 어떤 것들을 더 할 수 있을 지 궁금해져 판다스 공식문서를 찾아보았다. 꽤나 다양한 속성이 있었다.  Datetime 속성 Series.dt.date Python 객체의 numpy 배열을 반환합니다 datetime.date. Series.dt.time객체 의 nump..

Seaborn을 알아보자.

데이터 시각화 도구, 또 하나의 꽃.   오늘은 pandas를 이용한 데이터 시각화 도구, 두번째 seaborn을 알아보자.  오늘의 배움Seaborn이 무엇이고 왜 사용하는지 이해하기다양한 그래프 종류와 활용법 파악하기실무에서 자주 쓰이는 시각화 방법 익히기 1. Seaborn특징Matplotlib보다 예쁜 디자인을 기본으로 제공복잡한 통계 그래프도 간단한 코드로 작성 가능데이터 분석에 특화된 시각화 도구 Matplotlib vs Seaborn구분MatplotlibSeaborn성격기본 시각화 라이브러리통계 특화 시각화 라이브러리코드 복잡도상대적으로 복잡간단한 코드로 구현기본 디자인기본적미적으로 세련됨주요 용도기본적인 그래프 작성통계적 데이터 분석확장성높은 커스터마이징제한적 커스터마이징 기본 사용법imp..

Matplotlib을 알아보자.

보기 좋은 떡이 먹기도 좋다.   오늘은 데이터를 시각화하는 방법에 대해 알아보자.  오늘의 배움데이터 시각화가 왜 중요한지 이해하기파이썬의 대표적인 시각화 도구 Matplotlib 알아보기실무에서 자주 사용하는 그래프 종류 파악하기1. 데이터 시각화: Matplotlib데이터 시각화는 데이터를 그래프로 표현하여 데이터의 패턴, 추세, 관계 등을 쉽게 이해할 수 있도록 하는 과정이다. Python에서는 다양한 시각화 라이브러리가 있지만, 그 중에서도 Matplotlib는 가장 널리 사용되는 라이브러리 중 하나이다. 데이터 시각화가 필요한 이유엑셀로 수많은 숫자를 보는 것과 한 눈에 들어오는 그래프를 보는 것은 큰 차이가 있다. 마치 브랜드 디자인에서 복잡한 내용을 심플한 로고로 표현하는 것처럼, 데이터 ..

데이터 전처리를 알아보자.

데이터도 적절하게 다듬고 가공해야 한다.   오늘은 데이터 전처리에 대해 알아보자.  오늘의 배움데이터 변환의 다양한 방법결측값과 이상값 처리하는 방법데이터 정규화의 개념과 활용1. 변수 변환처음에는 '변수 변환'이라는 말이 너무 추상적이었다. 하지만 이렇게 이해해 보았다.데이터 변환은 마치 요리를 할 때 재료를 손질하는 것과 같다. 🤔 디자이너로서 와닿았던 점포토샵으로 작업할 때를 생각해 보면.레이어를 합치는 것 → 파생변수 만들기 여러 이미지의 평균 색상 추출 → 요약변수 만들기 이미지 밝기 기준으로 분류 → 기준점 활용하기  주요 변수 변환 방법파생변수 만들기기존 데이터를 조합해서 새로운 정보를 만든다예고객의 총 구매액 = 상품 가격 × 구매 수량프로젝트 진행률 = (완료 태스크 / 전체 태스크)..

Pandas를 알아보자.

엑셀처럼 표 형태의 데이터를 다루는 파이썬 도구   오늘은 데이터분석 도구, Pandas를 알아보자.  오늘의 배움Pandas의 기본 구조와 원리DataFrame과 Series의 차이점실제 데이터 다루기의 기초 Pandas란?처음에는 '판다스'라고 하길래 귀여운 동물 이름인가 했는데, 'Panel Data'의 줄임말이었다.Pandas는 엑셀처럼 표 형태의 데이터를 다루는 파이썬 도구 내가 이해한 바로는:엑셀의 파워풀한 버전이라고 생각하면 됨대용량 데이터도 빠르게 처리 가능반복 작업을 자동화할 수 있음🤔 디자이너로서 와닿았던 점 -> 포토샵으로 비유하기포토샵의 레이어처럼 데이터를 여러 층으로 쌓고 합칠 수 있음.액션(Action) 기능처럼 반복 작업을 자동화할 수 있음.필터 적용하듯 데이터를 변형하고 가..

데이터 분석 도구 - numpy(2)를 알아보자.

numpy는 간단하면서도 강력하구나. 근데 나한테는 하나도 안 간단한 것 같아...   오늘은 Numpy의 또 다른 연산들을 알아보자.  오늘의 배움NumPy의 기본 배열 연산 방법들통계 기초 개념과 NumPy로의 구현배열의 정렬과 병합 테크닉성능 최적화와 대용량 데이터 처리 방법NumPy 배열 연산의 특징NumPy 배열은 벡터화된 연산으로 매우 빠른 속도를 제공하며, 특히 대규모 데이터 처리에 최적화되어 있다. 제가 이해한 바로는:일반 파이썬 리스트보다 훨씬 빠른 연산 속도메모리 효율적인 데이터 처리다양한 수학적/통계적 함수 제공 1. ndarray 연산기본 산술 연산NumPy는 배열 간의 산술 연산을 지원하며, 이는 벡터화되어 빠르게 수행된다.배열 간 연산은 기본적으로 원소별(element-wise)..

데이터 분석 도구 - numpy(1)를 알아보자.

streamlit 하면서 아주 간단하게만 사용해 본 numpy가 데이터 분석 도구였구나.   오늘은 데이터 분석 도구인 numpy를 알아보자.  오늘의 배움리스트와 데이터 분석 도구의 관계 이해NumPy의 개념과 특징ndarray의 생성과 활용 방법데이터 접근을 위한 다양한 인덱싱 방법1.리스트, 왜 다시 공부하는가?데이터 구조의 기초리스트는 NumPy와 Pandas를 이해하는 기초가 된다:NumPy의 ndarray와의 관계리스트를 확장한 다차원 배열 구조수치 계산에 최적화된 형태Pandas와의 관계Series(1차원)와 DataFrame(2차원)의 기본 구조인덱싱과 슬라이싱 개념이 동일하게 적용2. NumPy 살펴보기NumPy란?Numerical Python의 약자로, 대규모 다차원 배열과 행렬 연산을..

데이터 분석을 알아보자.

데이터 분석은 특별한 다른 걸 사용하려나 싶었으나, python은 계속 된다.   오늘은 드디어 데이터분석에 대해 알아보자.  오늘의 배움데이터의 정의와 종류데이터 과학과 데이터 분석의 차이데이터 분석의 중요성과 활용 분야CRISP-DM 프로세스의 이해1. 데이터란 무엇일까요?모델을 학습시키려면, 다량의/양질의 데이터가 필요하다. 그렇다면, 가장 기본이 되는 '데이터'의 의미부터 알아보자. 데이터는 이론을 세우는 데 기초가 되는 사실 또는 자료이며, 컴퓨터에서는 프로그램이 처리할 수 있는 형태로 변환된 정보를 의미한다.(출처 : Oxford Languages) 2. 데이터의 종류데이터는 크게 두 가지로 나눌 수 있다:정형 데이터엑셀 표처럼 깔끔하게 정리된 데이터데이터베이스나 스프레드시트에 저장비정형 데이..

728x90