[KT 에이블스쿨] numpy, pandas

Tags more

Archives

관리 메뉴

저고데

KT 에이블스쿨

진철 2024. 3. 21. 21:14

728x90

Python에서 데이터 분석을 진행할 때 필수적으로 사용되는 두 모듈, Numpy와 Pandas에 대해 알아보자.

이 두 모듈은 데이터 과학자와 분석가들에게 매우 중요한 도구이며, Python 코드 내에서 다음과 같이 간단하게 import하여 사용할 수 있다.

python import numpy as np
import pandas as pd

`as` 명령어는 모듈을 호출할 때 사용할 이름(별칭)을 지정한다.

이를 통해 코드 내에서 모듈의 원래 이름 대신 지정한 별칭을 사용하여 모듈의 기능에 접근할 수 있다.

Numpy

Numpy는 주로 수치 데이터를 다루는 데 최적화된 모듈로, 다차원 배열을 효율적으로 처리할 수 있는 다양한 기능을 제공한다.

배열은 Numpy의 핵심 기능 중 하나로, 데이터의 집합을 표현하는 데 사용된다.

배열에서 `axis`는 데이터의 차원을 나타내며, `shape`는 배열의 구조(각 차원의 크기)를 나타낸다.

또한, `ndim`은 배열의 차원을, `dtype`은 배열에 저장된 데이터의 타입을 확인할 수 있는 속성이다.

배열의 구조를 변경하기 위해서는 `reshape` 명령어를 사용할 수 있다.

단, 변경하려는 구조가 원래 배열의 총 요소 개수와 일치해야 한다. (행렬과 유사하다고 보면 편하다)

배열을 인덱싱하고 슬라이싱하여 원하는 데이터를 추출하는 것도 가능하며, 특정 조건에 따라 배열에서 데이터를 선택하는 것도 매우 간단하다.

배열 간의 연산은 요소별로 수행되며, 집계 함수를 사용하여 배열의 데이터를 요약할 수 있다. `where` 명령어를 사용하면 특정 조건에 따라 다른 값을 반환하는 배열을 생성할 수 있다. (SQL에서와 유사하다.)

Pandas

Pandas는 주로 데이터프레임을 다루기 위해 사용된다

데이터프레임은 행과 열로 이루어진 데이터 구조로, 각 열은 서로 다른 데이터 타입을 가질 수 있다는 점에서 엑셀 스프레드시트와 유사하다.

데이터프레임을 생성하는 가장 일반적인 방법 중 하나는 CSV나 엑셀 파일을 읽어오는 것이다.

데이터프레임을 사용하면 데이터를 쉽게 정렬하고, 고윳값의 개수를 파악하며, 특정 조건에 맞는 데이터를 선택할 수 있다.

또한, 데이터프레임의 특정 열에서 최댓값을 찾는 것과 같은 간단한 데이터 분석 작업도 가능하다.

원하는 열만 선택하거나, `loc` 메소드를 사용하여 특정 조건에 맞는 데이터만 선택하는 것도 가능하다.

데이터를 그룹화하고 집계하는 작업은 `groupby` 메소드를 사용하여 쉽게 수행할 수 있으며, 여러 집계 함수를 동시에 사용하고 싶을 때는 `agg` 메소드를 활용할 수 있다.

이처럼 Numpy와 Pandas는 Python에서 데이터를 효율적으로 다루기 위한 강력한 도구이며, 데이터 분석과 머신러닝 프로젝트에 꼭 필요한 기술이다.

728x90

[KT 에이블스쿨] AI 개발자 5기 합격 후기 및 꿀팁 (7)	2024.01.24

'KT 에이블스쿨' Related Articles