데이터 분석에 가장 많이 쓰이는 파이썬 라이브러리입니다.
pandas는 데이터를 리스트나 배열의 형태로 변환하여 사용합니다.
판다스에서는 1차원 배열인 Series와 다차원 배열 DataFrame이라는 객체를 생성해 사용합니다.
Series생성
판다스의 기본형은
Pandas.Series(data = None, index = None, dtype = None, name = None, copy = False, fastpath = False)
판다스라는 객체에 Series라는 메소드를 사용합니다.
메소드 Series에 있는 인자들은 보통 기본적으로 Default값인 상태로 사용하거나 data나 인덱스들만
수정해 사용합니다.
판다스의 Series메소드를 통해
인덱스가 0번 째부터 시작해서 10번 째로 끝나는 1차원 배열이 만들어졌습니다.
인자들에게 특정한 값을 넣은 것이 아니기 때문에 Default로 수행되었습니다.
0~4 인덱스는 숫자를 넣었고 5~10 인덱스는 문자가 출력 되도록 ''을 붙였습니다.
Series의 인덱스 설정
#두개의 리스트로 인덱스를 설정
입력
#index 인수를 이용한 인덱스 설정
제일 처음 소개한 Series의 인덱스는 0부터 10까지 있었지만, a~k까지로 대체 되었고,
데이터 순서에 맞게 인덱스가 배치되었습니다.
위 두개의 설정을 사용할 때에 유의할 점은 데이터의 개수에 맞게 인덱스 또한 동일한 개수로 넣어줘야합니다.
#Series에 딕셔너리로 인덱스 설정
-중복된 키 사용X
-중복된 키 사용 O
key와 value를 사용하는 딕셔너리로 인덱스를 설정할 수 있습니다.
다만 중복되는 key가 존재 할 경우, 중복된 key중에서 가장 오른쪽에 있는 C의 Value값으로 대체된 것을 출력문에서 볼 수 있습니다.
DataFrame의 기본 형
pandas.DataFrame(data = None, index: Optional[Colection] = None, columns : Optional[Colection] =None,
dtype: Union[str, numpy, dtype, ExtensionDtype, None] = None, copy:bool =false)
앞서 Series의 기본형에서 말한것 처럼 DataFrame에서 주로 사용되는 인자들은 data와 index입니다.
데이터 프레임은 2차원 배열로 이루어져 있으며, 가장 왼쪽에 적혀있는 [1, 2, 3]은 인덱스이며
[A, B, C]는 열 이름입니다
#딕셔너리로 데이터 프레임 생성
딕셔너리의 Key를 열의 이름으로 value를 column의 원소로 나타낼 수 있습니다.
이번에는 딕셔너리가 아닌 리스트 사용하여 한 행이나 열로 지정해주는 방법을 소개하겠습니다.
리스트 a는 인덱스가 0인 행으로 배치되었고, 리스트 b는 인덱스가 1인 행에 배치되었습니다.
각 리스트를 열로 취급하려면 zip으로 리스트를 묶습니다.
이번에는 행이 아닌 리스트 a,b가 0과 1인 column에 데이터들이 담기게 됩니다.
인덱스와 열의 이름을 바꾸려면
index의 인자와 columns의 인자를 위 그림의 경우처럼 지정하시면 됩니다.
'머신러닝' 카테고리의 다른 글
판다스 데이터 삭제, 추가, 삽입 (0) | 2022.05.21 |
---|---|
판다스 데이터 선택 (0) | 2022.05.18 |
판다스 set_index()와 reset_index() 메소드 (0) | 2022.05.18 |