일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 아웃룩
- Excel
- html
- Outlook
- 파이썬GUI
- win32com
- windows
- 문자열
- python
- office
- 깃
- git
- 오피스
- Windows10
- 엑셀
- pyqt5
- pythongui
- python3
- Android
- 파이썬
- 윈도우10
- 비주얼베이직
- 파이썬3
- 안드로이드
- VBA
- Windows11
- pandas
- matlab
- 파워포인트
- 윈도우11
Archives
Appia의 IT세상
파이썬[Python] Pandas, DataFrame의 행(Row)기반의 중복된 데이터 삭제하기 본문
Python/Python Pandas
파이썬[Python] Pandas, DataFrame의 행(Row)기반의 중복된 데이터 삭제하기
Appia 2020. 11. 13. 07:13반응형
파이썬[Python] Pandas, DataFrame의 행(Row)기반의 중복된 데이터 삭제하기
이전 포스팅에서는 중복된 데이터를 출력해주는 부분에 대해서 포스팅을 해봤습니다. 이번 포스팅에서는 앞선 포스팅과 연계하여, 중복된 부분에 대해서 삭제하는 방법에 대해서 이야기를 해보고자 합니다.
먼저 다음과 같은 함수를 이용하시면 중복된 부분에 대해서 삭제할 수 있습니다.
dataframe.drop_duplicates(subset ,keep inplace = True) |
위의 옵션의 파라미터 조건중 keep의 경우 3가지로 입력할 수 있습니다.
keep parameter |
parameter설명 |
False |
중복된 부분에 대해 모두 삭제 |
'first' |
첫번째 항목 유지 |
'last' |
마지막 항목 유지 |
위의 부분을 토대로 코드를 작성해보도록 하겠습니다.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
|
import pandas as pd
# Series 생성
ds = {'Name': pd.Series(['Choi', 'Kim', 'Lee', 'Park','Choi']),
'Age': pd.Series([25, 26, 25, 23, 25]),
'Rating': pd.Series([2.56, 3.20, 4.6, 3.8,2.56])}
# DataFrame 생성
df = pd.DataFrame(ds)
print(df) # 출력 DataFrame
df.drop_duplicates(subset ='Name',keep = False, inplace = True)
print(df)
|
cs |
위의 코드를 실행하면 다음과 같은 결과가 나타납니다.
1
2
3
4
5
6
7
8
9
10
|
Name Age Rating
0 Choi 25 2.56
1 Kim 26 3.20
2 Lee 25 4.60
3 Park 23 3.80
4 Choi 25 2.56
Name Age Rating
1 Kim 26 3.2
2 Lee 25 4.6
3 Park 23 3.8
|
cs |
만약 Keep 부분을 다음과 같이 'first'로 변경하였다면 다음과 같은 결과가 나타납니다.
1
2
3
4
5
6
7
8
9
10
11
|
Name Age Rating
0 Choi 25 2.56
1 Kim 26 3.20
2 Lee 25 4.60
3 Park 23 3.80
4 Choi 25 2.56
Name Age Rating
0 Choi 25 2.56
1 Kim 26 3.20
2 Lee 25 4.60
3 Park 23 3.80
|
cs |
파이썬[Python] Pandas, DataFrame의 행(Row)기반의 중복된 데이터 찾기, 선택한 열(Column)기반 중복데이터 찾기
이번 포스팅에서는 간단하게 중복된 데이터프레임(DataFrame)에 대해서 삭제하는 방법에 대해서 간단히 살펴봤습니다. 생각보다 많이 필요로 하고 도움이 되는 부분입니다. 혹 궁금하신점이나 문의 사항이 있으시면 언제든지 댓글 및 방명록에 글 남겨주시길 바랍니다. 감사합니다.
반응형
'Python > Python Pandas' 카테고리의 다른 글
파이썬[Python] Pandas, DataFrame의 Row/Column의 Index을 통해서 특정 위치의 값 출력하기 (0) | 2021.06.05 |
---|---|
파이썬[Python] Pandas, DataFrame / Series의 맴버의 값이 존재하는지 확인하는 방법 (0) | 2021.06.03 |
파이썬[Python] Pandas, DataFrame의 행(Row)기반의 중복된 데이터 찾기, 선택한 열(Column)기반 중복데이터 찾기 (0) | 2020.11.08 |
파이썬[Python] Pandas, CSV파일 불려오기, 내보내기 (1) | 2020.04.24 |
파이썬[Python] Pandas, DataFrame의 날짜를 이용한 Index(Label)만들기 (0) | 2020.04.06 |
Comments