python groupby 예제

매개 변수 : 매핑, 기능, str 또는 거림 가능한 축 : int, 기본 0 수준 : 축이 MultiIndex (계층적)인 경우 특정 수준 또는 수준별로 그룹화됨 : 집계 된 출력의 경우 그룹 레이블을 인덱스로 반환합니다. 데이터 프레임 입력에 만 해당됩니다. as_index=False는 효과적으로 „SQL 스타일“ 그룹화 된 출력 정렬 : 정렬 그룹 키입니다. 이 것을 해제하여 더 나은 성능을 얻을 수 있습니다. 이는 각 그룹 내의 관측값 순서에 영향을 미치지 않습니다. 은 그룹비로 각 그룹 내의 행 순서를 유지합니다. group_keys : apply를 호출 할 때, 조각 짜기를 식별하기 위해 인덱싱에 그룹 키를 추가 : 가능하면 반환 형식의 차원을 줄이고, 그렇지 않으면 일관된 형식의 파이썬을 반환하면 소수민족이 포함되어있는 경우 숫자가 float임을 유추합니다. 구문: DataFrame.groupby (by=없음, 축 =0, 레벨=없음, as_index=True, 정렬=True, group_keys=True, 스퀴즈=False, **kwargs) .groupby() 함수를 사용하면 .groupby() 함수를 사용하여 레코드를 캐리어, 출발지 및 대상과 같은 범주별 값으로 버킷으로 그룹화할 수 있습니다. 이 데이터 집합을 설정합니다. 변환: 일부 그룹별 계산을 수행하고 같은 인덱싱된 개체를 반환합니다.

몇 가지 예: 가장 간단한 예제부터 시작합니다. 하나의 열로 그룹화합니다. 아래 의 팬더 그룹 비 예제에서 우리는 열 „순위“로 그룹화하려고합니다. 필터링 작업을 사용하면 그룹 속성에 따라 데이터를 삭제할 수 있습니다. 예를 들어 표준 편차가 일부 임계 값보다 큰 모든 그룹을 유지할 수 있습니다. 이 파이썬 단원에서는 일부 Python 클래스 매직을 통해 GroupBy 개체가 명시적으로 구현하지 않은 메서드가 DataFrame 또는 시리즈 개체인지 여부에 관계없이 그룹에 전달되고 호출됩니다. 예를 들어 DataFrames의 describe() 메서드를 사용하여 데이터의 각 그룹을 설명하는 집계 집합을 수행할 수 있습니다. 이 인덱스를 설정하지 않으려면 그룹비 작업에 „as_index=False“를 전달합니다. 즉, 예제로 돌아가봅시다.

위와 같은 코드를 실행하면 (그룹별로 고유 값 계산) 누락 된 값을 계산하지 않는 것을 볼 수 있습니다 : 이제 각 순위 및 분야의 남성과 여성의 비율을 계속 계산할 수 있습니다. 이 및 다음, 팬더 groupby 예제우리는 람다 함수와 함께 apply 메서드를 사용 하려고 합니다. 팬더의 groupby 기능은 공식 문서에 잘 문서화되어 있으며 R의 data.table 및 dplyr 라이브러리와 함께 (대규모 데이터가 있고 밀리 초가 까다롭지 않은 경우) 파의 속도로 수행됩니다. 열에서 여러 통계가 계산되면 결과 데이터 프레임에는 열 축에 다중 인덱스가 설정됩니다. 이 작업은 작업하기 어려울 수 있으며 일반적으로 groupby 작업 후 열의 이름을 바꿉니다. 물론 이는 이전버전부터 df.groupby(`key`)를 수행하는 또 다른 자세한 방법이 있음을 의미합니다 #2.