Python Library/Pandas (7) 썸네일형 리스트형 7. 데이터 입출력 CSV 파일 입출력 입력 : read_csv() 출력 : to_csv() Excel 파일 입출력 입력 : read_excel() 출력 : to_excel() HTML 읽어오기 read_html() https://datascienceschool.net/view-notebook/c5ccddd6716042ee8be3e5436081778b/ Data Science School Data Science School is an open space! datascienceschool.net https://github.com/Se-Hun/MachineLearningStudy/blob/master/Python%20for%20Data%20Science%20and%20Machine%20Learning%20Bootcamp/03-.. 6. DataFrame Buil-in 함수 및 속성들 head() head() 함수는 다음과 같이 앞에서 5개의 행만을 보여준다. unique(), nunique(), value_counts() DataFrame의 조건 연산 apply()를 통해 함수 적용하기 DataFrame의 속성값들 : columns, index sort_values()를 통해 정렬하기 isnull()을 통해 null값 거르기 dropna(), fillna()를 통해 NaN값 처리하기 Pivot Table https://github.com/Se-Hun/MachineLearningStudy/blob/master/Python%20for%20Data%20Science%20and%20Machine%20Learning%20Bootcamp/03-Python-for-Data-Analysis-Pan.. 5. DataFrame 병합하기 merge()를 이용한 병합 merge 명령은 두 데이터 프레임의 공통 열 혹은 인덱스를 기준으로 두 개의 테이블을 합친다. 이 때 기준이 되는 열, 행의 데이터를 키(key)라고 한다. 우선, 다음과 같은 DataFrame이 있다고 하자. 다음과 같이 on 파라미터에는 기준이 되는 열을, how 파라미터에는 방식을 넣으면 병합시킬 수 있다. 이 때, how 파라미터에 들어가는 inner 방식은 양쪽에 키가 모두 존재해야만 병합시켜주는 방식이다.(default 값은 inner방식임) 반대로 outer 방식은 한쪽에 키가 존재해도 병합시켜주는 방식이다. how 파라미터에는 outer방식과 inner방식 외에도 left방식과 right방식이 올 수 있다. left는 왼쪽 데이터 프레임의 키 값을 모두 반환해.. 4. Groupby Pandas에서의 grouupby 명령 Pandas에서는 분석하고자 하는 시리즈나 데이터프레임에 groupby메소드를 호출하여 그룹화를 한다. 그 후에, 그룹 객체에 대한 그룹 연산을 수행한다. 이러한 방법을 통해 대표값 등을 쉽게 구할 수 있다. Groupby를 이용하여 다양한 대표값 구해보기 우선, 다음과 같은 DataFrame이 있다고 하자. 다음으로 아래의 코드처럼 Company 열에 대해 groupby()를 통하여 그룹화시키자. (1) 만든 그룹에 대한 평균값 구하기 (2) 표준 편차 구하기 (3) 최대 최소값 구하기 (4) 데이터의 갯수 구하기 (5) describe()를 이용하여 여러 대표값 구하기 (6) transpose()를 이용하여 Row와 Column 바꾸기 https://datasc.. 3. Pandas를 이용하여 NaN값 전처리하기 데이터 전처리의 기본 : Missing Data 처리 데이터 전처리를 하는 과정은 상당히 힘든 일이다. pandas에서는 잘못된 데이터 처리를 위한 여러가지 도구를 제공한다. dropna() DataFrame 객체에 내장되어 있는 dropna() 함수를 사용하면 NaN 값을 없애버릴 수 있다. fillna() DataFrame에 내장되어 있는 fillna()를 이용하면 NaN 값을 다른 값으로 대체할 수 있다. 보통 전처리 단계에서 이 함수를 이용하여 NaN 값을 해당 Column이나 Row의 대표값으로 대체한다. https://github.com/Se-Hun/MachineLearningStudy/blob/master/Python%20for%20Data%20Science%20and%20Machine%20.. 2. DataFrame DataFrame이란? 시리즈가 1차원 벡터 데이터에 행방향 인덱스(row index)를 붙인 것이라면 데이터프레임 클래스는 2차원 행렬 데이터에 인덱스를 붙인 것과 비슷하다. 2차원이므로 각각의 행 데이터의 이름이 되는 행방향 인덱스(row index) 뿐 아니라 각각의 열 데이터의 이름이 되는 열방향 인덱스(column index)도 붙일 수 있다. 앞에서 데이터프레임은 2차원 배열 데이터를 기반으로 한다고 했지만 사실은 데이터 프레임은 사실상 공통 인덱스를 가지는 열 시리즈(Column Series)를 딕셔너리로 묶어놓은 것이다. 2차원 배열 데이터는 모든 원소가 같은 자료형을 가져야 하지만 데이터프레임은 각 열(column)마다 자료형이 다를 수 있기 때문이다. 아래 예제에서도 지역과 인구와 증가.. 1. Series Series란? 시리즈 클래스는 NumPy에서 제공하는 1차원 배열과 비슷하지만 각 데이터의 의미를 표시하는 인덱스(index)를 붙일 수 있다. 데이터 자체는 값(value)라고 한다. Series에서는 index를 통해 값에 접근할 수 있다. Series 생성하기 우선, 다음과 같은 객체들을 선언하자. (1) Python List를 이용하여 Series 만들기 (2) Numpy Array를 이용하여 Series 만들기 (3) Dictionary를 이용하여 Series 만들기 (4) Series의 value로 함수 넣기 Series의 value에 접근하는 방법 Series의 value 값에 접근하기 위해서는 반드시 index를 통해서만 접근이 가능하다. 어떻게 보면 python의 Dictionary를 .. 이전 1 다음