IT/가짜연구소 스터디 5

[DA] 4-4. Importing JSON Data and Working with APIs

해당 내용은 Datacamp의 Data engineering track을 정리했습니다. 4. Streamlined Data Ingestion with pandas의 chapter 1에 대한 내용입니다. 1. Introduction to JSON Javascript Object Notation 의 약어로 웹을 통해 데이터를 전송하는 일반적인 형식입니다. 테이블이 아니기에 더 효율적으로 데이터를 저장할 수 있습니다. python의 dict 형식과 같이 key-value 형태 즉 attribute-value 쌍을 가지고 있습니다. JSON은 중첩될 수 있습니다. pandas에서는 read_json()를 사용해서 불러올 수 있습니다. orient argument를 줘서 특수한 경우의 json 파일들도 불러올 수..

[DA] 4-3. Importing Data from Databases

해당 내용은 Datacamp의 Data engineering track을 정리했습니다. 4. Streamlined Data Ingestion with pandas의 chapter 1에 대한 내용입니다. 1. Introduction to databases 관계형 데이터베이스는 테이블(table)들에 행(rows)와 열(columns)로 이루어져 있습니다. 행들에 각 실제 값들이 들어가게 되고, column에 그 속성이 들어가게 됩니다. 관계형 데이터베이스는 고유한 식별자(unique keys)를 통해 테이블을 연결하거나 관리할 수 있다는 점에서 다른 종류의 데이터들 데이터프레임, excel 등과 다릅니다. 데이터베이스에서 데이터를 읽는 것은 2단계 프로세스를 거칩니다. database에 연결(connect..

[DA]4-2. Importing Data From Excel Files

해당 내용은 Datacamp의 Data engineering track을 정리했습니다. 4. Streamlined Data Ingestion with pandas의 chapter 2에 대한 내용입니다. # 1. Introduction to spreadsheets 마이크로소프트의 Excel 프로그램은 아주 잘 알려진 소프트웨어이고, Excel file은 데이터를 다룰때 흔히 볼 수 있는 양식입니다. 판다스에서는 pd.read_excel() 함수를 통해 Excel형식의 파일을 읽어 올 수 있습니다. read_excel 또한 read_csv()와 같이 많은 argument들을 공유합니다. - nrows : 불러올 행의 숫자를 제한합니다. - skiprows : 행을 건너띄고 불러옵니다. - usecols : ..

[DA] 4-1. Importing Data from Flat Files

해당 내용은 Datacamp의 Data engineering track을 정리했습니다. 4. Streamlined Data Ingestion with pandas의 chapter 1에 대한 내용입니다. # 1. Introduction to flat files 이 과정에서는 데이터를 수집하는 것에 초점을 두고 수업이 진행될 것입니다. 특히 Pandas를 이용해서 데이터를 쉽게 로드하고 조작 할 수 있습니다. pandas의 핵심은 데이터 프레임 입니다. 데이터 프레임은 행(Index) 열(Column)로 이루어진 2차원 데이터 구조입니다. - Flat Files 플랫 파일은 단순하고 데이터를 저장하고 공유하는데 널리 사용된 포멧입니다. 일반적으로 CSV파일로 이루어지며 ,로 구분되어집니다. pandas 에서..

[DA] 3-4. Case Study: DataCamp

해당 내용은 Datacamp의 Data engineering track을 정리했습니다. 3. Introduction to data engineering의 chapter 4에 대한 내용입니다. # 1. Course ratings DataCamp의 학생은 한 장을 완료한 후 평가할 수 있습니다. 이 챕터 등급을 집계하여 사람들이 특정 코스를 어떻게 평가하는지 추정할 수 있습니다. 이러한 종류의 등급 데이터는 추천 시스템에서 사용하기에 적합합니다. 추천시스템에 평가 데이터를 사용하기 위해서는, 저장된 평가 데이터들을 추출(Extract)하고, 변환(Transform)한후, 데이터 베이스에 저장(Load)하는 일련의 과정이 필요합니다. 이 챕터에서는 Course와 Rating 두 개의 테이블을 이용할 것입니다...