[AI SCHOOL 5기] 데이터 분석
Data Types Structured Data Relational Database Spread Sheets Semi-structured Data System Logs Sensor Data HTML Unstructured Data Image / Video Sound Document Data Collection Tools Logstash: 로그 데이터 (SQL 구조화) Elasticsearch: 데이터가 자유로움 Kibana: 그래프 자동화 Elastic Stack, Zepplin API Meanings 웹 상에서의 API 라이브러리/프로그램 도구 (텐서플로우에서의 함수 등) Open API 공익적인 목적 서비스 활성화 목적 (서드파티 앱 지원) SNS에서 무분별한 크롤링으로 인한 서버 과부하 대비 Missing Data Handling 랜덤하게 채워넣기 주변 (행의) 값들로 채워넣기 열의 대푯값을 계싼해서 채워넣기 (mea, median) 전체 행들을 그룹으로 묶어낸 후 그룹 내 해당 열의 값을 예측해 채워넣기 나머지 열들로 머신러닝 예측모델을 만든 후 해당 열의 값을 예측해 채워넣기 특정 기준 비율 이상으로 빠져있을 시 해당 열 삭제 Pandas Functions Referring df = pd....