[AI SCHOOL 5기] 데이터 분석 실습 - 데이터 시각화

Visualization Libraries Plotly Altair Bokeh (Website Graph) @ https://j.mp/30772sU Data Chart Types Numeric: 숫자 자체에 의미가 있음 (온도 등), 연속형 Categoric: 숫자 너머에 의미가 있음 (성별, 강아지 품종 등), 불연속형 @ https://goo.gl/ErLHCY @ http://j.mp/2JcEENe GeoJSON Data 1 2 3 4 5 6 import json # 한국의 지도 데이터 참조 # @ https://github.com/southkorea/southkorea-maps geo_path = 'skorea_municipalities_geo_simple.json' geo_str = json.load(open(geo_path, encoding='utf-8')) JSON(Javascript Object Notation): 데이터 교환을 위한 표준 포맷 GeoJSON: 지도 데이터 포맷 json....

March 24, 2022 · 4 min · 651 words · minyeamer

[AI SCHOOL 5기] 데이터 분석 실습 - 데이터 탐색

Visualization Library 1 2 3 import seaborn as sns sns.heatmap(gu_df[]) Visualization Issues 한글 데이터 표시 오류 서로 다른 자릿수로 구성된 열에 동일한 스케일 적용 시각화된 테이블 형태의 비직관성 문제 인구수가 고려되지 않은 부정확한 데이터 한글 데이터 시각화 1 2 3 4 5 6 7 8 matplotlib inline # Windows font_name = font_manager.FontProperties(fname="C:/~/malgun.ttf").get_name() rc('font', family=font_name) # Mac rc('font', family='AppleGothic') Feature Scaling/Normalization Min-Max Algorithm 열에 대한 최솟값(min)을 0, 열에 대한 최댓값(max)를 1로 맞춤 기존 열을 old_x, 새로운 열을 new_x라 할 때,...

March 23, 2022 · 2 min · 268 words · minyeamer

[AI SCHOOL 5기] 데이터 분석 실습 - 데이터 분석

Practice Data 서울시 범죄현황 통계자료 범죄별로 검거율 계산 1 2 3 4 5 6 7 # gu_df는 실습 자료에 서울시 경찰청의 소속 구 데이터를 추가한 DataFrame gu_df['강간검거율'] = gu_df['강간(검거)']/gu_df['강간(발생)']*100 gu_df['강도검거율'] = gu_df['강도(검거)']/gu_df['강도(발생)']*100 gu_df['살인검거율'] = gu_df['살인(검거)']/gu_df['살인(발생)']*100 gu_df['절도검거율'] = gu_df['절도(검거)']/gu_df['절도(발생)']*100 gu_df['폭력검거율'] = gu_df['폭력(검거)']/gu_df['폭력(발생)']*100 gu_df['검거율'] = gu_df['소계(검거)']/gu_df['소계(발생)']*100 해당 계산법의 문제: 이전 연도에 발생한 사건이 많이 검거될 경우 검거율이 100%를 초과 발생 건수가 0인 경우 검거율에 결측치(N/A)가 발생 초과된 검거율을 최댓값으로 조정: 1 2 # 검거율에 해당되는 열의 집합 columns columns = ['강간검거율', '강도검거율', '살인검거율', '절도검거율', '폭력검거율'] 모든 행에 대해 반복문 실행 1 2 3 4 for row_index, row in gu_df_rate....

March 23, 2022 · 2 min · 289 words · minyeamer

[AI SCHOOL 5기] 데이터 분석

Data Types Structured Data Relational Database Spread Sheets Semi-structured Data System Logs Sensor Data HTML Unstructured Data Image / Video Sound Document Data Collection Tools Logstash: 로그 데이터 (SQL 구조화) Elasticsearch: 데이터가 자유로움 Kibana: 그래프 자동화 Elastic Stack, Zepplin API Meanings 웹 상에서의 API 라이브러리/프로그램 도구 (텐서플로우에서의 함수 등) Open API 공익적인 목적 서비스 활성화 목적 (서드파티 앱 지원) SNS에서 무분별한 크롤링으로 인한 서버 과부하 대비 Missing Data Handling 랜덤하게 채워넣기 주변 (행의) 값들로 채워넣기 열의 대푯값을 계싼해서 채워넣기 (mea, median) 전체 행들을 그룹으로 묶어낸 후 그룹 내 해당 열의 값을 예측해 채워넣기 나머지 열들로 머신러닝 예측모델을 만든 후 해당 열의 값을 예측해 채워넣기 특정 기준 비율 이상으로 빠져있을 시 해당 열 삭제 Pandas Functions Referring df = pd....

March 23, 2022 · 2 min · 265 words · minyeamer