Tag

Project

Posts collected under Project.

2023. 3. 2.Project

제1회 지역치안데이터분석경진대회 공모전 후기

23년도 첫 공모전이자 대학원 입학 전 마지막 공모전으로 경찰대학 치안정책연구소 등에서 주관한 치안 데이터 기반의 공모전 지역치안데이터분석경진대회에 참가하게 되었다. 평소 도메인 지식이 치안이나 교통쪽에 한정되어 있기도 하고, 결국 안전한 사회를 위해 데이터를 활용하고 싶다는 내 평소 가치관과 부합하기 때문에 참가하지 않을 이유가 없었다. 우리 팀은 주어진 신고데이터를 활용해 보이스피싱...

2022. 8. 29.Project

서울 IOT 공공도시데이터 활용 해커톤 후기

서울 IOT 공공도시데이터 활용 해커톤 후기 일정 통계학과 코딩 공부를 시작하고 나서 실력을 검증받고, 또 경험을 쌓고자 꾸준히 참여할 공모전이나 프로젝트를 알아보던 중에 위 대회를 알게 되었다. 평소 스마트시티와 관련된 비전을 갖고있던 나에게는 도시데이터 활용이라는 점이 매우 매력적으로 다가왔고, 현재 직업의 특성을 살려보고자 교통안전을 필두로 한 주제로 대학 동기들과 함께 참여해보기...

2022. 6. 15.Project

따릉이 데이터 분석하기 (7) - AutoML

따릉이 데이터 분석하기 (7) - AutoML 이번 게시글을 끝으로 데이콘의 따릉이 데이터 분석 관련 포스팅을 마치고자 한다. 마지막 내용은 AutoML을 다룰 것인데, AutoML이란 이전에 살펴본 여러 종류의 모델들을 선택하고, hyperparameter들을 최적화하는 일련의 모든 과정들을 자동화하는 방법을 총칭하는 단어이다. 사실 최근 비즈니스 실무 영역에서는 AutoML이 대세로...

2022. 5. 12.Project

따릉이 데이터 분석하기 (6) Support Vector Machine

따릉이 데이터 분석하기 (6) Support Vector Machine 이번 글에서는 대표적인 머신러닝 모델인 SVM(Support Vector Machine)을 이용해 따릉이 이용 데이터의 분석을 진행해보도록 하자. 본래 SVM은 classification의 목적을 위해 고안된 기법으로, 데이터들의 레이블을 분류하는 기준이 되는 초평면을 찾아내는 과정이다. 그런데 이 과정의 아이디어를...

2022. 4. 12.Project

따릉이 데이터 분석하기 (5) Tree

따릉이 데이터 분석하기 (5) Tree 이번에는 Tree 관련 모델들로 주어진 데이터셋을 훈련시켜보고 이를 검증해보도록 하자. 저번 Transformation 데이터 분석 과정과 마찬가지로 scikit-learn의 Pipeline을 이용해 데이터 전처리부터 모델링까지의 파이프라인을 구성해보도록 하겠다. Data Load와 Preprocessing 관련 코드 및 자세한 설명은 시리즈의 이...

2022. 4. 11.Project

따릉이 데이터 분석하기 (3) Modified Linear Methods

따릉이 데이터 분석하기 (3) Modified Linear Methods 이번 글에서는 Linear regression을 계속 다룰 것인데, 그중에서도 regularization method나 spline regression과 같은 변형된 방법들을 다루어보고자 한다(역시 Regression 문제가 Linear Model로 다루기 최적인듯 하다🤣). 우선 Lasso, Ridge 등을 포...

Read note
2022. 4. 11.Project

따릉이 데이터 분석하기 (4) Transformation

따릉이 데이터 분석하기 (4) Transformation 이번에는 PCA를 비롯해 예측변수의 데이터셋을 변환시키는 transformation 여러 가지 방법들에 대해 다루어보도록 하겠다. 대표적으로 PCA는 기본적인 회귀문제에 응용되어 PCR로 사용되거나, 고차원 문제의 차원 축소 기법으로 필수적인 역할을 한다. 여기서는 우선 PCA를 진행하고, 이 결과를 바탕으로 PCR을 진행하여 이...

2022. 4. 9.Project

따릉이 데이터 분석하기 (2) Linear Regression

따릉이 데이터 분석하기 (2) Linear Regression 먼저, 앞서 살펴본 따릉이 데이터셋을 이용해 가장 간단한 Linear Regression Model을 구현해보도록 하자. Python에는 statsmodels라는 패키지가 있는데, 이는 R에서 사용하는 형태로 통계분석을 가능하게 해주는 패키지이다(공식 문서 참고). 이를 이용해 선형모형을 만들고, 이를 개선시켜나가는 방법을...

Read note
2022. 4. 8.Project

따릉이 데이터 분석하기 (1) EDA

따릉이 데이터 분석하기 (1) EDA 이번 시리즈는 공공데이터인 서울시 공유자전거 따릉이의 데이터를 이용한 small project를 진행해보고자 한다. 데이터를 비롯한 프로젝트의 내용은 데이콘의 내용을 바탕으로 진행했으며, 원래 주제는 데이터를 바탕으로 한 AI 모델을 개발하는 것이다. 하지만 여기서는 AI모델을 개발하기 전에, 회귀문제로 얼마나 높은 성능까지 끌어올릴 수 있는지를 먼...