데이터 분석 엔지니어잡학세상 2022. 8. 5. 13:55
데이터 분석을 하기 위해서는 가장 기본적으로 데이터 전처리를 진행해야합니다. 해당 포스팅은 Hands-Hands-On Machine Learning 책과 코세라 강의 중 How to Win a Data Science Competition: Learn from Top Kagglers를 공부하며 정리하고 데이터 분석을 진행하는 과정을 포함하고 있습니다. 이 포스팅은 캐글 Titanic 생존 예측 분석 데이터를 예시로 진행해볼 예정입니다. 데이터 전처리 과정은 아래와 같이 간단하게 요약할 수 있습니다. 이번 글에서는 Data Clearning, 불필요한 데이터 제거 또는 누락된 데이터를처리하는 방법에 대해서 알아보겠습니다. Data Cleaning : 불필요한 데이터 제거 및 누락된 데이터 처리 Data Ha..
더 읽기
직장생활 노하우/엑셀사용 노하우 엔지니어잡학세상 2022. 7. 15. 01:41
엑셀에는 피벗테이블이라는 기능이 있습니다. 사실 데이터를 가공하거나 분석할 때 지원되는 엑셀의 다양한 기능이 있지만 피벗테이블만 잘 알아도 한번에 모든 것을 해결 할 수 있죠. 한눈에 볼 수 있는 단순한 데이터라면 피벗테이블을 사용하지 않고 정리가 가능하지만 많은 데이터를 정리해서 가공하기 위해서 피벗테이블은 매우 효율적으로 사용가능한 기능 중 하나입니다. 엑셀 피벗테이블이 할 수 있는 기능 엑셀을 사용해서 데이터를 다루는 일의 가장 큰 이유는 원하는 데이터를 추출하는 것입니다. 즉 원본 데이터를 가공한 데이터를 얻어 내는 것이죠. 피벗테이블은 데이터의 원본만 있으면 쉽게 가공하여 원하는 데이터를 얻을 수 있게 하는 강력한 기능입니다. 주요 기능으로는 1)데이터 그룹화, 2)데이터 정렬과 필터, 3)데이..
데이터 분석 엔지니어잡학세상 2022. 5. 26. 21:38
머신러닝이란? 머신러닝(Machine learning)이란 말 그대로 "기계학습"입니다. 인간이 직접 가르치는 기계를 의미하는 것이 아닌, 무언가를 스스로 학습하는 기계를 의미합니다. 기계를 학습한다는 것은 사람이 하는 일들을 학습시켜 특정 작업을 아주 빠른 속도로 수행하기 위함입니다. 위키피디아에서 정의한 머신러닝은 컴퓨터가 외부에서 만들어진 방대한 빅데이터를 바탕으로 스스로 학습하는 알고리즘이라고 볼 수 있습니다. 위 예처럼 수신한 이메일이 스팸인지 아닌지 구분하도록 훈련하는 알고리즘을 개발하여 지속적으로 데이터를 입력 한 다음 학습하도록 하여 특정 이메일의 스팸 여부를 구분해 낼 수 있습니다. 또한 머신러닝은 데이터 안에서 규칙을 발견하고 그 규칙을 새로운 데이터에 적용해서 새로운 결과를 도출할 수..
IT 잡학세상 엔지니어잡학세상 2022. 5. 25. 20:53
일반인도 쉽게 빅데이터 분석 서비스를 접근할 수 있고 특히 네이버 등 여러 사이트에서 검색을 하기 때문에 검색어 순위도 하나의 트렌드 지표가 될 수 있습니다. 이와 같은 유명 사이트에서 일반인들에게 빅 데이터를 활용한 정보를 제공하고 있습니다. 최근 트렌드를 알기 위해 키워드를 검색할 때 주로 사용하는 방법입니다. 오늘은 일반인들이 쉽게 사용할 수 있도록 빅데이터 분석 서비스를 제공하는 사이트에 대해 소개하겠습니다. NAVER DataLab 바로가기 : https://datalab.naver.com/ 우리나라에서 아직까지 많이 사용하고 있는 포털사이트는 네이버입니다. 네이버는 초창기부터 실시간 검색어라는 서비스를 사용하여 실시간으로 트렌드를 나타냈습니다. 그 실시간 검색어를 모아서 보여주는 곳이 바로 네..