QA ≠ Test

QA(품질 보증)는 개념적인 용어이고, TEST는 QA(품질 보증)를 하기 위한 수단이자 방법이다.

TESTING/PROGREMING

[데이터 사이언스 코딩] 어떻게 무엇을 왜 해야 할까요?

품생품사(品生品死) 2021. 7. 14. 23:42
반응형

데이터 사이언스를 하기 위해서는 무엇부터 어떻게 해야 할까요?

데이터 사이언스를 시작하기 위해 어떠한 절차로 시작을 해야할지 알아 보도록 하겠습니다. 그리고 각 단계별 무엇을 준비하고, 해야할지도 함께 알아보도록 하겠습니다.

  1. 문제 정의하기
  2. 데이터 모으기
  3. 데이터 다듬기
  4. 데이터 분석하기
  5. 데이터 시각화 및 커뮤니케이션
  6. 문제 정의하기
  7. 해결하고자하는 문제를 정의하기

 

문제 정의하기

✔ 이 단계에서는 해결하고자 하는 게 무엇인지, 언제까지 어떤 결과물을 얻을 것인지, 어떤 방식으로 데이터를 활용할 것인지 등을 설정합니다. 아무 목적 없이 데이터를 살펴 보면, 의미 있는 발견을 하지 못하기 때문입니다.

  1. 목표 설정하기
  2. 기간 설정하기
  3. 평가 방법 설정하기
  4. 필요한 데이터 설정하기
  5. 데이터 모으기

필요한 데이터를 모을 수 있는 방법을 찾습니다.

 

 

데이터 모으기

✔ 누군가 이미 모아 놓은 데이터를 그대로 사용할 수도 있고, 공공 기관 등에서 배포한 자료를 찾아 볼 수도 있고, 혹은 웹사이트에서 직접 데이터를 수집할 수도 있습니다.

  1. 웹 크롤링
  2. 자료 모으기
  3. 파일 읽고 쓰기
  4. 데이터 다듬기

데이터의 퀄리티를 높여서 의미 있는 분석이 가능하게끔 합니다.

대표적으로 파이썬에는 크롤링이라는 방법이 있습니다.

 

Web crawling with Python

This post will show you how to crawl the web using Python. Web crawling is a powerful technique to collect data from the web by finding all the URLs for one or multiple domains

www.scrapingbee.com

 

데이터 다듬기

✔ 일반적으로 우리가 수집한 데이터에는 수많은 문제점들이 있습니다. 이런 문제점들로 인해 분석 자체가 불가능할 수도 있고, 혹은 분석을 하더라도 잘못된 결론으로 이어질 수도 있습니다. “쓰레기를 넣으면 쓰레기가 나온다"라는 표현도 있고, 우리는 알고리즘을 통해 인풋과 아웃풋에 대한 개념을 잘 알고 있습니다.

  1. 데이터 관찰하기
  2. 데이터 오류 제거하기
  3. 데이터 정리하기
  4. 데이터 분석하기

준비된 데이터로부터 의미를 찾습니다.

 

데이터 분석하기

✔ 이 과정은 통계를 이용해서 수치적으로도 할 수도 있고, 수십 가지의 그래프를 그려보면서 탐색할 수도 있습니다. 우리가 처음 설계했던 방식대로 데이터를 활용해서 원하는 결과를 도출해야 합니다.

  1. 데이터 파악하기
  2. 데이터 변형하기
  3. 통계 분석하기
  4. 인사이트 발견하기
  5. 의미 도출하기
  6. 커뮤니케이션 해보기

분석 결과를 다른 사람들에게 전달합니다.

분석 결과를 공유하여 피드백을 통한 좀 더 정제된 데이터를 만들기 위해 노력하는 과정입니다.

 

The Power of Analytics

Skillfully employed data analytics is helping organizations of all sizes make better, more-informed business decisions to manage occupational health.

www.aiche.org

 

데이터 시각화 및 커뮤니케이션

✔ 어떤 문제를 해결하려 했는지, 어떻게 데이터를 모았는지, 어떤 방식으로 어떤 인사이트를 얻었는지 등을 다른 사람들에게 전달해야 합니다. 데이터는 눈에 보이지 않기 때문에 적절한 시각화를 통해 소통을 원활히 할 수 있습니다.

  1. 다양한 시각화
  2. 커뮤니케이션
  3. 리포트
 

Data visualization - Wikipedia

From Wikipedia, the free encyclopedia Jump to navigation Jump to search Creation and study of the visual representation of data Data visualization (often abbreviated data viz[1]) is an interdisciplinary field that deals with the graphic representation of d

en.wikipedia.org

This is data_science_000
Data Science

요약 : sparta coding club, 스파르타 코딩, 코드잇, 노마드 코더, 프로그래밍, 직장인 코딩, 내일 배움 카드 코딩, 밀크티 코딩, 초등 코딩, 아이스크림 코딩, 코딩 소프트웨어, 구글 데이터 스튜디오, 데이터 웨어 하우스 , 빅 데이터 클라우드

반응형