본문 바로가기
프로그래밍/AI

머신러닝을 위한 데이터 - 종류, 수집, 활용

by slowin 2024. 11. 19.

학습일: 24.11.19(화)

강사님: 조대연

머신러닝을 위한 데이터 - 종류, 수집, 활용

데이터 종류

정형 데이터 (Structured Data)

  • 관계형 데이터베이스(RDB)에 저장되는 데이터
  • 엑셀 시트처럼 행과 열로 구성된 데이터
  • 예시: 고객정보, 거래내역, 제품정보 등

비정형 데이터 (Unstructured Data)

  • 미디어 데이터
    • 이미지/비디오
    • 음성/음향
    • 문서(PDF, Word 등)
  • 텍스트 데이터
    • SNS 게시물
    • 상품 리뷰
    • 채팅 로그

반정형 데이터 (Semi-structured Data)

  • 일정한 규칙이 있으나 완전한 구조화는 되지 않은 데이터
  • 주요 유형
    • 시스템 로그
    • IoT 센서 데이터
    • HTML/XML/JSON 문서
    • 이메일

머신러닝을 위한 데이터 전처리

데이터 변환 과정

  • 모든 데이터는 최종적으로 숫자로 변환
  • 텍스트 데이터의 경우
    • 단어 임베딩(Word Embedding) 기술 활용
    • Word2Vec, BERT 등을 통해 단어를 수백 차원의 벡터로 변환
    • 문맥과 의미를 고려한 수치화 가능

데이터 전처리 주요 단계

  1. 데이터 클렌징
    • 결측치 처리
    • 이상치 제거
    • 중복 데이터 처리
  2. 데이터 정규화/표준화
  3. 피처 엔지니어링
  4. 차원 축소

데이터 수집 채널 및 도구

분석 도구

  1. Google Analytics
    • 목적: 웹사이트 트래픽 분석 및 광고 효과 측정
    • 특징: 구글 광고 플랫폼과의 연동성
    • 주요 지표: 방문자수, 체류시간, 전환율 등
  2. Elastic Stack (ELK Stack)
    • Elasticsearch: 검색 및 분석 엔진
    • Logstash: 데이터 수집 및 변환
    • Kibana: 데이터 시각화 대시보드
      • 실시간 모니터링
      • 맞춤형 대시보드 구성
      • 고급 데이터 분석 기능
  3. Apache Zeppelin
    • 특징: 다양한 프로그래밍 언어 지원
    • 데이터 분석 및 시각화
    • 협업 기능 제공

데이터 수집 방법

  1. API 활용
    • RESTful API
    • GraphQL
    • OpenAPI(Swagger)
    • SDK 활용
  2. Web Scraping
    • BeautifulSoup
    • Selenium
    • Scrapy
    • 법적/윤리적 고려사항 필요
  3. 공공데이터 활용
    • 공공데이터 포털
    • 데이터 품질 이슈
      • 예시: 얼굴인식 모델 개발시 한국인 데이터셋 필요성
      • 지역/문화적 특성 반영 필요

머신러닝 접근 방식

딥러닝(인공신경망) 계열

  • 특징
    • 대량의 데이터 필요
    • 높은 컴퓨팅 파워 요구
    • 복잡한 패턴 학습 가능
  • 응용분야
    • 컴퓨터 비전
    • 자연어 처리
    • 음성 인식전통적 머신러닝 계열
  • 특징
    • 상대적으로 적은 데이터로도 학습 가능
    • 해석이 용이함
    • 빠른 학습과 추론
  • 주요 알고리즘
    • 선형 회귀/로지스틱 회귀
    • 결정 트리/랜덤 포레스트
    • SVM(Support Vector Machine)
    • KNN(K-Nearest Neighbors)

회고

AI 모델링 에서는 데이터가 가장 중요하다고 말한다.
다양한 데이터를 전처리하고 다루어보면서 데이터를 처리하는 경험을 쌓아보는게 중요한것 같다.

'프로그래밍 > AI' 카테고리의 다른 글

아나콘다란?  (1) 2024.11.22
서울시 범죄현황 통계자료 분석 및 시각화  (0) 2024.11.19
Pandas 기본 문법  (1) 2024.11.19
python 기초 문법  (3) 2024.11.18
마인드셋  (0) 2024.11.16