학습일: 24.11.19(화)
강사님: 조대연
머신러닝을 위한 데이터 - 종류, 수집, 활용
데이터 종류
정형 데이터 (Structured Data)
- 관계형 데이터베이스(RDB)에 저장되는 데이터
- 엑셀 시트처럼 행과 열로 구성된 데이터
- 예시: 고객정보, 거래내역, 제품정보 등
비정형 데이터 (Unstructured Data)
- 미디어 데이터
- 이미지/비디오
- 음성/음향
- 문서(PDF, Word 등)
- 텍스트 데이터
- SNS 게시물
- 상품 리뷰
- 채팅 로그
반정형 데이터 (Semi-structured Data)
- 일정한 규칙이 있으나 완전한 구조화는 되지 않은 데이터
- 주요 유형
- 시스템 로그
- IoT 센서 데이터
- HTML/XML/JSON 문서
- 이메일
머신러닝을 위한 데이터 전처리
데이터 변환 과정
- 모든 데이터는 최종적으로 숫자로 변환
- 텍스트 데이터의 경우
- 단어 임베딩(Word Embedding) 기술 활용
- Word2Vec, BERT 등을 통해 단어를 수백 차원의 벡터로 변환
- 문맥과 의미를 고려한 수치화 가능
데이터 전처리 주요 단계
- 데이터 클렌징
- 결측치 처리
- 이상치 제거
- 중복 데이터 처리
- 데이터 정규화/표준화
- 피처 엔지니어링
- 차원 축소
데이터 수집 채널 및 도구
분석 도구
- Google Analytics
- 목적: 웹사이트 트래픽 분석 및 광고 효과 측정
- 특징: 구글 광고 플랫폼과의 연동성
- 주요 지표: 방문자수, 체류시간, 전환율 등
- Elastic Stack (ELK Stack)
- Elasticsearch: 검색 및 분석 엔진
- Logstash: 데이터 수집 및 변환
- Kibana: 데이터 시각화 대시보드
- 실시간 모니터링
- 맞춤형 대시보드 구성
- 고급 데이터 분석 기능
- Apache Zeppelin
- 특징: 다양한 프로그래밍 언어 지원
- 데이터 분석 및 시각화
- 협업 기능 제공
데이터 수집 방법
- API 활용
- RESTful API
- GraphQL
- OpenAPI(Swagger)
- SDK 활용
- Web Scraping
- BeautifulSoup
- Selenium
- Scrapy
- 법적/윤리적 고려사항 필요
- 공공데이터 활용
- 공공데이터 포털
- 데이터 품질 이슈
- 예시: 얼굴인식 모델 개발시 한국인 데이터셋 필요성
- 지역/문화적 특성 반영 필요
머신러닝 접근 방식
딥러닝(인공신경망) 계열
- 특징
- 대량의 데이터 필요
- 높은 컴퓨팅 파워 요구
- 복잡한 패턴 학습 가능
- 응용분야
- 컴퓨터 비전
- 자연어 처리
- 음성 인식전통적 머신러닝 계열
- 특징
- 상대적으로 적은 데이터로도 학습 가능
- 해석이 용이함
- 빠른 학습과 추론
- 주요 알고리즘
- 선형 회귀/로지스틱 회귀
- 결정 트리/랜덤 포레스트
- SVM(Support Vector Machine)
- KNN(K-Nearest Neighbors)
회고
AI 모델링 에서는 데이터가 가장 중요하다고 말한다.
다양한 데이터를 전처리하고 다루어보면서 데이터를 처리하는 경험을 쌓아보는게 중요한것 같다.
'프로그래밍 > AI' 카테고리의 다른 글
아나콘다란? (1) | 2024.11.22 |
---|---|
서울시 범죄현황 통계자료 분석 및 시각화 (0) | 2024.11.19 |
Pandas 기본 문법 (1) | 2024.11.19 |
python 기초 문법 (3) | 2024.11.18 |
마인드셋 (0) | 2024.11.16 |