Notice

Recent Posts

Recent Comments

Link

Golang Docs

« 2026/01 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

느리지만 꾸준히, 코딩

머신러닝을 위한 데이터 - 종류, 수집, 활용 본문

프로그래밍/AI

머신러닝을 위한 데이터 - 종류, 수집, 활용

slowin 2024. 11. 19. 18:26

학습일: 24.11.19(화)

강사님: 조대연

머신러닝을 위한 데이터 - 종류, 수집, 활용

데이터 종류

정형 데이터 (Structured Data)

관계형 데이터베이스(RDB)에 저장되는 데이터
엑셀 시트처럼 행과 열로 구성된 데이터
예시: 고객정보, 거래내역, 제품정보 등

비정형 데이터 (Unstructured Data)

미디어 데이터
- 이미지/비디오
- 음성/음향
- 문서(PDF, Word 등)
텍스트 데이터
- SNS 게시물
- 상품 리뷰
- 채팅 로그

반정형 데이터 (Semi-structured Data)

일정한 규칙이 있으나 완전한 구조화는 되지 않은 데이터
주요 유형
- 시스템 로그
- IoT 센서 데이터
- HTML/XML/JSON 문서
- 이메일

머신러닝을 위한 데이터 전처리

데이터 변환 과정

모든 데이터는 최종적으로 숫자로 변환
텍스트 데이터의 경우
- 단어 임베딩(Word Embedding) 기술 활용
- Word2Vec, BERT 등을 통해 단어를 수백 차원의 벡터로 변환
- 문맥과 의미를 고려한 수치화 가능

데이터 전처리 주요 단계

데이터 클렌징
- 결측치 처리
- 이상치 제거
- 중복 데이터 처리
데이터 정규화/표준화
피처 엔지니어링
차원 축소

데이터 수집 채널 및 도구

분석 도구

Google Analytics
- 목적: 웹사이트 트래픽 분석 및 광고 효과 측정
- 특징: 구글 광고 플랫폼과의 연동성
- 주요 지표: 방문자수, 체류시간, 전환율 등
Elastic Stack (ELK Stack)
- Elasticsearch: 검색 및 분석 엔진
- Logstash: 데이터 수집 및 변환
- Kibana: 데이터 시각화 대시보드
  - 실시간 모니터링
  - 맞춤형 대시보드 구성
  - 고급 데이터 분석 기능
Apache Zeppelin
- 특징: 다양한 프로그래밍 언어 지원
- 데이터 분석 및 시각화
- 협업 기능 제공

데이터 수집 방법

API 활용
- RESTful API
- GraphQL
- OpenAPI(Swagger)
- SDK 활용
Web Scraping
- BeautifulSoup
- Selenium
- Scrapy
- 법적/윤리적 고려사항 필요
공공데이터 활용
- 공공데이터 포털
- 데이터 품질 이슈
  - 예시: 얼굴인식 모델 개발시 한국인 데이터셋 필요성
  - 지역/문화적 특성 반영 필요

머신러닝 접근 방식

딥러닝(인공신경망) 계열

특징
- 대량의 데이터 필요
- 높은 컴퓨팅 파워 요구
- 복잡한 패턴 학습 가능
응용분야
- 컴퓨터 비전
- 자연어 처리
- 음성 인식전통적 머신러닝 계열
특징
- 상대적으로 적은 데이터로도 학습 가능
- 해석이 용이함
- 빠른 학습과 추론
주요 알고리즘
- 선형 회귀/로지스틱 회귀
- 결정 트리/랜덤 포레스트
- SVM(Support Vector Machine)
- KNN(K-Nearest Neighbors)

회고

AI 모델링 에서는 데이터가 가장 중요하다고 말한다.
다양한 데이터를 전처리하고 다루어보면서 데이터를 처리하는 경험을 쌓아보는게 중요한것 같다.

'프로그래밍 > AI' 카테고리의 다른 글

아나콘다란? (1)	2024.11.22
서울시 범죄현황 통계자료 분석 및 시각화 (0)	2024.11.19
Pandas 기본 문법 (1)	2024.11.19
python 기초 문법 (3)	2024.11.18
마인드셋 (0)	2024.11.16

'프로그래밍/AI' Related Articles

느리지만 꾸준히, 코딩

머신러닝을 위한 데이터 - 종류, 수집, 활용 본문

머신러닝을 위한 데이터 - 종류, 수집, 활용

머신러닝을 위한 데이터 - 종류, 수집, 활용

데이터 종류

정형 데이터 (Structured Data)

비정형 데이터 (Unstructured Data)

반정형 데이터 (Semi-structured Data)

머신러닝을 위한 데이터 전처리

데이터 변환 과정

데이터 전처리 주요 단계

데이터 수집 채널 및 도구

분석 도구

데이터 수집 방법

머신러닝 접근 방식

딥러닝(인공신경망) 계열

회고

'프로그래밍 > AI' 카테고리의 다른 글

티스토리툴바