빅데이터/빅데이터 개론

빅데이터 처리 분석 과정

복숭아 백설아 2025. 4. 16. 23:12

학습목표 

1. 빅데이터 수집 과정을 설명할 수 있다.

2. 빅데이터 저장 과정을 설명할 수 있다.

3. 빅데이터 처리 과정을 설명할 수 있다. 

4. 빅데이터 분석 과정을 설명할 수 있다. 

5. 빅데이터 시각화 과정을 설명할 수 있다. 

 

빅데이터 분석처리 과정은 데이터 소스로부터 수집, 저장, 처리, 분석, 시각화 등 5단계로 구분된다. 

 

1. 빅데이터 수집

빅데이터 수집은 원천 데이터로부터 전달받은 정보를 수집하는 단계이다. 원천 데이터는 소스 위치에 따라 내부 데이터와 외부 데이터로 구분된다. 내부 데이터는 기업이 보유한 정보화 시스템, DB 및 사물인터넷 장비에 저장되는 정보를 의미한다. 외부 데이터는 기업이 보유하지 않는 데이터로, 소셜 미디어 데이터와 같은 뉴스, 블로그, 페이스북, 트위터 등과 같은 정보를 의미한다. 내부 데이터의 수집 방법은 로그 수집기, 센싱, ETL 기술을 이용한다. 

수집 기술 주요 내용
로그 수집기 ● 기업이 보유한 스마트 기기, 네트워크 장비,정보화 시스템들에서 생성하는 로그를 수집하기 위해 각 장비들에 로그 수집기 모듈을 설치하여 데이터를 수집
● 내부 데이터 수집 기술로 가장 많이 사용되는 빅데이터 수집 기술
센싱 ● 사물 인터넷 기술이 적용된 장비로부터 센서가 감지한 정보를 네트워크를 통해 주기적으로 전달받아 데이터를 수집함
 ETL ● Extraction, Transformation nad Load 의 약자. 다양한 원천 데이터를 취합해 데이터를 추출하고, 하나의 공통된 형식으로 변환하여 데이터 웨어하우스에서 적재하는 과정을 지원함. 

<표1- 내부데이터 수집기술>

 

수집 기술 주요 내용
크롤링 ● 검색 엔진 로봇이나 크롤링 모듈을 통해 웹상에 존재하는 데이터를 스스로 검색하여 데이터를 수집
● 주요 포털 및 소셜 빅데이터 분석 기업에서 사용하는 주요 빅데이터 수집 기술
RSS 리더 ● 뉴스, 날씨, 쇼핑, 블로그 등 업데이트가 자주 발생하는 웹사이트에서 수정된 정보를 사용자들에게 자동적으로 간편하게 제공하기 위한 데이터를 수집함
● 미디어 데이터 수집에 유리함
Open API ● 기관에서 보유한 데이터 플랫폼을 외부에 공개하여 다양한 정보를 웹 인터페이스를 이용하여 데이터를 수집함
● 공공 데이터 포털 및 주요 포털, 소셜 네트워크 기업이 보유한 데이터를 Open API를 통해 제공하고 있음

<표2 - 외부데이터 수집기술>

 

2. 빅데이터 저장

빅데이터 저장은 수집된 빅데이터를 분석하기 쉽게 데이터 형태로 변환하여 저장하고, 관리하는 단계이다. 크기가 방대하고 정해진 형태가 없는 빅데이터를 빠르게 분석하기 위해 안전하고, 효율적으로 저장하는 기술이 필요하다. 

빅데이터 저장 방법은 분산 파일 시스템, NoSQL , 네트워크 구성 저장 시스템, 병렬 데이터 베이스 관리 시스템 기술을 이용한다. 

 

3. 빅데이터 처리

빅데이터 처리는 저장된 빅데이터를 빠르게 분석할 수 있도록 데이터를 처리하는 단계이다. 빅데이터 처리 방법은 일괄처리 기술과 실시간 처리 기술을 이용한다. 

처리 기술 주요 내용
빅데이터 
일괄 처리 기술
● 빅데이터를 여러 서버로 분산하여 각 서버에서 나누어 처리하고, 그 결과를 다시 모아서 정리하는 분산, 병렬 처리 기술
● 대부분 빅데이터 플랫폼에서 사용하는 빅데이터 처리 기술
예) 맵리듀스
빅데이터
실시간 처리 기술
● 스트림 처리 기술
● 스트림 컴퓨터 지원 
● 분산 컴퓨팅 환경에서 스트림 데이터를 분석
예) 트위터 스톰

<표3 빅데이터 처리기술>

 

맵리듀스

● 분산 컴퓨팅을 지원하기 위해 개발한 구글의 소프트웨어 프레임워크

● 대용량 데이터를 빠르고 안전하게 처리하기 위해서 보통의 하드웨어 (Commodity Hardware)를 이용한 분산 프로그래밍 모델(Programming Model)

● 맵 단계와 리듀스 단계로 처리 과정을 나누어 작업하며, 맵은 흩어져 있는 데이터를 연관성 있는 데이터끼리 분류하여 묶는 작업이고, 리듀스는 맵 작업 후에 중복 데이터를 제거하고 원하는 데이터를 추출하는 단계임

 

트위터 스톰

● 트위터에서 사용하는 실시간 분석 분산 시스템

● 오픈소스 진영에서 사용하고 있는 하둡과 유사

● 메세지 큐를 사용해서 메세지 스트림을 처리

● 메세지 흐름의 복잡도가 높음

 

 

4. 빅데이터 분석 

분석 기술 주요 내용
텍스트 마이닝 ● 자연어 처리 기술을 이용하여 비정형 텍스트 문장에서 가치와 의미가 있는 정보를 찾는 기법
● 인터넷 미디어에 게시된 글 등 특정 주제와 관련된 부분을 추출하여 의미를 분석하고 필요한 정보를 찾는 기법
오피니언 마이닝 ● 다양한 온라인 뉴스와 소셜 미디어 댓글, 사용자가 만든 콘텐츠에서 표현된 의견을 추출 , 분류, 이해하고 자산화하는 컴퓨팅 기술
● 텍스트 문장 속의 감성과 감동, 여러가지 감정 상태를 식별하기 위해 감성 분석 사용
● 마케팅 분야에서는 버즈 분석이라고 불림
예) Social Metrics , 펄스 K에 적용
군집화 ● 특성이 유사한 데이터를 그룹으로 분류하여 분석하는 기법
소셜 네트워크 분석 ● 수학의 그래프 이론을 바탕으로 소셜 네트워크 서비스에 소셜 네트워크 연결 구조와 연결 정도를 분석하여 사용자의 명성 및 영향력을 측정하는 기법
그래프 마이닝 ●  일정 빈도수 이상의 특정 패턴을 모두  찾아내는 방법
●  빅데이터 분석 기술 중 가장 활용도가 높을 것으로 예상됨

<표 4 - 빅데이터 분석 기술>

 

5. 빅데이터 시각화

빅데이터 시각화는 빅데이터 분석 결과를 효과적으로 전달하기 위해 복잡하고 어려운 정보를 쉽게 이해할 수 있도록 표, 차트, 이미지 등으로 표현하고 문서화를 수행하는 단계이다.