728x90
반응형
728x90
반응형
과학교과 관련공공데이터 포털https://www.data.go.kr/ 기상자료개방포털https://data.kma.go.kr/data/grnd/selectAwosRltmList.do?pgmNo=638 지오빅데이터 플랫폼https://data.kigam.re.kr/mgeo/태양데이터https://astro.kasi.re.kr/publicdata/pageView/6443캐글https://www.kaggle.com/
데이터 분석을 위한 파일 형식 소개: JSON, XML, CSV, XLSX데이터 분석을 시작하기 위해서는 다양한 데이터 파일 형식을 이해하는 것이 중요합니다. 이번 글에서는 데이터 처리에 자주 사용되는 대표적인 파일 형식인 JSON, XML, CSV, XLSX를 소개하고, 각 파일의 특징과 활용 방법을 살펴보겠습니다.1. 데이터 파일 형식이란?데이터 파일 형식은 정보를 저장하고 교환하는 방식에 따라 다르게 구성됩니다. 특정 형식의 파일을 사용하면 데이터를 보다 효율적으로 저장하고 가공할 수 있으며, 다양한 소프트웨어와 프로그래밍 언어에서 쉽게 활용할 수 있습니다.2. 주요 데이터 파일 형식2.1 JSON (JavaScript Object Notation)특징:사람이 읽고 쓰기 쉬운 구조를 가짐키-값 쌍의..
1. 단어와 원-핫 벡터문장을 생각해봅시다: "The fat cat sat on the mat"단어 사전(vocabulary)은 다음과 같다고 가정합니다:["The", "fat", "cat", "sat", "on", "the", "mat"]이 사전에서 각 단어를 원-핫 벡터로 표현하면:단어 원-핫 벡터The[1, 0, 0, 0, 0, 0, 0]fat[0, 1, 0, 0, 0, 0, 0]cat[0, 0, 1, 0, 0, 0, 0]sat[0, 0, 0, 1, 0, 0, 0]on[0, 0, 0, 0, 1, 0, 0]the[0, 0, 0, 0, 0, 1, 0]mat[0, 0, 0, 0, 0, 0, 1]2. 가중치 행렬 WW이제 WW라는 임베딩 행렬이 있다고 가정합니다.이 행렬은 단어를 MM-차원 벡터로 변환합니..
텍스트 마이닝은 자연어 처리(NLP) 기술과 결합하여 텍스트 데이터를 다양한 방식으로 분석하고 활용하는 데 중요한 역할을 합니다. 오늘날 텍스트 마이닝은 많은 분야에 적용되어 방대한 텍스트 데이터에서 유용한 정보를 도출하는 데 사용되고 있습니다. 이번 포스팅에서는 텍스트 마이닝의 대표적인 적용 분야를 소개하겠습니다.1. 문서 분류(Document Classification)문서 분류는 주어진 텍스트 데이터를 특정 주제나 범주에 따라 분류하는 작업입니다. 이메일 스팸 필터링이 대표적인 예로, 이메일을 분석해 스팸과 정상 메일로 분류합니다. 또한 뉴스 기사, 고객 리뷰 등을 주제별로 자동 분류하여 콘텐츠 관리나 사용자 맞춤 추천에 활용됩니다.문서 분류는 주로 나이브 베이즈 분류기, 서포트 벡터 머신(SVM)..
1. EDA란 무엇인가?EDA는 데이터 분석의 첫 단계로, 데이터의 특성을 이해하고, 패턴을 발견하며, 이상치와 중요한 변수를 탐지하는 과정입니다. 주로 시각화를 사용하여 데이터의 분포나 관계성을 파악합니다.2. EDA의 주요 목표데이터의 분포와 기본 통계 이해이상치 탐지변수 간의 상관관계 탐색패턴이나 트렌드 발견3. 기본적인 EDA 단계데이터 수집 및 불러오기: 데이터셋을 파악하고 불러옵니다.결측치 처리: 결측값의 존재를 확인하고 처리합니다.기본 통계량 확인: 평균, 중위수, 표준편차 등 기본 통계를 계산합니다.시각화: 데이터의 분포, 이상치를 탐지하기 위해 히스토그램, 상자 그림(box plot), 산점도(scatter plot) 등을 활용합니다.상관관계 분석: 변수 간의 관계를 파악하기 위해 상관 ..
메모리 업데이트됨EDA(Exploratory Data Analysis) 블로그 포스팅을 준비하는 데 도움이 되는 내용을 간단히 정리해볼게요.1. EDA란 무엇인가?EDA는 데이터 분석의 첫 단계로, 데이터의 특성을 이해하고, 패턴을 발견하며, 이상치와 중요한 변수를 탐지하는 과정입니다. 주로 시각화를 사용하여 데이터의 분포나 관계성을 파악합니다.2. EDA의 주요 목표데이터의 분포와 기본 통계 이해이상치 탐지변수 간의 상관관계 탐색패턴이나 트렌드 발견3. 기본적인 EDA 단계데이터 수집 및 불러오기: 데이터셋을 파악하고 불러옵니다.결측치 처리: 결측값의 존재를 확인하고 처리합니다.기본 통계량 확인: 평균, 중위수, 표준편차 등 기본 통계를 계산합니다.시각화: 데이터의 분포, 이상치를 탐지하기 위해 히스토..