분류 전체보기 357

15일차_시계열 데이터

시계열 데이터일정한 시간동안 수집 된 일련의 순차적으로 정해진 데이터 셋의 집합시간에 관해 순차적으로 순서가 연결되어 있고, 연속되는 관측치는 서로 상관관계를 가지고 있음가장 대표적인 시계열 데이터는 주식 데이터!목적시계열이 가지고 있는 법칙성을 발견하여 모형화하고, 추정된 모형을 통해 미래의 값을 forecasting(예측) 하는 것!구성요소 추세 (trend)장기적으로 증가하거나, 감소하는 경향성이 존재하는 것을 의미부드럽고 일반적 또는 장기적 경향으로 전체적인 추세는 상향, 하향 또는 안정구간이 짧으면 다른 변동을 보여줄 수 있음인구, 농업 생산, 출생 및 사망자 수, 산업 또는 공장 수 등등 ...계절성계절적 요인의 영향을 받아 1년 혹은 일정 기간 안에 반복적으로 나타나는 패턴을 의미자연 조건,..

카테고리 없음 2024.07.20

14일차_pandas 주요 기능 복습

EDA 및 Preprocessing 작업을 진행하면서 많이 사용했던 것들을 다시 예제를 통해 복습해보자CSV 파일 가져오기import pandas as pddf = pd.read_csv('file_path')print(df) 이때 파일이 아닌 폴더가 되는 경우에는 다음과 같이 경로를 수정해주면 된다import pandas as pdimport os# 폴더 경로 설정folder_path = r'C\abcdefg\hj\km~'# 폴더 내의 모든 파일에 대해 반복하고자 하는 경우for filename in os.llistdir(folder_path): # 불러오고자 하는 파일 (예 = csv) if filename.endswith('.csv'): file_path = os.path.join(fol..

ssung_인턴일지 2024.07.20

11-13일차_EDA 도출

문제 상황 발생... EDA를 위해 전처리 했던 데이터가 EDA를 진행하면서 전처리가 잘못 되었다는 것을 알게 되었다.. 원인은 제주 지역 위·경도의 좌표가 잘못 되어있었던 것... 구글맵에서 직접 위·경도 좌표를 찍어가며 다시 좌표를 수정하여 전처리 데이터를 추출 그랬더니.. 기존 CSV 파일의 개수에 비해 2배가 되는 파일이 나옴. 역시.. 깨달은 교훈 - 직접 확인하기 전까지는 의심하고 또 의심해라 라는 말이 맞는 것 같다.. 그렇다면 이제 전처리 작업을 위해 가공한 데이터에서 어떠한 데이터를 뽑아낼지 생각해보고 코드로 옮겨보자발생 시간을 활용해 '월' 데이터를 추출하고 column에 추가df['월'] = df['돌발일시'].str.slice(5, 7).astype(int) 간단하게 '돌발일시' 컬..

ssung_인턴일지 2024.07.18

10일차_Image stitching

Image Stitching이미지 스티칭이란?간단하게 말하면 '여러 장의 연관된 이미지를 하나의 이미지 또는 파노라마 이미지를 만들기 위한 작업'어떻게 실행하는가?이미지 스티칭을 위한 (촬영한) 이미지를 정렬SIFT (Scale-Invariant Feature Transform)을 사용해 각 이미지들의 특징을 출력-> 여기서 추출된 특징은 이미지를 자연스럽게 연결하는데 사용!-> 기준이 되는 이미지에서 다른 모든 이미지를 기준이 되는 이미지에 맞게 좌표 프레임으로 변환이 때 중요한 점은 이미지를 연결할 때 생기는 이미지 사이의 이음선 즉, seames코드import cv2 as cvimport numpy as npfrom skimage.metrics import structural_similarity a..

ssung_인턴일지 2024.07.14

9일차_EDA란?

EDA (Exploratory Data Analysis, 탐색적 데이터 분석)EDA란?데이터 분석 과정에 대한 개념데이터를 분석하고 결과는 내는 과정에 있어 지속적으로 해당 데이터에 대한 '탐색' 과 '이해'를 기본으로 가져야 한다는 것을 의미데이터를 그래프, 통계적 방법으로 자료를 직관적으로 바라보는 과정즉! 내가 가진 '데이터의 특성' 을 알아보는 작업왜 필요한가?데이터의 분포 및 값을 검토함으로써 데이터가 표현하는 현상을 더 잘 이해하기 위해데이터에 대한 잠재적인 문제를 발견할 수 있음다양한 각도에서 데이터를 살펴보는 과정을 통해 문제 정의 단계에서 발견하지 못한 다양한 패턴을 발견해, 기존의 가설을 수정하거나 새로운 가정을 세울 수 있음 (변수 간 트렌드, 패턴, 관계 파악 및 가설 수립)프로젝트..

ssung_인턴일지 2024.07.14

8일차_Data Preprocessing(3)

데이터 전처리지역의 위·경도 별 데이터 추출 import csvimport chardet# 파일 인코딩 확인# (지난 번에 입력했으므로 해도 그만, 안해도 그만이지만 안하는게 좋겠지요?)def detect_encoding(file_path): with open(file_path, 'rb') as f: raw_data = f.read() result = chardet.detect(raw_data) return result['encoding'] # 위·경도 설정 (예제는 제주도 좌표)def filter_location(df): # 위도 latitude = (df.iloc[:, -1] >= 33.1127000) & (df.iloc[:, -1] = 126.0843000) & (df...

ssung_인턴일지 2024.07.11
728x90