전체 글 352

14일차_pandas 주요 기능 복습

EDA 및 Preprocessing 작업을 진행하면서 많이 사용했던 것들을 다시 예제를 통해 복습해보자CSV 파일 가져오기import pandas as pddf = pd.read_csv('file_path')print(df) 이때 파일이 아닌 폴더가 되는 경우에는 다음과 같이 경로를 수정해주면 된다import pandas as pdimport os# 폴더 경로 설정folder_path = r'C\abcdefg\hj\km~'# 폴더 내의 모든 파일에 대해 반복하고자 하는 경우for filename in os.llistdir(folder_path): # 불러오고자 하는 파일 (예 = csv) if filename.endswith('.csv'): file_path = os.path.join(fol..

ssung_인턴일지 2024.07.20

11-13일차_EDA 도출

문제 상황 발생... EDA를 위해 전처리 했던 데이터가 EDA를 진행하면서 전처리가 잘못 되었다는 것을 알게 되었다.. 원인은 제주 지역 위·경도의 좌표가 잘못 되어있었던 것... 구글맵에서 직접 위·경도 좌표를 찍어가며 다시 좌표를 수정하여 전처리 데이터를 추출 그랬더니.. 기존 CSV 파일의 개수에 비해 2배가 되는 파일이 나옴. 역시.. 깨달은 교훈 - 직접 확인하기 전까지는 의심하고 또 의심해라 라는 말이 맞는 것 같다.. 그렇다면 이제 전처리 작업을 위해 가공한 데이터에서 어떠한 데이터를 뽑아낼지 생각해보고 코드로 옮겨보자발생 시간을 활용해 '월' 데이터를 추출하고 column에 추가df['월'] = df['돌발일시'].str.slice(5, 7).astype(int) 간단하게 '돌발일시' 컬..

ssung_인턴일지 2024.07.18

10일차_Image stitching

Image Stitching이미지 스티칭이란?간단하게 말하면 '여러 장의 연관된 이미지를 하나의 이미지 또는 파노라마 이미지를 만들기 위한 작업'어떻게 실행하는가?이미지 스티칭을 위한 (촬영한) 이미지를 정렬SIFT (Scale-Invariant Feature Transform)을 사용해 각 이미지들의 특징을 출력-> 여기서 추출된 특징은 이미지를 자연스럽게 연결하는데 사용!-> 기준이 되는 이미지에서 다른 모든 이미지를 기준이 되는 이미지에 맞게 좌표 프레임으로 변환이 때 중요한 점은 이미지를 연결할 때 생기는 이미지 사이의 이음선 즉, seames코드import cv2 as cvimport numpy as npfrom skimage.metrics import structural_similarity a..

ssung_인턴일지 2024.07.14

9일차_EDA란?

EDA (Exploratory Data Analysis, 탐색적 데이터 분석)EDA란?데이터 분석 과정에 대한 개념데이터를 분석하고 결과는 내는 과정에 있어 지속적으로 해당 데이터에 대한 '탐색' 과 '이해'를 기본으로 가져야 한다는 것을 의미데이터를 그래프, 통계적 방법으로 자료를 직관적으로 바라보는 과정즉! 내가 가진 '데이터의 특성' 을 알아보는 작업왜 필요한가?데이터의 분포 및 값을 검토함으로써 데이터가 표현하는 현상을 더 잘 이해하기 위해데이터에 대한 잠재적인 문제를 발견할 수 있음다양한 각도에서 데이터를 살펴보는 과정을 통해 문제 정의 단계에서 발견하지 못한 다양한 패턴을 발견해, 기존의 가설을 수정하거나 새로운 가정을 세울 수 있음 (변수 간 트렌드, 패턴, 관계 파악 및 가설 수립)프로젝트..

ssung_인턴일지 2024.07.14

8일차_Data Preprocessing(3)

데이터 전처리지역의 위·경도 별 데이터 추출 import csvimport chardet# 파일 인코딩 확인# (지난 번에 입력했으므로 해도 그만, 안해도 그만이지만 안하는게 좋겠지요?)def detect_encoding(file_path): with open(file_path, 'rb') as f: raw_data = f.read() result = chardet.detect(raw_data) return result['encoding'] # 위·경도 설정 (예제는 제주도 좌표)def filter_location(df): # 위도 latitude = (df.iloc[:, -1] >= 33.1127000) & (df.iloc[:, -1] = 126.0843000) & (df...

ssung_인턴일지 2024.07.11

7일차_Data Preprocessing(2)

데이터 전처리문제 상황_1'X차로' 단어가 없으면 데이터가 지워지는 현상 발생해결_1공백 기준 2번째로 data를 추출 (X차로 = X, 전체차로 = 전체) -> '차로'를 제외한 문자를 column에 기입'차로' 단어가 없다면 0을 반환# 코드 입력 필요문제 상황_2 ( NaT 값 발생 시 데이터 삭제)'차로' data 추출 시 '차로' 단어가 없으면 돌발 상황 처리 소요시간이 NaT(결측치)가 되버리는 현상 발생해결_2기존 코드 -> dateformat = '%Y-%m-%d %H:%M:%S' 로 지정 후 변수에 format = dateformat으로 추가하여 저장해결 코드 -> dateformat 형식을 지정해주었던 코드 대신, data를 date 형식으로 형 변환하여 소요시간 계산Date forma..

ssung_인턴일지 2024.07.08

5, 6일차_Data Preprocessing

데이터 전처리문제 상황'차로' data 추출사고 내용에 사고가 발생한 차로를 추출하려고 하니, 사고 내용에 '교차로' 단어 존재...문제 해결 -> 'find' 함수가 아닌 'rfind' 함수를 사용해 뒤에서부터 찾기(find 함수 전에 're' 라이브러리를 사용하려고 했던건 안비밀)첫 벌째 사고 내용에서 발견된 차로 data를 전체 column에 입력하는 문제 발생def road_index(df): find_word = '차로' if find_word not in str(df['돌발내용']): road_index = 0 else: word_index = str(df['돌발내용']).find("차로") road_index = str(df['돌발내용'])[wor..

ssung_인턴일지 2024.07.07

4일차_Data preprocessing

데이터 전처리문제 상황공공 API를 통해 받은 데이터 파일이 하나의 인코딩 형식이 아닌 여러 개의 형식으로 작성해결 방안chardet 라이브러리를 사용하여 해결import chardet# 파일 인코딩 형식 확인def detect_encoding(file_path): with open(file_path, 'rb') as f: raw_data = f.read() result = chardet.detect(raw_data) return result['encoding'] 코드 설명파일의 문자 인코딩 형식을 감지하기 위해 사용하는 라이브러리import chardetopen을 사용하여 파일을 바이너리 모드('b')로 열기f.read()를 호출하여 모든 내용을 읽고, 'raw_data' 변수에 저장..

ssung_인턴일지 2024.07.07

3일차_YOLOv7, v8

데이터 엔지니어를 꿈꾸며 데브코스를 수료하고 어렵게 얻은 인턴의 기회! 그 시작은 비록 꿈꾸던 엔지니어가 아니고 데이터 분석일지언정! 이 또한, 나에게 도움이 되는 것이고 데이터 분석을 하기 위해서는 엔지니어링이 필요하니! 분석가의 업무를 직접 경험하면서 무엇이 필요할 것 같은지, 어떻게 해야할 것 같은지 생각하고, 직접 느끼면서 인턴 생활을 시작해보자!YOLO - v7YOLO란?You Only Look Once 의 약자로 Object detection (객체탐지) 분야에서 널리 알려진 모델처음으로 One-Stage-Detection (분류와 추론이 동시 가능)을 고안해 실시간으로 객체 탐지가 가능특징이미지를 분할하지 않고 이미지 한 장에서 분석 가능다양한 전처리 모델과 인공 신경망을 결합하여 사용했던 ..

ssung_인턴일지 2024.07.07

2일차_Image Labeling

Image Labeling정의데이터 라벨링 작업자가 태그나 메타데이터를 사용해 AI 모델이 학습하는 데이터 특징을 표시하는 과정다양한 인공지능 프로덕트의 기반이 되며, 컴퓨터 비전 (CV) 분야에서 핵심적인 과정 중 하나어노테이션 된 데이터는 새로운 이미지의 데이터를 처리할 때 모델이 해당 특징을 인삭하도록 학습되는데 활용유형-> 세 가지 유형이 있고, 어떤 유형이든 이미지 데이터의 품질이 높을수록 AI 예측 결과가 더욱 정확해지는 경향이 있음이미지 분류 (Classification)라벨을 이미지에 간단하게 적용하는 빠르고 간편한 어노테이션 방법ex) 식료품점 선반의 일련의 이미지를 정렬하여 탄산음료가 있는 선반과 없는 선반을 식별 가능높은 수준의 레이블을 제공하지만, 개체의 정확한 위치를 나타내지 않아..

ssung_인턴일지 2024.07.02
728x90