장르: 애초에 역경을 딛고 이룩하는 숭고한 사랑이란 없다. 그 역경 자체가 사랑이다.
프로그램 특징: 그 곳에서 살아남는 사랑이 어떤 모습으로 걸어오는지 기다려 보고 싶다.
-
[파이썬으로 시작하는 데이터 사이언스] 파일 경로 설정0806분절대 경로- 절대경로는 어떤 웹페이지나 파일이 가지는 고유한 경로로 최상위 디렉토리가 포함된 경로- file://Users/~/- C:\user\documents\~상대 경로상대경로를 이용하면 주피터 파일과 같은 폴더 내 위치이므로 tab을 눌러 불러옴- /는 루트- ./는 현재 위치- ../는 현재 위치의 상위 폴더- ../../는 두 단계 위 상위 폴더 의미핵심 키워드- %mv- %pwd실습 파일 경로- %ls- pd.read_csv- cp949한글 윈도우에서 사용하는 인코딩 설정 : utf8 이 기본 설정이므로 변경해준다> UnicodeDecodeError : 코드 오류: encoding = "cp949" * 다운받은 파일을 주피터 노트북에서 작업하고 있는 폴더로 가져오기Data 와 실습 파일 분리..
-
[ADsP] 분석 거버넌스 체계 수립0805분기업 내 전체적인 분석 기준과 환경을 고려해 우리가 타 기업에 대해 어느 정도 위치에 있는 지 파악하는 것이 우선적이다. 분석 거버넌스 수립 전에 분석 조직, 분석 인력에 대한 교육을 실시한다. Organization: 분석 기획 및 관리 수행 조직Process: 과제 기획 및 운영 프로세스System: 분석 관련 시스템DataHuman Resource: 분석 교육 및 마인드 육성 체계 데이터 분석 거버넌스 체계 수립1. 데이터 분석 수준 진단을 위한 Readiness와 Maturity 구성기업의 현재 분석 수준을 명확히 이해하고, 미래 목표 수준 정의타 경쟁사에 비해 어느 수준인지데이터를 활용한 분석의 경쟁력 확보를 위해 어떤 영역에 선택과 집중할 건지어떤 관점을 보완해야 하는지ReadinessMatu..
-
[ADsP] 용어 정리0805분SVM앙상블 기법Bagging원 자료로부터 Bootstrap 샘플을 추출하고, 각 샘플에 대해 트리를 형성하고 각 노드마다 예측 변수 안에서 최적의 분할을 선택Random ForestBagging에 랜덤과정을 추가한 방법; 예측 변수를 임의로 추출해, 추출된 변수 내에서 최적의 분할을 만든다. Boosting예측력이 약한 모형을 결합해 강한 예측 모형을 만드는 방법; Bootstrap 표본을 구성하는 재표본 과정에서 분류가 잘못된 데이터에 더 큰 가중치를 준다. GBM BackPropagation Algorithm 역전파 알고리즘 신경망 모델에서 사용하는 알고리즘인공신경망에서 동일 입력층에 대해 원하는 값이 출력되도록 개개의 weight을 조정하는 방법 Backward Elimination 후진 제거법독..
-
[ADsP] 주성분 분석0805분PCA (Principle Component Analysis)차원 축소로 복잡한 데이터 구조를 파악할 수 있는 방법상관관계가 있는 변수를 결합해 상관관계가 없도록 선형결합해 분산을 극대화한다. 표본의 크기가 작거나 순서형 자료를 포함하는 범주형 자료에 적용 가능주로 3개 이내의 변수로 축약한다.예측 모델 만들 때 주로 사용한다.다변량 자료를 저차원으로 표시하여 Outlier 탐색에 사용한다. 주성분 분석의 목표는 데이터를 설명하는 방향성을 찾는 것이다.이 방향은 데이터의 분산을 최대화하는 방향이다.여기서 분산이란 평균에서 멀리 떨어진 만큼을 의미하며, 분산이 크다는 것은 데이터가 다양함을 의미한다.변동성이 크다고 해석할 수도 있다.다양한 범위에 걸쳐 분포되어 있는 데이터는 폭 넓은 특성과 패턴을 나타낼 ..
-
데이터 분석에 필요한 파이썬0731분데이터 전처리정량 분석 statistics정성 분석 visualizationEncodingModelingFeature Analysis목적데이터 확인과 데이터 분석이 용이한 형태로 변환통계적 수치를 통해 정보 수집여러 plot 생성 - 유의미한 정보 파악모델링에 적합한 형태로 변환모델의 학습, 성능 확인 ; feature x로부터 Label y 설명어떤 feature X방법결측치 확인 column의 dtype 및 frequency 분포 확인각 column의 전반적인 통계치 확인, label에 따른 통계치 비교Categorical column의 category간 frequency 분포 혹은 Numerical column 간 density 확인One-hot encoding, 데이터 값의 범위 및 분포 조절Cl..
-
머신러닝과 데이터 전처리0731분1. 나의 첫 머신러닝인공지능과 머신러닝, 딥러닝인공지능, 머신러닝, 딥러닝이 무엇인지 알아보고 그 차이를 살펴본다. 코랩과 주피터 노트북마켓과 머신러닝KNN(K-Nearest Neighbor)을 사용해 2개 종류를 분류하는 머신러닝 모델을 훈련한다. 2. 데이터 다루기훈련 세트와 테스트 세트지도/비지도 학습의 차이를 배운다. 모델을 훈련시키는 훈련 세트와 모델을 평가하기 위한 테스트 세트로 데이터를 나눠서 학습한다. 데이터 전처리전처리 과정을 거친 데이터로 훈련했을 때의 차이를 알고 표준점수로 특성의 스케일을 변환하는 방법을 배운다. 인공지능이란인공지능은 컴퓨터가 학습, 추론할 수 있는 지능을 의미한다. 이는 Strong AI와 Weak AI로 구분할 수 있다. 흔히 영화에서 묘사되는 사람처럼 대화하는..
-
[ADsP] 연속형 변수와 순서형 변수 차이0725분1. Ordinal Variable 순서형 변수데이터 값들의 계급이나 순서를 가지지만, 그 사이 간격이 일정하지 않거나 의미 없는 경우'좋음', '보통', '나쁨''고등학교', '중학교'2. Continuous Variable 연속형 변수데이터 값이 일정한 간격을 가지고 연속적인 범위를 가질 수 있는 데이터온도: 23.5°C, 17.8°C, 30.2°C키: 170.2cm, 165.3cm, 180.1cm무게: 55.5kg, 60.7kg, 70.3kg 피어슨 상관계수는 선형, 연속형 변수를 다루고스피어만 상관계수는 선형/비선형, 순서형, 서열형 변수를 다룬다. 연속형 변수를 순위로 변환시킨 후 두 순위 사이의 피어슨 상관계수로 정의된다.
-
[데이터분석가가반드시알아야할모든것] 10. 데이터 탐색과 시각화0724분학습 목표: 탐색적 데이터 분석, 상관성 분석, 데이터 시각화> 데이터 형태와 분포, 이상치와 결측치 등을 확인데이터 분석에서 ML 모델의 성능보다 데이터를 올바르게 파악하고 효과적으로 가공하는 것이 더 중요하다. 그 과정에서 EDA 와 데이터 시각화는 구별해야 한다. 10.1 탐색적 데이터 분석: EDA기술 통계와 데이터 시각화를 통한 데이터 특성 파악10.1.1 엑셀을 활용한 EDA10.1.2 탐색적 데이터 분석 실습# 필요한 패키지 설치# 데이터 불러오기# 각 컬럼의 속성 및 결측치 확인 df.info()# 각 컬럼의 통계치 확인 df. describe() //describe는 수치형 데이터에만 적용# 각 컬럼의 왜도 확인 df.skew()//skew도 numeric 데이터에만 적용# numeri..
-
[프로젝트로 배우는 데이터사이언스] 분류모델 기초 1.1 사이킷런과 머신러닝0722분프로젝트로 배우는 데이터사이언스부스트코스 무료 강의www.boostcourse.org 학습 목표: Scikit-learn 과 Machine Learning 이해하기알고리즘을 알면 데이터 예측이 더 정확해지지만, 조리 도구 관점에서 요리 도구의 매커니즘을 이해하기 보단 도구를 활용해 어떤 걸 만들 수 있는지 배워보는 시간이 되자. Scikit-learn파이썬 머신러닝 라이브러리 scikit-learn: machine learning in Python — scikit-learn 1.5.1 documentationComparing, validating and choosing parameters and models. Applications: Improved accuracy via parameter tuning...
절대 경로
- 절대경로는 어떤 웹페이지나 파일이 가지는 고유한 경로로 최상위 디렉토리가 포함된 경로
- file://Users/~/
- C:\user\documents\~
상대 경로
상대경로를 이용하면 주피터 파일과 같은 폴더 내 위치이므로 tab을 눌러 불러옴
- /는 루트
- ./는 현재 위치
- ../는 현재 위치의 상위 폴더
- ../../는 두 단계 위 상위 폴더 의미
핵심 키워드
- %mv
- %pwd
실습 파일 경로
- %ls
- pd.read_csv
- cp949
한글 윈도우에서 사용하는 인코딩 설정 : utf8 이 기본 설정이므로 변경해준다
> UnicodeDecodeError : 코드 오류: encoding = "cp949"
* 다운받은 파일을 주피터 노트북에서 작업하고 있는 폴더로 가져오기
Data 와 실습 파일 분리_데이터 파일의 경우 따로 폴더를 만들어서 관리하는 것을 추천드립니다.

- 'data' 폴더를 생성 한 후 '도로교통공단_교통사고다발지역_20191010.csv'파일을 옮겨줍니다.
# 현재 실습 파일 경로(1)
%pwd
# (2)
import os
os.getcwd()
%mv /Users/~~~/~~~/도로교통공단_교통사고다발지역_20191010.csv .
- 파일을 다운 받은 폴더의 경로를 적어주세요.
- 파일을 다운 받은 위치의 경우 개인마다 다르기 때문에 자신에 맞게 작성해주셔야 합니다.
- 제일 끝에 한 칸을 띄우고 . 을 꼭 적어주셔야 합니다!
- 주피터 노트북 파일이 있는 폴더 경로를 확인하려면 주피터 노트북 상에서 %pwd를 실행하시면 됩니다.
* 판다스로 csv파일 불러오기
pd.read_csv("도로교통공단_교통사고다발지역_20191010.csv", encoding="cp949")
- 소괄호() 안에서 shift + tab 키를 누르면 도움말을 볼 수 있습니다.
- csv파일을 불러올 때 한글파일 인코딩을 하지 않으면 오류가 나기 때문에 encoding="cp949"를 함께 적어주셔야 합니다.
- "euc-kr"을 적는 방법도 있지만 일부 한글은 깨지기 때문에 "cp949"를 사용하시는 것을 추천드립니다.
glob
- 유닉스 스타일 경로명 패턴 확장
특정 경로에 어떤 파일이 있는지 확인 가능
from glob import glob
glob("data/*")
> ['data/도로교통공단_.csv']
list 형태로 불러온 것을 확인할 수 있다.
file 명만 string로 불러오려면 변수 설정해주면 된다.
file name = glob("data/*")[0]
file name
> 'data/도로교통공단_.csv'
여러 파일을 한 번에 로드하는 방법
- glob : 경로 확인, 규칙으로 검색 가능.
- for로 여러 파일을 하나의 list에 넣고
- pd.concat - dataframe
glob("data/store/*.csv")
# 운영체제마다 텍스트 인코딩 방법이 달라서 약간의 오류가 생길 수 있음
# *_*_* 이나 *.csv 처럼 규칙으로 검색
# 파일명을 오류없이 가져올 수 있음
file_csv = glob("data/store*.csv")
# 파일 불러오기
for file_csv_name in file_csv:
print(file_csv_name)
pd.read_csv(file_csv_name)
# 파일 리스트 생성
file_list = []
for file_csv_name in file_csv:
temp = pd.read_csv(file_csv_name) #low_memory = False
file_list.append(temp)
# 하나의 dataframe으로 합치기
len(file_list)
df = pd.concat(file_list)
df.shape
> (2363994, 39)
df.head()
'Data Science' 카테고리의 다른 글
[Excel] VBA로 데이터 자동화하기 (1) | 2025.03.04 |
---|---|
파이썬 가상환경설정 (0) | 2025.01.07 |
데이터 분석에 필요한 파이썬 (1) | 2024.07.31 |
[데이터분석가가반드시알아야할모든것] 10. 데이터 탐색과 시각화 (2) | 2024.07.24 |
[프로젝트로 배우는 데이터사이언스] 분류모델 기초 1.1 사이킷런과 머신러닝 (2) | 2024.07.22 |