본문 바로가기

분류 전체보기

(91)
데이터 전처리 A to Z 2회차 ### 1.타이타닉 데이터 불러오기 및 데이터 조작 - 1.1 데이터 불러오기 import pandas as pd import seaborn as sns  df=sns.load_dataset('titanic')        #sns에서 타이타닉 데이터 불러오기, 전처리 완료후에 저장 하겠습니다.df.info()  age, embarked, deck, embark_town 에서 null이 존재하는것 처럼 보임. 그럼 이것을 확인해볼까? df.isnull().sum()  ### 2.데이터 클리닝 - 결측치 age 177, embarked 2, deck 688, embarked_town 2 개의 null값이 존재하는것을 확인하였다.   df.describe(include='all') ##### (방법1) 결측..
중간프로젝트를 하면서 멈추었던 블로그를 다시 시작 공부하고 있는 파이썬 및 SQL 그리고 앞으로 진행될 최종프로젝트는 포트폴리오로 활용하고 싶으니 블로그에 잘 정리 해보도록 노력하겠습니다.
240905 파이선 코드카타 (다시 시작) 파이썬  더보기 문자열로 구성된 리스트 strings와, 정수 n이 주어졌을 때, 각 문자열의 인덱스 n번째 글자를 기준으로 오름차순 정렬하려 합니다. 예를 들어 strings가 ["sun", "bed", "car"]이고 n이 1이면 각 단어의 인덱스 1의 문자 "u", "e", "a"로 strings를 정렬합니다. def solution(strings, n): answer = [] for i in range(len(strings)): strings[i] = strings[i][n] + strings[i] # for문을 통해 각 문자에 해당 문자 맨앞에 붙임 strings.sort() for i in range(len(strings)): a..
240813 로지스틱회귀(범주형자료) 하는 방법 로지스틱 선형회귀를 하기 위한 방법  라이브러리 설치!pip install sklearn!pip install numpy!pip install pandad!pip install matplotlib!pip instal seaborn  Importimport sklearnimport numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as sns 설치되어 있는지 확인하는 방법(예시) import pandas as pd           pd.__version__데이터 확인titanic_df=pd.read_csv('C:/Users/USER/Documents/ML/titanic/train.csv', encoding='utf-8'..
240813 선형회귀(숫자예측) 하는 방법 선형회귀를 하기 위한 방법  라이브러리 설치!pip install sklearn!pip install numpy!pip install pandad!pip install matplotlib!pip instal seaborn  Importimport sklearnimport numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as sns 설치되어 있는지 확인하는 방법(예시) import pandas as pd           pd.__version__데이터 확인pd.DataFrame 을 통해 활용 가능한 데이터프레임 형태로 정의를 해야함(예시)weights=[87,81,82,92,90,61,86,66,69,69] heigh..
7주차 WIL 머신러닝 기초를 다루기 위해 Visual Studio 를 설치했다. 지금 까지 사용한 프로그램중에 이게 젤 맘에 드는것 같다.   내일 ADsP 시험이 있는데 사실 제대로 정독하지 못하고 시험을 보는거라 큰 기대는 없으나 고민 많이 하고 잘찍고 와야겠다.  자격증 시험 준비한다고 다른 공부를 조금 등한시 한 경향이 있으나 차주 부터는 내 본연의 목적인 데이터분석을 위한 공부에 집중해야겠다.
240809 TIL / recursive CTE 관련 SQL더보기 보호소에서는 몇 시에 입양이 가장 활발하게 일어나는지 알아보려 합니다. 0시부터 23시까지, 각 시간대별로 입양이 몇 건이나 발생했는지 조회하는 SQL문을 작성해주세요. 이때 결과는 시간대 순으로 정렬해야 합니다. 처음에 접근 했던것은 입양시간에서 시간을 조회해오고 group by 를 활용한 후 집계함수 인 count 를 쓰면 되지 않을까? with animal_outs_new as ( SELECT *, substr(datetime, 12,2) HOUR from animal_outs )select HOUR, count(animal_id) COUNTfrom animal_outs_newgroup by hourorder by 1 with 절을 ..
240807 TIL SQL오프라인/온라인 판매 데이터 통합하기 더보기 ONLINE_SALE 테이블과 OFFLINE_SALE 테이블에서 2022년 3월의 오프라인/온라인 상품 판매 데이터의 판매 날짜, 상품ID, 유저ID, 판매량을 출력하는 SQL문을 작성해주세요. OFFLINE_SALE 테이블의 판매 데이터의 USER_ID 값은 NULL 로 표시해주세요. 결과는 판매일을 기준으로 오름차순 정렬해주시고 판매일이 같다면 상품 ID를 기준으로 오름차순, 상품ID까지 같다면 유저 ID를 기준으로 오름차순 정렬해주세요. online 테이블과 offline 테이블을 합치는것이다이것은 컬럼을 추가하는 join 이 아닌 행을 추가해야 되는 상황 union에 대해 알아보자.https://silverji.tistory.com/49 UNION..
240806 통계학기초 연습문제 1주차1. 데이터 분석에서 통계가 중요한 이유는 무엇인가요? 다음 보기 중에서 옳지 않은 것을 고르세요    1) 통계는 데이터를 이해하고 해석하는 데 도움을 준다.    2) 통계는 데이터에서 패턴을 발견하고 미래를 예측하는 도구를 제공한다.    3) 통계는 모든 데이터 분석 결과가 항상 정확하고 확실하다는 것을 보장한다    4) 통계는 복잡한 데이터를 간단한 요약 정보로 변환할 수 있다. 2. 다음 중 기술통계(Descriptive Statistics)에 해당하는 것은 무엇인가요?   2번    1) 모집단의 평균을 추정하는 것    2) 데이터의 중앙값을 계산하는 것    3) 표본을 통해 모집단의 특성을 추론하는 것    4) 가설을 검증하는 것 3. 다음 중 추론통계(Inferential S..
240805 TIL 더보기이번주 토요일에 있을 ADsP 위주로 공부를 진행 해야 할 듯 하다.    1. 통계학 기초 강의 3주차 수강 가설검정에 대한 내용을 배웠다. 가장 기억에 남는건 A/B 테스트 였는데 P-value 를 통해서 AB두개 표본의 결과가 다른것이 우연인지 의미가 있는것인지 판단해야 한다는것이 인상 깊었다. 귀무가설과 대립가설을 통해  귀무가설이 참일때, 거짓일때 기각할것인지 채택할것인지에 대한 1종오류와 2종오류에 대해 다루었는데 사실 이게 대학교 당시에도 엄청 헷갈렸던 개념인데 지금도 역시나 좀 헷갈린다 귀무가설이 참인데 귀무가설을 기가하면 1종 오류귀무가설이 거짓인지 귀무가설을 채택하면 2종 오류 1종오류는 관리를 할 수 있으나 1종오류와 2종오류는 트레이드 오프 관계 이기에 적절히 조절 해야 된다 ..