본문 바로가기

TIL

(34)
240813 로지스틱회귀(범주형자료) 하는 방법 로지스틱 선형회귀를 하기 위한 방법  라이브러리 설치!pip install sklearn!pip install numpy!pip install pandad!pip install matplotlib!pip instal seaborn  Importimport sklearnimport numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as sns 설치되어 있는지 확인하는 방법(예시) import pandas as pd           pd.__version__데이터 확인titanic_df=pd.read_csv('C:/Users/USER/Documents/ML/titanic/train.csv', encoding='utf-8'..
240813 선형회귀(숫자예측) 하는 방법 선형회귀를 하기 위한 방법  라이브러리 설치!pip install sklearn!pip install numpy!pip install pandad!pip install matplotlib!pip instal seaborn  Importimport sklearnimport numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as sns 설치되어 있는지 확인하는 방법(예시) import pandas as pd           pd.__version__데이터 확인pd.DataFrame 을 통해 활용 가능한 데이터프레임 형태로 정의를 해야함(예시)weights=[87,81,82,92,90,61,86,66,69,69] heigh..
240809 TIL / recursive CTE 관련 SQL더보기 보호소에서는 몇 시에 입양이 가장 활발하게 일어나는지 알아보려 합니다. 0시부터 23시까지, 각 시간대별로 입양이 몇 건이나 발생했는지 조회하는 SQL문을 작성해주세요. 이때 결과는 시간대 순으로 정렬해야 합니다. 처음에 접근 했던것은 입양시간에서 시간을 조회해오고 group by 를 활용한 후 집계함수 인 count 를 쓰면 되지 않을까? with animal_outs_new as ( SELECT *, substr(datetime, 12,2) HOUR from animal_outs )select HOUR, count(animal_id) COUNTfrom animal_outs_newgroup by hourorder by 1 with 절을 ..
240807 TIL SQL오프라인/온라인 판매 데이터 통합하기 더보기 ONLINE_SALE 테이블과 OFFLINE_SALE 테이블에서 2022년 3월의 오프라인/온라인 상품 판매 데이터의 판매 날짜, 상품ID, 유저ID, 판매량을 출력하는 SQL문을 작성해주세요. OFFLINE_SALE 테이블의 판매 데이터의 USER_ID 값은 NULL 로 표시해주세요. 결과는 판매일을 기준으로 오름차순 정렬해주시고 판매일이 같다면 상품 ID를 기준으로 오름차순, 상품ID까지 같다면 유저 ID를 기준으로 오름차순 정렬해주세요. online 테이블과 offline 테이블을 합치는것이다이것은 컬럼을 추가하는 join 이 아닌 행을 추가해야 되는 상황 union에 대해 알아보자.https://silverji.tistory.com/49 UNION..
240806 통계학기초 연습문제 1주차1. 데이터 분석에서 통계가 중요한 이유는 무엇인가요? 다음 보기 중에서 옳지 않은 것을 고르세요    1) 통계는 데이터를 이해하고 해석하는 데 도움을 준다.    2) 통계는 데이터에서 패턴을 발견하고 미래를 예측하는 도구를 제공한다.    3) 통계는 모든 데이터 분석 결과가 항상 정확하고 확실하다는 것을 보장한다    4) 통계는 복잡한 데이터를 간단한 요약 정보로 변환할 수 있다. 2. 다음 중 기술통계(Descriptive Statistics)에 해당하는 것은 무엇인가요?   2번    1) 모집단의 평균을 추정하는 것    2) 데이터의 중앙값을 계산하는 것    3) 표본을 통해 모집단의 특성을 추론하는 것    4) 가설을 검증하는 것 3. 다음 중 추론통계(Inferential S..
240805 TIL 더보기이번주 토요일에 있을 ADsP 위주로 공부를 진행 해야 할 듯 하다.    1. 통계학 기초 강의 3주차 수강 가설검정에 대한 내용을 배웠다. 가장 기억에 남는건 A/B 테스트 였는데 P-value 를 통해서 AB두개 표본의 결과가 다른것이 우연인지 의미가 있는것인지 판단해야 한다는것이 인상 깊었다. 귀무가설과 대립가설을 통해  귀무가설이 참일때, 거짓일때 기각할것인지 채택할것인지에 대한 1종오류와 2종오류에 대해 다루었는데 사실 이게 대학교 당시에도 엄청 헷갈렸던 개념인데 지금도 역시나 좀 헷갈린다 귀무가설이 참인데 귀무가설을 기가하면 1종 오류귀무가설이 거짓인지 귀무가설을 채택하면 2종 오류 1종오류는 관리를 할 수 있으나 1종오류와 2종오류는 트레이드 오프 관계 이기에 적절히 조절 해야 된다 ..
240802 TIL (SQL With, 통계 분포에 대해) SQL문제더보기 MEMBER_PROFILE와 REST_REVIEW 테이블에서 리뷰를 가장 많이 작성한 회원의 리뷰들을 조회하는 SQL문을 작성해주세요. 회원 이름, 리뷰 텍스트, 리뷰 작성일이 출력되도록 작성해주시고, 결과는 리뷰 작성일을 기준으로 오름차순, 리뷰 작성일이 같다면 리뷰 텍스트를 기준으로 오름차순 정렬해주세요. with rankis1 as (SELECT *, rank() over (order by count(review_id) desc) rankkkfrom rest_reviewgroup by member_id)select p.MEMBER_NAME, r.REVIEW_TEXT, date_format(r.REVIEW_DATE,'%Y-%m-%d') REVI..
240801 TIL SQL더보기[문제] 2022년 1월의 도서 판매 데이터를 기준으로 저자 별, 카테고리 별 매출액(TOTAL_SALES = 판매량 * 판매가) 을 구하여, 저자 ID(AUTHOR_ID), 저자명(AUTHOR_NAME), 카테고리(CATEGORY), 매출액(SALES) 리스트를 출력하는 SQL문을 작성해주세요.결과는 저자 ID를 오름차순으로, 저자 ID가 같다면 카테고리를 내림차순 정렬해주세요.내가 접근 했던 방식 1) 2022년 1월에 판매된 데이터를 조회한다2) 총 판매량을 구한다3) 원하는 항목들을 조회하고 정렬 한다.  1) 2022년 1월에 판매된 데이터를 조회한다.SELECT book_id, salesfrom book_saleswhere date_format(sales_date,'%..
240725 팀프로젝트 2일차 팀프로젝트 보고서 전개 자료 정의 프로젝트 소개 → 현황분석 →탐색적데이터분석 →최종개선안 총 4단계로 진행. 프로젝트 소개는 목적, TASK, 추진방향, 배경 현황분석은 음악시장 현황, 음악플랫폼 시장 현황, 고객사 현황 3단계로 진행 데이터분석은 데이터 전처리를 위해 결측치 처리 근거, 이상치 처리 근거 마련후 완료완성된 데이터셋을 기반으로 시각화를 통해 인사이트 도출도출된 인사이트 혹은 지표를 음악시장, 음악플랫폼 시장과 연계하여 논리 성립 현재까지 주된 분석 방향은 유료고객과 무료고객으로 고객을 카테고리화 해서 접근 최종개선안은 위에서 도출된 지표중 개선이 필요한 지표를 설정하는 방식으로  현황분석 관련 자료는 찾았으니 3일차에 장표화하고데이터 전처리 작업하여 완성된 데이터 셋을 만들어야 월요일,..
240724 SQL 및 팀프로젝트 진행 SQL66.조회수가 가장 많은 중고거래 게시판의 첨부파일 조사하기느낀점: 문제를 잘읽자. 오타를 내지 말자. # key BOARD_ID 게시글ID# 조회수가 가장 높은 중고거래 - b.VIEWS# 의 첨부파일 경로를 조회# FILE_ID 기준 내림차순 정렬select concat('/home/grep/src/',a.board_id,'/',a.file_id,a.file_name,a.file_ext) FILE_PATHfrom(SELECT b.board_id, b.views, f.file_id, f.file_name, f.file_ext, rank() over (order by b.views desc) rankkkfrom USED_GOO..