SMALL

Python 17

구인 공고 텍스트로 본 “데이터 사이언티스트” vs “데이터 엔지니어” 스킬 키워드 비교 분석

데이터 사이언티스트 vs 데이터 엔지니어, 무엇이 다를까?채용 공고 텍스트 분석으로 살펴본 기술 키워드 비교1. 왜 지금, DS와 DE의 차이를 알아야 할까?최근 몇 년간 데이터 기반 비즈니스가 급격히 확대되면서, 데이터 사이언티스트(Data Scientist, DS)와 데이터 엔지니어(Data Engineer, DE)는 기업의 핵심 직무로 떠올랐습니다.생성형 AI의 급부상, 클라우드 인프라의 대중화, 머신러닝 자동화 등 변화의 중심에서 이 두 직무는 IT 전략과 의사결정 모두에 관여합니다.하지만 여전히 많은 학생들과 구직자들은 DS와 DE의 차이를 명확히 구분하지 못하고 혼선을 겪고 있습니다.기술 학습 방향이 흐려지고, 결국 본인에게 맞지 않는 직무를 선택할 위험도 커지죠.그래서 이번 프로젝트에서는 실..

Python 2025.06.28

HuggingFace의 pre-trained 모형

HuggingFace의 pre-trained 모형을 이용하여 챗봇과 번역을 활용하는 것이다.아래 스크립트에서는 한영 번역, 영어 문장 생성, 영한 번역을 차례로 수행하고자 한다. import torch# Load model for kor to eng translationfrom transformers import AutoTokenizer, AutoModelForSeq2SeqLMtokenizer_1 = AutoTokenizer.from_pretrained("DunnBC22/opus-mt-ko-en-Korean_Parallel_Corpora")model_1 = AutoModelForSeq2SeqLM.from_pretrained("DunnBC22/opus-mt-ko-en-Korean_Parallel_Corpo..

Python 2025.06.28

EDA - Titanic Dataset

EDA - Titanic Dataset Copyright(c) 2018-2021 Daniel Park All rights reserved.1912년 타이타닉 사고 데이터 EDA탐색적 데이터 분석 (EDA)를 통해 아래 목표를 달성해봅시다주어진 각 feature들의 분포 살펴보기, 생존자/사망자 별로 데이터 분리하여 살펴보기어떤 정보를 통해 생존율을 예측할 수 있을 지, 가설을 세우고 실제 그래프로 검증해봅시다. [ 데이터 설명 ]891명의 승객에 대한 데이터. 생존여부 / 좌석 등급 / 성별 / 나이 / 일행 / 자녀 / 운임 등의 feature # 라이브러리 임포트 import pandas as pd import matplotlib.pyplot as plt import seaborn as sns sns..

Python 2025.05.06

Sentiment Analysis

IMDB 데이터를 이용하여 감성분석(sentiment analysis)을 다음과 같이 4가지 방법으로 수행하고 정확도 비교 1. Bag-of-words method: 텍스트를 TF-IDF를 이용하여 데이터로 전환한 뒤, logistic regression을 이용하여 감성분석을 수행2. Word embedding method: 텍스트를 word2vec을 이용하여 데이터로 전환한 뒤, 임베딩 벡터의 평균값을 이용하여 감성분석을 수행3. Neural network method: RNN 모형을 이용하여 감성분석을 수행 # 1. Environment Setup import pandas as pdimport numpy as npimport gensim as gsimport tensorflow_datasets as ..

Python 2025.05.06

Seaborn 라이브러리

Seaborn으로 데이터 시각화 쉽게 하기 Seaborn은 Python의 matplotlib을 기반으로 한 데이터 시각화 라이브러리입니다. matplotlib의 복잡한 구문을 간소화하고, 데이터 분석 및 시각화 작업을 보다 직관적이고 효율적으로 할 수 있도록 도와줍니다. Seaborn을 활용하면 다양한 유형의 그래프를 간단한 코드로 그릴 수 있습니다. 특히, 통계적 시각화에서 매우 유용하며, 다양한 내장 데이터셋을 제공합니다.1. Seaborn 소개matplotlib의 기능을 확장: Seaborn은 matplotlib을 기반으로 하지만, 더 많은 기능과 직관적인 API를 제공 시각화 간소화: 복잡한 차트도 간단한 코드로 그릴 수 있어, 데이터 분석에 소요되는 시간을 절약 통계적 시각화 지원: Seabor..

Python 2025.05.04

Python 기초 개념 정리

Python의 기초적인 자료 타입(Data Type)과 함수 및 메서드(Function & Method)1. Python의 기본 자료 타입(Data Type)Python에서 자주 쓰이는 대표적인 자료 타입은 아래와 같습니다.튜플(Tuple)리스트(List)딕셔너리(Dictionary)문자열(String)예제 코드로 살펴보겠습니다.# 자료 타입 예시A = (1, 2, 3,) # tupleB = [1, 2, 3,] # listC = {'a': 1, 'b': 2, 'c': 3} # dictionaryD = 'string' # stringprint(type(A), type(B), type(C), type(D))1-1. 리스트(List)리스트는 Python에서 가장 흔히 사용되는 자료구조로, 자료의 추가 ..

Python 2025.05.01

Pandas 실습

문제 1 : 학생 성적 데이터를 보고 아래 물음에 답하시오. import pandas as pddf = pd.DataFrame({ "이름": ["철수", "영희", "민수", "지현", "수빈"], "국어": [85, 90, 78, 92, 88], "영어": [80, 95, 85, 89, 90], "수학": [75, 88, 90, 70, 95]})1-1 수학 성적이 80점 이상인 학생의 이름을 모두 출력하시오.print(df.loc[df['수학'] >= 80, '이름']) 1 영희2 민수4 수빈Name: 이름, dtype: object1-2 영어 성적이 국어 성적보다 높은 학생 수를 출력하시오.print((df['영어'] > df['국어']).sum() ) 3 1..

Python 2025.05.01
728x90
반응형
LIST