분류 전체보기31 6. Vector DB와 시맨틱 검색: Chroma DB Vector Database를 사용한 시맨틱 검색 구현 방법을 다룹니다.Vector Database란?Vector Database(벡터 데이터베이스)는 텍스트, 이미지 등의 데이터를 고차원 벡터로 변환하여 저장하고, 의미적 유사도를 기반으로 검색하는 데이터베이스입니다.전통적 검색 vs 시맨틱 검색키워드 검색 (전통적 방식):질문: "파이썬 데이터 분석 채용"검색: "파이썬", "데이터", "분석" 키워드 포함 문서문제: "Python으로 데이터 처리" 같은 유사 표현 누락시맨틱 검색 (Vector DB):질문: "파이썬 데이터 분석 채용" ↓ 벡터 변환[0.123, -0.456, 0.789, ...] (768차원) ↓ 유사도 계산"Python 데이터 처리", "데이터 엔지니어링", "데이터 과학" 등.. 2025. 10. 11. 5. LLM 활용 RAG 질의응답 구현 LLM을 활용하여 채용 공고를 파싱하고 RAG 질의응답을 구현합니다.LLM이란?LLM(Large Language Model, 대규모 언어 모델)은 대량의 텍스트 데이터로 학습된 AI 모델입니다.RAG에서 LLM의 역할:검색 단계: Vector DB에서 관련 문서 검색 (임베딩 모델 사용)생성 단계: 검색된 문서를 바탕으로 답변 생성 (LLM 사용)CareerRAG에서의 용도:채용 공고 텍스트를 JSON 구조로 파싱사용자 질문에 대한 답변 생성LLM 사용 방법1. 클라우드 API주요 서비스: OpenAI - GPT, Google - Gemini, Anthropic - Claude장점: 높은 성능, 즉시 사용 가능, 유지보수 불필요단점: 사용량에 따른 비용, 데이터 외부 전송, 인터넷 필요코드 예시:# Op.. 2025. 10. 11. 4. Spark로 대용량 데이터 전처리 파티션 기반 병렬 처리와 LLM 초기화 최적화를 통한 효율적인 데이터 전처리Spark란?분산 데이터 처리 엔진: 대용량 데이터를 여러 머신(또는 코어)에 분산하여 병렬 처리Spark의 동작 방식:데이터를 여러 조각(파티션)으로 나눔각 파티션을 독립적으로 처리결과를 합침Spark의 데이터 표현: RDD와 DataFrameRDD: 분산된 데이터 컬렉션. Spark의 기본 구조DataFrame: 스키마가 있는 RDD# 텍스트 파일을 RDD로 로드 → 자동으로 파티션 분할rdd = spark.sparkContext.textFile("data.txt") # JSON 파일 → DataFrame (자동 스키마 추론)df = spark.read.json("data.json")Spark의 실행 전략: Lazy Ev.. 2025. 10. 10. 3. Airflow로 데이터 파이프라인 자동화 Apache Airflow를 사용하여 채용 공고 스크래핑부터 벡터 임베딩까지의 데이터 파이프라인을 자동화합니다.Airflow란워크플로우 관리 플랫폼: 데이터 파이프라인을 코드로 정의하고 스케줄링/모니터링DAG 정의 → 자동으로 순차 실행 → 실패 시 재시도 → UI로 모니터링 핵심 개념:DAG (Directed Acyclic Graph): 작업들의 의존성 그래프Task: 개별 작업 단위Operator: Task를 실행하는 방법 (PythonOperator, BashOperator 등)CareerRAG 파이프라인 구조DAG 정의from airflow.models.dag import DAGfrom airflow.operators.python import PythonOperatorwith DAG( dag.. 2025. 10. 10. 이전 1 2 3 4 ··· 8 다음