Podly - AI 기반 맞춤형 음성 뉴스 서비스

AI 음성 뉴스 및 관심사 정보 제공

약 2개월

2024.08 ~ 2024.09

팀장 / AI 및 백엔드 개발 (팀 4명)

창업 경진대회

이동 중 터치 없이 음성만으로 맞춤형 뉴스를 청취할 수 있는 AI 서비스. 음성 인식, 자연어 처리, TTS, RAG 기술을 종합한 종합 AI 플랫폼. 고령층 및 시각장애인의 디지털 정보 접근성 향상.

기술 스택

backend

FastAPI

Python

frontend

Flutter

React

aiml

LangChain

RAG

OpenAI API

Upstage Solar

Google Gemma2

Microsoft Phi 3.5

Meta Llama 3.1

speech

OpenAI Whisper

ElevenLabs TTS

TypeCast TTS

data

Pandas

NumPy

Tableau

Power BI

cloud

GCP

주요 성과

✓음성 명령 기반 뉴스 서비스로 터치 없는 정보 소비 경험 제공
✓RAG 기법으로 최신 정보와 개인화 추천 결합
✓다양한 LLM 모델 테스트 및 최적 모델 선택 경험
✓공공데이터 활용 신뢰성 높은 콘텐츠 제작

주요 기능

도전 과제 및 극복

LLM 모델 선택

다양한 LLM 모델(GPT, Solar, Gemma2, Phi, Llama) 비교 실험. 비용, 속도, 품질 균형 찾기

TTS 품질

자연스러운 음성 생성. ElevenLabs와 TypeCast 조합으로 해결

배운 점 및 성장

✓음성 인터페이스 설계: 터치 없는 경험의 UX
✓다양한 LLM 모델 비교 및 선택 기준
✓TTS 기술: 자연스러운 음성 생성의 어려움
✓사회적 가치: 디지털 격차 해소 및 접근성 향상
✓시장성 분석: 음성 인식 및 LLM 시장 전망