logo
Podly - AI 기반 맞춤형 음성 뉴스 서비스
AI 음성 뉴스 및 관심사 정보 제공
약 2개월
2024.08 ~ 2024.09
팀장 / AI 및 백엔드 개발 (팀 4명)
창업 경진대회

이동 중 터치 없이 음성만으로 맞춤형 뉴스를 청취할 수 있는 AI 서비스. 음성 인식, 자연어 처리, TTS, RAG 기술을 종합한 종합 AI 플랫폼. 고령층 및 시각장애인의 디지털 정보 접근성 향상.

기술 스택

backend

FastAPI
Python

frontend

Flutter
React

aiml

LangChain
RAG
OpenAI API
Upstage Solar
Google Gemma2
Microsoft Phi 3.5
Meta Llama 3.1

speech

OpenAI Whisper
ElevenLabs TTS
TypeCast TTS

data

Pandas
NumPy
Tableau
Power BI

cloud

GCP

주요 성과

  • 음성 명령 기반 뉴스 서비스로 터치 없는 정보 소비 경험 제공
  • RAG 기법으로 최신 정보와 개인화 추천 결합
  • 다양한 LLM 모델 테스트 및 최적 모델 선택 경험
  • 공공데이터 활용 신뢰성 높은 콘텐츠 제작

주요 기능

도전 과제 및 극복

LLM 모델 선택

다양한 LLM 모델(GPT, Solar, Gemma2, Phi, Llama) 비교 실험. 비용, 속도, 품질 균형 찾기

TTS 품질

자연스러운 음성 생성. ElevenLabs와 TypeCast 조합으로 해결

배운 점 및 성장

  • 음성 인터페이스 설계: 터치 없는 경험의 UX
  • 다양한 LLM 모델 비교 및 선택 기준
  • TTS 기술: 자연스러운 음성 생성의 어려움
  • 사회적 가치: 디지털 격차 해소 및 접근성 향상
  • 시장성 분석: 음성 인식 및 LLM 시장 전망