ChatGPT 같은 클라우드 AI는 강력하지만, 개인정보 보호와 비용 문제가 걸린다. 이제는 내 컴퓨터에서 직접 AI 모델을 실행할 수 있는 시대가 됐다. Ollama를 이용한 로컬 LLM 구축 방법을 소개한다.
Ollama란?
Ollama는 Llama, Mistral, Gemma, Qwen 등 오픈소스 대형 언어 모델을 로컬에서 쉽게 실행할 수 있게 해주는 도구다. Docker처럼 간단한 명령어로 AI 모델을 다운받고 실행할 수 있다.
설치 방법 (Windows/Mac/Linux)
1. Ollama 다운로드: ollama.ai에서 운영체제에 맞는 설치 파일을 다운로드한다.
2. 모델 설치: 터미널에서 다음 명령어를 실행한다:
ollama pull llama3.2
ollama pull mistral
ollama pull gemma2
3. 실행: 설치 후 바로 대화 시작:
ollama run llama3.2
추천 모델 비교
Llama 3.2 (Meta): 3B, 11B 파라미터 모델. 한국어 지원이 나쁘지 않고 빠른 응답 속도.
Mistral 7B: 경량이지만 성능이 좋다. 코딩과 영어 문서 작업에 최적.
Qwen 2.5: 알리바바의 모델로 한국어 포함 다국어 성능이 우수하다.
Gemma 2 (Google): 구글의 오픈소스 모델로 안전성이 강조됐다.
Open WebUI로 ChatGPT처럼 사용하기
터미널 대신 브라우저 인터페이스로 사용하고 싶다면 Open WebUI를 설치한다:
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway ghcr.io/open-webui/open-webui:main
설치 후 localhost:3000에 접속하면 ChatGPT와 비슷한 UI로 로컬 AI를 사용할 수 있다.
로컬 AI 활용 사례
- 회사 내부 문서 분석 (데이터 외부 유출 없음)
- 코드 리뷰 및 디버깅 보조
- 개인 노트 정리 및 요약
- 오프라인 환경에서의 AI 활용
최소 사양
7B 파라미터 모델 기준: RAM 8GB 이상, 저장공간 5GB 이상. GPU가 없어도 CPU만으로 실행 가능하지만 속도가 느릴 수 있다. NVIDIA GPU가 있다면 훨씬 빠른 응답을 경험할 수 있다.
No responses yet