프롤로그: 왜 내 컴퓨터에서 직접 AI를 돌려야 할까?
OpenAI의 ChatGPT가 세상에 나온 이후, AI는 우리 일상과 업무에 깊숙이 파고들고 있습니다. Gemini, Claude, 그리고 최근에는 놀라운 성능으로 주목받는 Deepseek까지, 수많은 거대 언어 모델(LLM)이 연이어 등장하며 AI의 새로운 가능성을 열어가고 있죠.
하지만 이 강력한 LLM들을 사용하려면 보통 클라우드 서버에 인터넷으로 접속해야 합니다. 여기에는 몇 가지 고민이 따릅니다.
- 보안 및 개인정보 보호: 회사 기밀문서, 개인적인 기록, 민감한 코드를 외부 서버에 전송하는 것이 찜찜할 수 있습니다. 데이터가 어떻게 저장되고 활용되는지 알 수 없기 때문입니다.
- 비용: API를 통해 LLM을 자주 사용하면 생각보다 많은 비용이 발생할 수 있습니다.
- 인터넷 연결: 오프라인 환경에서는 최신 AI 모델을 사용하는 것이 거의 불가능합니다.
- 커스터마이징의 한계: 제공되는 모델 외에 나만의 데이터로 미세조정(Fine-tuning)을 하거나 모델 내부를 수정하기 어렵습니다.
이러한 이유로 '로컬 환경', 즉 내 개인 컴퓨터에서 직접 LLM을 구동하려는 수요가 폭발적으로 증가하고 있습니다.
이 글에서는 로컬 LLM 구동을 위한 가장 인기 있는 도구 중 하나인 Ollama를 소개합니다. 특히, 많은 분들이 사용하시는 인텔 내장 그래픽(Iris Xe 등)이 탑재된 윈도우 노트북에서 AI의 응답 속도를 극적으로 향상시키는 IPEX-LLM 활용법까지 상세히 다룰 것입니다. NVIDIA 그래픽카드 없이도 쾌적한 로컬 LLM 환경을 구축하는 여정을 함께 떠나보시죠.
목차
- Ollama란? (기본 설치 및 사용법)
- 인텔 내장 그래픽의 한계: 왜 이렇게 느릴까?
- 구원투수의 등장: IPEX-LLM으로 인텔 GPU 잠재력 깨우기
- 다음 단계: 로컬 LLM 활용도 높이기
- 마치며
1. Ollama란? (기본 설치 및 사용법)
Ollama는 마치 'LLM을 위한 Docker' 와 같습니다. 복잡한 설정 없이 몇 가지 간단한 명령어로 다양한 LLM을 내 컴퓨터에 다운로드하고, 실행하고, 관리할 수 있게 해주는 놀라운 도구입니다.
1-1. Ollama 설치
설치는 매우 간단합니다.
- Ollama 공식 홈페이지에 접속하여 'Download' 버튼을 클릭합니다.
- 'Download for Windows'를 선택하여 설치 파일을 다운로드하고 실행합니다.
- 설치가 완료되면 윈도우 작업 표시줄 오른쪽 하단(시스템 트레이)에 귀여운 라마 아이콘이 나타납니다. 이 아이콘이 보인다면 Ollama 서버가 정상적으로 실행 중이라는 뜻입니다.
1-2. 기본 사용법 (명령 프롬프트)
Ollama는 기본적으로 그래픽 인터페이스(GUI)가 아닌 명령줄 인터페이스(CLI)를 통해 작동합니다. 처음에는 낯설 수 있지만, 몇 가지 명령어만 익히면 매우 강력합니다.
- 터미널 열기:
Win
키를 누르고 'terminal' 또는 'cmd'를 검색하여 Windows 터미널이나 명령 프롬프트(CMD)를 실행합니다. - Ollama 실행 확인: 터미널에 아래 명령어를 입력하고 Enter를 누릅니다.Ollama가 정상 설치되었다면 아래와 같이 사용 가능한 명령어 목록이 나타납니다.
Usage: ollama [flags] ollama [command] Available Commands: serve Start ollama create Create a model from a Modelfile show Show information for a model run Run a model ...
ollama
- 모델 선택 및 실행: 이제 원하는 LLM을 골라봅시다.
- Ollama 모델 라이브러리로 이동하면 수많은 모델을 볼 수 있습니다. (llama3, gemma, deepseek-coder 등)
- 원하는 모델(예:
llama3
)을 클릭하면 상세 페이지로 이동합니다. - 'Tags' 탭을 보면 다양한 버전이 있습니다.
8b
,70b
: 파라미터(매개변수)의 수를 의미합니다. 숫자가 클수록 더 똑똑하지만 더 많은 RAM과 높은 사양을 요구합니다. 일반 노트북에서는8b
이하를 권장합니다.q4_0
,q5_K_M
: 양자화(Quantization) 버전을 의미합니다. 모델의 성능을 약간 희생하는 대신, 용량을 크게 줄여 낮은 사양의 컴퓨터에서도 실행할 수 있게 만든 버전입니다.
- 가장 기본적인
llama3
(8B 모델)을 실행해 보겠습니다. 터미널에 다음 명령어를 입력하세요.
이 명령어는ollama run llama3
llama3
모델이 로컬에 없으면 자동으로 다운로드한 후 실행까지 해줍니다. - LLM과 대화하기: 모델 다운로드가 완료되면
>>>
프롬프트가 나타나며 대화 준비가 완료됩니다. 이제 자유롭게 질문을 입력해 보세요. pulling manifest pulling 00e1317cbf74... 100% ▕████████████████████████████████████████████████████████▏ 4.7 GB ... success >>> 안녕하세요! 자기소개 부탁해요. 안녕하세요! 저는 메타에서 개발한 거대 언어 모델, Llama 3입니다. ... >>>
💡 유용한 Ollama 명령어들
ollama list
: 내 컴퓨터에 설치된 모델 목록을 확인합니다.ollama pull [모델이름]
: 모델을 실행하지 않고 다운로드만 합니다.ollama rm [모델이름]
: 설치된 모델을 삭제합니다.
2. 인텔 내장 그래픽의 한계: 왜 이렇게 느릴까?
위 방법으로 llama3:8b
같은 조금 무거운 모델을 실행해 보면, 답변이 한 글자씩 느리게 타이핑되는 답답한 경험을 하게 될 수 있습니다. "이걸 정말 쓸 수 있을까?" 하는 의문이 들 정도죠.
이때 작업 관리자(Ctrl
+Shift
+Esc
)를 열어 성능 탭을 확인해 보세요. 놀라운 사실을 발견하게 됩니다.
- CPU 사용률: 100%에 육박하며 비명을 지르고 있습니다.
- GPU 사용률: 0~1%를 맴돌며 거의 아무 일도 하지 않습니다.
이유가 무엇일까요? LLM 연산은 본래 수많은 행렬 계산의 반복이라, 병렬 처리에 특화된 GPU를 활용하면 CPU보다 훨씬 빠릅니다. 하지만 Ollama는 기본적으로 NVIDIA(CUDA) 와 AMD(ROCm) 그래픽카드 가속만 지원합니다. 우리가 흔히 사용하는 인텔 내장 그래픽(Iris Xe Graphics 등)은 이 지원 목록에 없어서, Ollama는 GPU를 무시하고 모든 부담을 CPU에 떠넘기는 것입니다.
가뜩이나 노트북 CPU 성능은 데스크톱에 비해 한계가 있는데, 그나마 있는 GPU조차 활용하지 못하니 속도가 느릴 수밖에 없습니다.
3. 구원투수의 등장: IPEX-LLM으로 인텔 GPU 잠재력 깨우기
다행히도 인텔에서 직접 이 문제를 해결할 방법을 제공했습니다. 바로 IPEX-LLM (Intel® Extension for PyTorch* LLM) 입니다.
간단히 말해, IPEX-LLM은 Ollama가 인텔 GPU와 '대화'할 수 있도록 중간에서 다리를 놓아주는 라이브러리입니다. 이를 통해 우리는 인텔 내장 그래픽의 연산 능력을 최대한 활용하여 LLM 추론 속도를 비약적으로 향상시킬 수 있습니다.
이제부터 그 방법을 차근차근 따라가 보겠습니다. 조금 복잡해 보일 수 있지만, 순서대로 진행하면 누구나 성공할 수 있습니다.
사전 준비: 인텔 그래픽 드라이버 최신화
IPEX-LLM이 요구하는 기능을 제대로 사용하려면 최신 버전의 그래픽 드라이버가 필요합니다. IPEX-LLM 문서는 31.0.101.5122
버전 이상을 권장합니다.
- 인텔® Arc™ & Iris® Xe 그래픽 드라이버 다운로드 페이지 로 이동합니다.
- 최신 버전의 드라이버를 다운로드하여 설치합니다. 설치 과정에서 화면이 몇 번 깜빡일 수 있으니, 중요한 작업은 미리 저장해두세요.
격리된 작업 공간 만들기: Miniforge 설치
다음 단계들을 진행하기 전에, Miniforge를 사용해 독립적인 파이썬 환경을 만드는 것을 강력히 권장합니다.
🤔 왜 Miniforge를 사용해야 하나요?
윈도우에는 이미 다른 프로그램들이 설치한 여러 버전의 파이썬과 라이브러리가 존재할 수 있습니다. IPEX-LLM을 그냥 설치하면 기존 라이브러리와 충돌하여 예상치 못한 오류가 발생할 수 있습니다. Miniforge는
llm
이라는 우리만의 가상 작업 공간을 만들어, 다른 시스템에 전혀 영향을 주지 않고 깨끗한 상태에서 필요한 것들만 설치할 수 있게 해줍니다. '프로젝트를 위한 격리된 방'을 만드는 것과 같습니다.
- Miniforge 다운로드 페이지 로 이동합니다.
Miniforge3-Windows-x86_64.exe
를 다운로드하여 설치합니다. 설치 옵션은 대부분 기본값을 유지해도 괜찮습니다.- 설치가 완료되면 시작 메뉴에 'Miniforge Prompt' 가 생성됩니다. 앞으로의 모든 명령어는 이 Miniforge Prompt에서 실행합니다.
핵심 라이브러리 설치: IPEX-LLM
이제 Miniforge Prompt를 실행하고, 본격적으로 IPEX-LLM을 설치해 보겠습니다.
- 새로운 가상 환경 생성:
llm-cpp
라는 이름의 파이썬 3.11 가상 환경을 만듭니다.conda create
: 가상 환경을 만드는 명령어-n llm-cpp
: 가상 환경의 이름을llm-cpp
로 지정python=3.11
: 해당 환경에 파이썬 3.11 버전을 설치 (IPEX-LLM 호환성을 위함)
(y/n)?
메시지가 나오면y
를 입력하고 Enter를 누릅니다. conda create -n llm-cpp python=3.11
- 가상 환경 활성화: 방금 만든
llm-cpp
환경으로 들어갑니다.이제 프롬프트 앞부분이(base)
에서(llm-cpp)
로 바뀐 것을 볼 수 있습니다. 이 상태에서 설치하는 모든 것은llm-cpp
라는 격리된 공간 안에만 설치됩니다. conda activate llm-cpp
- IPEX-LLM 설치: 가장 중요한 단계입니다. 아래 명령어를 복사하여 붙여넣으세요.
pip install
: 파이썬 라이브러리를 설치하는 명령어--pre
: 정식 버전이 아닌, 최신 기능이 포함된 시험판(pre-release) 버전 설치를 허용--upgrade
: 이미 설치되어 있다면 최신 버전으로 업그레이드ipex-llm[cpp]
: IPEX-LLM 라이브러리와 함께 C++ 기반의 고성능 백엔드를 설치. 성능에 필수적입니다.
pip install --pre --upgrade ipex-llm[cpp]
Ollama와 IPEX-LLM 연동 및 실행
이제 IPEX-LLM과 Ollama를 연결하고 인텔 GPU를 사용하도록 설정할 차례입니다.
- Ollama 연동 스크립트 실행: IPEX-LLM은 연동을 위한 배치 파일을 제공합니다. 관리자 권한으로 실행한 Miniforge Prompt에서 다음 명령어를 입력하세요.
(기존 창을 닫고, Miniforge Prompt 아이콘에 우클릭 -> '관리자 권한으로 실행') # 먼저 llm-cpp 환경을 다시 활성화해야 합니다. conda activate llm-cpp # 연동 스크립트 실행 init-ollama.bat
- GPU 사용을 위한 환경 변수 설정 및 Ollama 서버 실행: 마지막 단계입니다. 다음 명령어들을 차례대로 입력하여 Ollama 서버를 실행합니다.이제 시스템 트레이의 귀여운 아이콘 대신, 터미널 창에 수많은 로그가 출력되면서 서버가 실행됩니다. 이 터미널 창은 닫지 말고 그대로 두세요.
# Ollama가 사용할 GPU 코어 수를 지정 (999는 "가능한 모든 코어 사용"을 의미) set OLLAMA_NUM_GPU=999 # 로컬 통신을 위한 프록시 설정 해제 set no_proxy=localhost,127.0.0.1 # 인텔 시스템 관리 도구 활성화 set ZES_ENABLE_SYSMAN=1 # SYCL 커널 캐시를 영구적으로 사용해 다음 실행 시 속도 향상 set SYCL_CACHE_PERSISTENT=1 # 경우에 따라 성능을 향상시킬 수 있는 명령어 리스트 사용 설정 set SYCL_PI_LEVEL_ZERO_USE_IMMEDIATE_COMMANDLISTS=1 # 모든 설정과 함께 Ollama 서버 실행 ollama serve
성능 확인: 날아오르는 내 노트북!
모든 설정이 끝났습니다. 이제 극적인 성능 향상을 직접 확인해볼 시간입니다.
- 새로운 Miniforge Prompt 창을 엽니다. (서버가 실행 중인 창은 그대로 두세요)
- 새 창에서
llm-cpp
가상 환경을 활성화합니다. conda activate llm-cpp
- 이제
ollama run
명령어로 모델을 실행해 보세요. 아까와 동일한llama3
모델로 테스트해 보겠습니다. ollama run llama3
- 모델이 로딩된 후, 아무 질문이나 던져보고 작업 관리자를 다시 확인해 보세요.
놀랍게도, 아까는 0%에서 놀고 있던 Intel Iris Xe Graphics의 사용률이 90% 이상으로 치솟는 것을 볼 수 있습니다! CPU 사용률은 오히려 낮아졌습니다.
체감 속도 역시 비교가 불가능할 정도로 빨라집니다. 한 글자씩 나오던 답변이 이제는 주르륵 실시간으로 출력됩니다. 드디어 내 노트북의 잠자고 있던 GPU를 깨워 로컬 LLM을 쾌적하게 사용할 수 있게 된 것입니다!
4. 다음 단계: 로컬 LLM 활용도 높이기
CLI 환경이 익숙하지 않다면, ChatGPT처럼 편리한 웹 UI를 붙여서 사용할 수도 있습니다.
- Open WebUI: 가장 인기 있는 Ollama용 웹 인터페이스입니다. Docker를 통해 쉽게 설치할 수 있으며, 여러 모델을 동시에 비교하거나 문서를 업로드해 해당 내용을 기반으로 답변하게 하는 등 강력한 기능을 제공합니다.
또한, Ollama는 로컬에서 API 서버(기본적으로 http://localhost:11434
)를 열어주기 때문에, 파이썬(Python), 자바스크립트(JavaScript) 등 다양한 프로그래밍 언어로 자신만의 AI 애플리케이션을 개발할 수도 있습니다.
5. 마치며
지금까지 인텔 내장 그래픽을 탑재한 윈도우 노트북에서 Ollama와 IPEX-LLM을 활용해 로컬 LLM 환경을 구축하고, GPU 가속을 통해 성능을 극대화하는 방법을 자세히 알아보았습니다.
처음에는 과정이 다소 복잡하게 느껴질 수 있지만, 이 가이드를 통해 여러분은 더 이상 비싼 NVIDIA 그래픽카드 없이도, 외부 서버에 의존하지 않고도 강력한 AI 모델을 자유롭게 활용할 수 있는 힘을 얻게 되었습니다. 데이터 주권을 지키면서 나만의 AI 비서를 만들고, 창의적인 아이디어를 코드로 구현하고, 복잡한 문서를 요약하는 등 그 가능성은 무한합니다.
이제 여러분의 노트북에서 잠자고 있던 AI의 잠재력을 마음껏 깨워보시길 바랍니다
이 글은 아래 글을 바탕으로 GEMINI를 이용해 재작성한 것입니다.
윈도우 노트북(인텔 GPU)으로 로컬 환경에서 LLM(llama, deepseek 등) 사용하기/Ollama, ipex-llm, Intel
윈도우 노트북(인텔 GPU)으로 로컬 환경에서 LLM(llama, deepseek 등) 사용하기/Ollama, ipex-llm, Intel
목차1. 개요2. Ollama 설치 및 사용(기본적인 경로)3. 기본적인 경로를 통한 Ollama 사용 시 문제점4. IPEX-LLM을 활용(Intel GPU를 활용)하여 Ollama 사용하는 방법 1. 개요 오픈AI가 ChatGPT를 발표한 이래로
codealone.tistory.com
'GEMINI 활용' 카테고리의 다른 글
[완벽 가이드] 안드로이드 스마트폰에서 PC처럼 Git 사용하기 (Termux 활용) (3) | 2025.07.31 |
---|---|
한글 완벽 정복: 전체 쪽수 표시부터 스타일 변경까지, 쪽 번호 마스터하기 (2) | 2025.07.31 |
아래아한글(HWP) 낫표(「」, 『』) 완벽 정복: 설정부터 사용법까지 (10) | 2025.07.31 |
📱 스마트폰으로 파이썬(Python) 코딩? Pydroid 3만 있으면 문제없어요! (안드로이드, 태블릿 완벽 가이드) (5) | 2025.07.31 |
한컴오피스 한글, 목차 전문가처럼 자동 생성하고 관리하는 완벽 가이드 (1) | 2025.07.31 |
댓글