ollama에서 구동할 수 있는 공개 AI 거대언어모델(LLM)중에 이미지를 인식할 수 있는 llava라는 모델이 있어서 시험해 보았다. 비전(vision) AI 모델이라고 해서 이미지를 입력하면 이로부터 텍스트를 생성하는 기능을 제공한다. 리눅스 민트(linux mint) 22 XFCE를 설치한 레노버 LOQ-e 15IAX9E에서 진행.
# ollama 서비스 실행
sudo systemctl start ollama
# llava 모델 다운로드
ollama pull llava:latest
# ollama 실행, llava 구동
ollama run llava:latest
llava 모델에 이미지 인식을 하려면 아래와 같이 프롬프트를 입력할 때 이미지 파일의 경로를 덧붙여 주면 된다. 이미지의 경로는 절대경로로 지정해 주어야 함에 유의하자. ~/Pictures/my_pic.jpg 이런 식이 아니라 전체 경로를 지정한다. 이미지 경로가 정확하지 않으면 그냥 아무말이나 막 하는 것 같다. 예를 들어 아래와 같이 입력하면 my_pic.jpg 이미지에 어떤 것들이 있는지 답을 해 준다.
describe this image. /home/john/Pictures/my_pic.jpg
몇 번 실험을 해 봤는데, 한국어로 이미지를 설명하는 것보다는 영어로 설명하도록 요청해야 더 정확하고 매끄러운 답변을 주는 것 같다. 일단 영어로 답을 받은 후에 구글 번역 같은 것으로 한국어로 바꾸는 것이 더 나은 것 같기도.
이미지는 일반 프롬프트보다 데이터가 많을 것이므로 새로운 이미지를 인식하기 전에 이전 대화를 초기화하는 것이 낫지 않을까 싶다. 초기화는 프롬프트를 입력할 때 /clear 명령을 입력하면 된다.
'리눅스' 카테고리의 다른 글
도커(docker) 컨테이너와 호스트의 디렉토리 연결 (0) | 2025.03.27 |
---|---|
tmux 실행창 크기 변경하기 (0) | 2025.03.04 |
리눅스 wget에서 다운로드 중단된 파일을 이어서 받기 (0) | 2025.02.23 |
오드로이드 M1S에 2TB NVME SSD 장착 (0) | 2025.02.20 |
리눅스 ollama 웹서버 포트 번호 변경 (0) | 2025.02.17 |