반달가면 [B-Side] :: 비전 AI 모델 llava를 이용한 이미지 인식

리눅스2025. 3. 22. 14:44

비전 AI 모델 llava를 이용한 이미지 인식 - 리눅스 민트 + ollama + llava

ollama에서 구동할 수 있는 공개 AI 거대언어모델(LLM)중에 이미지를 인식할 수 있는 llava라는 모델이 있어서 시험해 보았다. 비전(vision) AI 모델이라고 해서 이미지를 입력하면 이로부터 텍스트를 생성하는 기능을 제공한다. 리눅스 민트(linux mint) 22 XFCE를 설치한 레노버 LOQ-e 15IAX9E에서 진행.

# ollama 서비스 실행
sudo systemctl start ollama

# llava 모델 다운로드
ollama pull llava:latest

# ollama 실행, llava 구동
ollama run llava:latest

llava 모델에 이미지 인식을 하려면 아래와 같이 프롬프트를 입력할 때 이미지 파일의 경로를 덧붙여 주면 된다. 이미지의 경로는 절대경로로 지정해 주어야 함에 유의하자. ~/Pictures/my_pic.jpg 이런 식이 아니라 전체 경로를 지정한다. 이미지 경로가 정확하지 않으면 그냥 아무말이나 막 하는 것 같다. 예를 들어 아래와 같이 입력하면 my_pic.jpg 이미지에 어떤 것들이 있는지 답을 해 준다.

describe this image. /home/john/Pictures/my_pic.jpg

몇 번 실험을 해 봤는데, 한국어로 이미지를 설명하는 것보다는 영어로 설명하도록 요청해야 더 정확하고 매끄러운 답변을 주는 것 같다. 일단 영어로 답을 받은 후에 구글 번역 같은 것으로 한국어로 바꾸는 것이 더 나은 것 같기도.

이미지는 일반 프롬프트보다 데이터가 많을 것이므로 새로운 이미지를 인식하기 전에 이전 대화를 초기화하는 것이 낫지 않을까 싶다. 초기화는 프롬프트를 입력할 때 /clear 명령을 입력하면 된다.

728x90

'리눅스' 카테고리의 다른 글

pdfinfo - 리눅스 터미널창에서 pdf 파일 정보 확인 (0)	2025.03.31
도커(docker) 컨테이너와 호스트의 디렉토리 연결 (0)	2025.03.27
tmux 실행창 크기 변경하기 (0)	2025.03.04
리눅스 wget에서 다운로드 중단된 파일을 이어서 받기 (0)	2025.02.23
오드로이드 M1S에 2TB NVME SSD 장착 (0)	2025.02.20

Posted by 반달가면

일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

반달가면 [B-Side]

비전 AI 모델 llava를 이용한 이미지 인식 - 리눅스 민트 + ollama + llava

'리눅스' 카테고리의 다른 글

카테고리

공지사항

태그목록

최근에 올라온 글

최근에 달린 댓글

최근에 받은 트랙백

글 보관함

달력

링크

티스토리툴바