import streamlit as st
from streamlit_chat import message
from langchain_community.embeddings import HuggingFaceEmbeddings
from langchain_community.chat_models import ChatOllama
from langchain.chains import ConversationalRetrievalChain
from langchain.vectorstores import FAISS
import tempfile
from langchain.document_loaders import PyPDFLoader
uploaded_file = st.sidebar.file_uploader("upload", type="pdf") # PDF 파일 업로드
if uploaded_file:
with tempfile.NamedTemporaryFile(delete=False) as tmp_file: # 임시 파일 생성
tmp_file.write(uploaded_file.getvalue()) # 업로드된 PDF 파일을 임시 파일로 저장
tmp_file_path = tmp_file.name # 임시 파일 경로 저장
loader = PyPDFLoader(tmp_file_path) # PDF 파일 로드
data = loader.load() # PDF 파일에서 데이터 추출
# 다국어 지원 문장 임베딩 모델 (한국어 포함)
embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2")
vectors = FAISS.from_documents(data, embeddings) # 문서에서 벡터 저장소 생성
# llama3-ko 모델로 Conversational QA 체인 구성
chain = ConversationalRetrievalChain.from_llm(
llm=ChatOllama(model="llama3-ko", temperature=0.0),
retriever=vectors.as_retriever() # 문서 검색기 설정
)
def conversational_chat(query):
result = chain({"question": query, "chat_history": st.session_state['history']}) # 대화 기록 포함
st.session_state['history'].append((query, result["answer"])) # 대화 기록 업데이트
return result["answer"] # 답변 반환
if 'history' not in st.session_state:
st.session_state['history'] = [] # 대화 기록 초기화
if 'generated' not in st.session_state:
st.session_state['generated'] = ["안녕하세요! " + uploaded_file.name + "에 관해 질문주세요."]
if 'past' not in st.session_state:
st.session_state['past'] = ["안녕하세요!"]
response_container = st.container()
container = st.container()
with container:
with st.form(key='Conv_Question', clear_on_submit=True):
user_input = st.text_input("Query:", placeholder="PDF파일에 대해 얘기해볼까요? (:", key='input')
submit_button = st.form_submit_button(label='Send')
if submit_button and user_input:
output = conversational_chat(user_input)
st.session_state['past'].append(user_input)
st.session_state['generated'].append(output)
if st.session_state['generated']:
with response_container:
for i in range(len(st.session_state['generated'])):
message(st.session_state["past"][i], is_user=True, key=str(i) + '_user',
avatar_style="fun-emoji", seed="Nala")
message(st.session_state["generated"][i], key=str(i), avatar_style="bottts", seed="Fluffy")