https://youtu.be/2RGGkKh3SHA
AI로 PDF 테이블 인식해서 GPTs만들기(gemini,claude,chatGPT 성능비교)
주기적으로 발표되는 자료를 누적해서 통계를 내는 작업이 필요할 때
아래와 같은 작업들이 필요합니다.
1. 자료를 테이블로 만들기
발표되는 자료가 pdf인 경우 pdf를 인식해서 테이블화 해야 합니다.
2. 자료 누적하기
엑셀이 제일 좋죠. 엑셀 한 개의 시트에 차곡차곡 넣는 방법도 있을 수 있고
시트별로 넣을 수도 있을 겁니다. 이번 예제는 시트별로 넣는 경우입니다.
3. 통계분석하기
엑셀에서도 소팅해서 최대값,최소값 등을 구할 수 있지만 엑셀의 모양이 변하면서 좀 복잡해질 가능성이 높습니다. 하지만 LLM에 질문만 하면 대답을 척척해줍니다. 그래프도 그려줍니다.
pdf의 테이블을 인식하는 작업은 gemini, claude, chatGPT 세가지 LLM을 사용해서 성능을 비교해봤습니다.
테이블화된 데이터를 엑셀어 넣고 엑셀파일을 GPTs 의 Knowledge에 올리고 적절한 instruction(지침)을 주었습니다.
제가 적용한 지침은 아래와 같습니다.
업로드한 pe_stat.xlsx파일을 참조해. 각 시트의 이름은 회차임. 사용자가 원하는 질문에 답변해.
테이블의 첫 행은 테이블 데이터의 합이므로 질문에 따라서 무시할 필요가 있으면 무시해.
회차마다 종목이 다르므로 주의해.
data frame을 만들 때 종목이름에 포함된 ( )와 그 안의 숫자는 무시해.
사용자가 질문하면 해당 회차에 해당 종목이 있는지 먼저 검토한 후 진행해.
사용자가 그래프를 그려달라고 요구하면 knowledge에 올린
koreanize_matplotlib-0.1.1-py3-none-any.whl 를 설치한 후 그래프를 그려줘
칼럼 이름은 '순번','종목','대상','응시','합격'이야.
답변은 한글로해.
이렇게 만들어진 기술사2차합격자현황 GPTs의 URL은 다음과 같습니다.
https://chatgpt.com/g/g-wpHE3bBhS-gisulsa2cahabgyeogjatonggye
#gemini #claude #chatGPT #AI #기술사 #GPTs #토목구조기술사 #PDF #토목시공기술사