처음부터 시작하는 프로그래밍 | (hotel-chatbot) txt-to-csv.py - Daum 카페

<p><span style="color: #333333;" data-ke-size="size18">import pandas as pd</span></p><p><span style="color: #333333;" data-ke-size="size18">import re</span></p><p> </p><p><b><span style="color: #333333;" data-ke-size="size18"># 문자열의 줄 바꿈과 연속된 공백을 삭제하는 함수</span></b></p><p><span style="color: #333333;" data-ke-size="size18">def remove_newlines(text):</span></p><p><span style="color: #333333;" data-ke-size="size18">    text = re.sub(r'\n', ' ', text) # 줄 바꿈을 공백으로 대체</span></p><p><span style="color: #333333;" data-ke-size="size18">    text = re.sub(r' +', ' ', text) # 연속된 공백을 하나의 공백으로 대체</span></p><p><span style="color: #333333;" data-ke-size="size18">    return text</span></p><p> </p><p><b><span style="color: #333333;" data-ke-size="size18"># 텍스트 파일을 읽어서 DataFrame으로 변환하는 함수</span></b></p><p><span style="color: #333333;" data-ke-size="size18">def text_to_df(data_file):</span></p><p><span style="color: #333333;" data-ke-size="size18">    texts = [] # 텍스트를 저장할 리스트</span></p><p> </p><p><span style="color: #333333;" data-ke-size="size18">    with open(data_file, 'r', encoding='utf-8') as file:</span></p><p><span style="color: #333333;" data-ke-size="size18">        text = file.read() # 파일 내용을 문자열로 불러오기</span></p><p><span style="color: #333333;" data-ke-size="size18">        sections = text.split('\n\n') # 줄 바꿈으로 문자열을 두 줄로 나누기</span></p><p> </p><p><span style="color: #333333;" data-ke-size="size18">        for section in sections:</span></p><p><span style="color: #333333;" data-ke-size="size18">            lines = section.split('\n') # 섹션을 줄 바꿈으로 나누기</span></p><p><span style="color: #333333;" data-ke-size="size18">            fname = lines[0] # "lines" 목록의 첫 번째 요소를 얻기</span></p><p><span style="color: #333333;" data-ke-size="size18">            content = ' '.join(lines[1:]) # 'lines' 목록의 두 번째 이후 요소를 얻기</span></p><p><span style="color: #333333;" data-ke-size="size18">            texts.append([fname, content]) # 타이틀과 내용을 리스트에 추가</span></p><p> </p><p><span style="color: #333333;" data-ke-size="size18">    df = pd.DataFrame(texts, columns=['fname', 'text']) # 리스트를 DataFrame으로 변환</span></p><p><span style="color: #333333;" data-ke-size="size18">    df['text'] = df['text'].apply(remove_newlines) # 'text' 열에 있는 텍스트에 remove_newlines 함수 적용</span></p><p> </p><p><span style="color: #333333;" data-ke-size="size18">    return df # DataFrame 반환</span></p><p> </p><p><span style="color: #333333;" data-ke-size="size18">df = text_to_df('./02_hotel_chatbot/data.txt') # 'data.txt' 파일을 읽어서 DataFrame으로 변환</span></p><p><span style="color: #333333;" data-ke-size="size18">df.to_csv('./02_hotel_chatbot/data.csv', index=False, encoding='utf-8') # DataFrame을 CSV 파일로 저장</span></p>

카페정보

처음부터 시작하는 프로그래밍

실버 (공개)
카페지기 주인장
회원수 176
방문수10
카페앱수7

카페 전체 메뉴

▲

카페 게시글

목록 이전글 다음글

ML/DL/AI GPT (hotel-chatbot) txt-to-csv.py

주인장 추천 0 조회 19 24.10.12 18:32 댓글 0

게시글 본문내용

다음검색

저작자 표시 컨텐츠변경 비영리

댓글

검색 옵션 선택상자

댓글내용선택됨 옵션 더 보기

댓글내용

댓글 작성자

연관검색어

환율

환자

환기

최신목록