1. 데이터를 분석하기 전 행렬구조의 데이터를 넣는 구조는?
데이터프레임
2. 1번의 데이터 구조를 사용하기 위한 라이브러리는?
pandas
3. 판단하기 적합한 선을 찾거나, 랜덤한 샘플 데이터를 만들기 위한 라이브러리는?
numpy
4. 데이터 분석과정 plot으로 확인하거나,
최종 분석 결과를 표현하기 위한 plot을 사용한다.
이때 필요한 라이브러리는?
matplotlib.pyplot
5.데이터 프레임에서 행과 열을 삭제하는 함수는?
drop
데이터프레임명.drop(columns=['컬럼명'], inplace=True)
6.두 데이터프레임을 조인할 때 행과 열을 합하는 함수는?
join,
concat
7.데이터 프레임에서 두 항목의 상관 관계를 알기위한 함수는?
이 상관관계를 나타내는 숫자를 무엇이라고 하는가?
이 상관관계를 나타내는 숫자의 범위는?
corr()
상관계수
(+-)0~1까지
8. 7번의 결과가 0.78이 나왔다. 어떻게 판단하는가?
두 컬럼은 상관관계가 높다고 판단할 수 있다.
9. 데이터의 흩어져 있는 정도를 그릴 수 있는 plot은?한글/영문
산점도 scatter
10. 흩어져 있는 정도를 보고, plot위에 판단의 적정 기준선을 그려 넣고 싶다.
기준선을 넣기 위한 방법을 순서대로 함수를 이용하여 설명하시오.
regplot의 fit_reg=True이용
import seaborn as sns