[빅데이터를 지탱하는 기술] 1. 빅데이터의 기초 지식 (1)
·
Data Engineering/책 리뷰
1-1. 빅데이터의 정착 분산 시스템에 의한 데이터 처리의 고속화 ▪ 빅데이터의 등장으로 새로운 가치 창출이나 비즈니스 의사결정을 위해 여러 비즈니스에서 사용하려는 시도 ▪ but 빅데이터의 취급이 어려운 이유 - 데이터 분석 방법을 모름 - 데이터 처리에 수고와 시간이 걸린다. ▪ 이러한 문제를 해결하기 위해 여러 효율적인 방법들이 등장함 빅데이터 기술의 요구 ▪ 관계형 데이터베이스(RDB)로는 취급할 수 없을 정도의 대규모 데이터가 생기면서 새로운 구조가 필요하게 됨 ▪ 이러한 문제를 해결하기 위한 새로운 구조가 Hadoop과 NoSQL Hadoop과 NoSQL의 위치 관계 ▪ 웹서버에서 생성된 데이터는 RDB와 NoSQL 등의 텍스트 테이터로 저장됨 ▪ 그 후 모든 데이터가 Hadoop으로 모여 대..
[Linux] 기본 명령어
·
Linux
폴더 만들기 (make directory)$ mkdir do$ mkdir -p do/do1/do2 해당 폴더로 이동 (change directory)$ cd do 상위 폴더로 이동 (change directory)$ cd .. 작업 경로 확인 (print working directory)$ pwd 파일 생성$ touch test.py 디렉토리에 있는 파일 확인 (list)$ ls 디렉토리에 있는 파일 권한도 같이 확인$ ls -al$ ll 터미널 화면 지우기$ clear 파일 내용 수정하기$ vi test.pyi # 끼워 넣기print('hello world') # 작성할 내용 입력ESC :q! # 종료:wq! # 쓰고 종료 파일 실행$ python test.py 파일 읽기$ cat test.py..
[R] 기본 문법 (연산자, 소수점 처리, 반복문, if문, 함수, 출력 함수)
·
Language/R
기본 연산자 %%: 나머지, %/%: 몫, ** ^:거듭제곱 > 7 %% 2 [1] 1 > 7 %/% 2 [1] 3 > 2 ** 3 [1] 8 > 2^3 [1] 8 소수점 처리 올림 > ceiling(1.1) [1] 2 내림 > floor(1.1) [1] 1 반올림 > round(1.1) [1] 1 > round(1.5) [1] 2 소수점 반올림 > round(1.111, 1) [1] 1.1 > round(1.111, 2) [1] 1.11 소수점 이하 버림 > trunc(1.9999) [1] 1 반복문 for문 for (i in c(1:5)){ print(i) } [1] 1 [1] 2 [1] 3 [1] 4 [1] 5 while문 i print("a"); print("b"); print("c") [1] "..
[R] 다변수정규분포 생성 (mvrnorm)
·
Language/R
다변수정규분포(multivariate normal distribution): 평균벡터인 μ와 공분산 행렬인 Σ를 모수로 가진다. (D는 차원수) 2차원인 다변수정규분포의 모수가 다음과 같을 때 100개 추출 library(MASS) x
[Python] 데이터프레임 합치기, 중복 행 제거
·
Language/Python
df1 = pd.DataFrame({'time':[1, 2, 3, 4, 5, 6], 'price':[1100, 1200, 1300, 1400, 1500, 1600]}) df2 = pd.DataFrame({'time':[4, 5, 6, 7, 8, 9], 'price':[1400, 1500, 1600, 1700, 1800, 1900]}) 데이터프레임 합치기 df = pd.concat([df1,df2], ignore_index=True) ignore_index=True는 인덱스 초기화 데이터프레임 중복값 제거 df = df.drop_duplicates(['time']).reset_index(drop=True) 지정한 열을 기준으로 중복값을 제거
[Python] len()과 size()의 차이점
·
Language/Python
len() 가장 바깥 괄호를 기준으로 원소의 개수를 반환 t = np.array([[1,2],[3,4]]) print(len(t)) 2 size() 모든 원소의 개수를 반환 t = np.array([[1,2],[3,4]]) print(t.size) 4
[Python] Numpy 모듈 정리(zeros ,random,argmax)
·
Language/Python
np.zeros() 0인 ndarray 생성 np.zeros(3) array([0., 0., 0.]) 리스트와 같은 길이이고 0인 ndarray 생성 x = np.zeros_like([1,2,3]) array([0, 0, 0]) np.random.randn() 표준정규분포로부터 추출한 원소들로 구성된 이차원 ndarray 생성 np.random.randn(3,2) array([[-0.64151758, 0.52276469], [ 2.07010233, 1.11914816], [ 0.67957768, 2.04177579]]) np.random.choice(n,x) 0과 n-1 사이에서 추출한 값을 가지는 길이가 x인 ndarray 생성 x = np.random.choice(2,3) x array([0, 0, ..
[Python] 함수를 매개변수로 사용하기
·
Language/Python
example이라는 함수의 매개변수인 f에 함수를 대입 def multiplication(x): return x*2 def example(f,z): return f(z) + 1 example(multiplication,3) 7 lambda 함수를 이용한 방법 multiplication = lambda x: x*2 def example(f,z): return f(z) + 1 example(multiplication,3) 7