// svdComplexDevice1.cpp : Defines the exported functions for the DLL application.
//


#include "stdafx.h"

#define CULA_USE_CUDA_COMPLEX   //win32

#include "svdComplexDevice1.h"
#include <cuda_runtime.h>
#include <cula_blas_device.h>

extern "C" __declspec(dllexport) void __cdecl selfSVD(const int M, const int N,
	float* matrixA, float* matrixS, float* matrixR, float* matrixT) {
	if (!MeetsMinimumCulaRequirements())
		printf("Version check failed\n");
	culaDeviceComplexSVDExample(M, N, matrixA, matrixS, matrixR, matrixT);
	printf("Version check passed\n\n");
}

extern "C" __declspec(dllexport) void __cdecl selfgemm
(int M, int N, int K, float* matrixA, float* matrixB, float* matrixC) {

	if (!MeetsMinimumCulaRequirements())
		printf("Version check failed\n");
	culaDeviceComplexgemmExample(M, N, K, matrixA, matrixB, matrixC);
	printf("Version check passed\n\n");
}

void culaDeviceComplexSVDExample(const int M, const int N,
	float* matrixA, float* matrixS, float* matrixR, float* matrixT) {

	int i;
	char jobu = 'A', jobvt = 'A';
	int LDA = M, LDU = M, LDVT = N;

	time_t begin_time;
	time_t end_time;
	double cula_time;

	culaStatus status;
	cudaError_t err;

	// point to host memory
	culaFloatComplex* Matrix_A = NULL;
	culaFloat*        Matrix_S = NULL;
	culaFloatComplex* Matrix_R = NULL;
	culaFloatComplex* Matrix_T = NULL;

	// point to device memory
	culaDeviceFloatComplex* Matrix_A_device = NULL;
	culaDeviceFloat*        Matrix_S_device = NULL;
	culaDeviceFloatComplex* Matrix_R_device = NULL;
	culaDeviceFloatComplex* Matrix_T_device = NULL;

	printf("Allocating Matrices\n");
	Matrix_A = (culaFloatComplex*)malloc(M*N * sizeof(culaFloatComplex));
	Matrix_S = (culaFloat*)malloc(M*N * sizeof(culaFloat));
	Matrix_R = (culaFloatComplex*)malloc(M*M * sizeof(culaFloatComplex));
	Matrix_T = (culaFloatComplex*)malloc(N*N * sizeof(culaFloatComplex));

	if (!Matrix_A || !Matrix_S || !Matrix_R || !Matrix_T) { /* Memory location failed */
		free(Matrix_A);
		free(Matrix_S);
		free(Matrix_R);
		free(Matrix_T);
		exit(EXIT_FAILURE);
	}

	err = cudaMalloc((void**)&Matrix_A_device, M*N * sizeof(culaFloatComplex));
	checkCudaError(err);

	err = cudaMalloc((void**)&Matrix_S_device, M*N * sizeof(culaFloat));
	checkCudaError(err);

	err = cudaMalloc((void**)&Matrix_R_device, M*M * sizeof(culaFloatComplex));
	checkCudaError(err);

	err = cudaMalloc((void**)&Matrix_T_device, N*N * sizeof(culaFloatComplex));
	checkCudaError(err);

	printf("Initializing CULA\n");
	status = culaInitialize();
	checkStatus(status);

	//	matrix A
	for (i = 0; i<M*N; i++) {
		Matrix_A[i].x = (culaFloat)matrixA[2 * i];
		Matrix_A[i].y = (culaFloat)matrixA[2 * i + 1];
	}

	err = cudaMemcpy(Matrix_A_device, Matrix_A, M*N * sizeof(culaFloatComplex), cudaMemcpyHostToDevice);
	checkCudaError(err);

	printf("Calling culaDeviceCgesvd\n");
	time(&begin_time);
	status = culaDeviceCgesvd(jobu, jobvt, M, N, Matrix_A_device, LDA,
		Matrix_S_device, Matrix_R_device, LDU, Matrix_T_device, LDVT);
	checkStatus(status);
	time(&end_time);

	cula_time = difftime(end_time, begin_time);
	printf("done. (%7.5f seconds)\n\n", cula_time);

	err = cudaMemcpy(Matrix_S, Matrix_S_device, M*N * sizeof(culaFloat), cudaMemcpyDeviceToHost);
	checkCudaError(err);
	err = cudaMemcpy(Matrix_R, Matrix_R_device, M*M * sizeof(culaFloatComplex), cudaMemcpyDeviceToHost);
	checkCudaError(err);
	err = cudaMemcpy(Matrix_T, Matrix_T_device, N*N * sizeof(culaFloatComplex), cudaMemcpyDeviceToHost);
	checkCudaError(err);

	culaShutdown();
	printf("CULA shutdown passed\n\n");

	//	matrix S
	for (int i = 0; i<min(M, N); i++) {
		matrixS[i] = (float)Matrix_S[i];
	}

	//	matrix U
	for (int i = 0; i<M*M; i++) {
		matrixR[2 * i] = (float)Matrix_R[i].x;
		matrixR[2 * i + 1] = (float)Matrix_R[i].y;
	}

	//	matrix VT
	for (int i = 0; i<N*N; i++) {
		matrixT[2 * i] = (float)Matrix_T[i].x;
		matrixT[2 * i + 1] = (float)Matrix_T[i].y;
	}

	/* Clean up workspace, input, and output memory allocations */
	cudaFree(Matrix_A_device);
	cudaFree(Matrix_S_device);
	cudaFree(Matrix_R_device);
	cudaFree(Matrix_T_device);
	free(Matrix_A);
	free(Matrix_S);
	free(Matrix_R);
	free(Matrix_T);
}

void culaDeviceComplexgemmExample
(int M, int N, int K, float* matrixA, float* matrixB, float* matrixC) {

	int i;
	char transa = 'N', transb = 'N';

	culaFloatComplex alpha = { 1, 0 }, beta = { 0, 0 };
	int LDA = M, LDB = K, LDC = M;

	time_t begin_time;
	time_t end_time;
	double cula_time;

	culaStatus status;
	cudaError_t err;

	// point to host memory
	culaFloatComplex* Matrix_A = NULL;
	culaFloatComplex* Matrix_B = NULL;
	culaFloatComplex* Matrix_C = NULL;

	// point to device memory
	culaDeviceFloatComplex* Matrix_A_device = NULL;
	culaDeviceFloatComplex* Matrix_B_device = NULL;
	culaDeviceFloatComplex* Matrix_C_device = NULL;

	printf("Allocating Matrices\n");
	Matrix_A = (culaFloatComplex*)malloc(M*K * sizeof(culaFloatComplex));
	Matrix_B = (culaFloatComplex*)malloc(K*N * sizeof(culaFloatComplex));
	Matrix_C = (culaFloatComplex*)malloc(M*N * sizeof(culaFloatComplex));

	if (!Matrix_A || !Matrix_B || !Matrix_C) { /* Memory location failed */
		free(Matrix_A);
		free(Matrix_B);
		free(Matrix_C);
		exit(EXIT_FAILURE);
	}

	err = cudaMalloc((void**)&Matrix_A_device, M*K * sizeof(culaFloatComplex));
	checkCudaError(err);

	err = cudaMalloc((void**)&Matrix_B_device, K*N * sizeof(culaFloatComplex));
	checkCudaError(err);

	err = cudaMalloc((void**)&Matrix_C_device, M*N * sizeof(culaFloatComplex));
	checkCudaError(err);

	printf("Initializing CULA\n");
	status = culaInitialize();
	checkStatus(status);

	//	matrix A
	for (i = 0; i< M*K; i++) {
		Matrix_A[i].x = (culaFloat)matrixA[2 * i];
		Matrix_A[i].y = (culaFloat)matrixA[2 * i + 1];
	}

	//	matrix B
	for (i = 0; i< K*N; i++) {
		Matrix_B[i].x = (culaFloat)matrixB[2 * i];
		Matrix_B[i].y = (culaFloat)matrixB[2 * i + 1];
	}

	err = cudaMemcpy(Matrix_A_device, Matrix_A, M*K * sizeof(culaFloatComplex),
		cudaMemcpyHostToDevice);
	checkCudaError(err);
	err = cudaMemcpy(Matrix_B_device, Matrix_B, K*N * sizeof(culaFloatComplex),
		cudaMemcpyHostToDevice);
	checkCudaError(err);

	printf("Calling culaDeviceCgemm\n");
	time(&begin_time);
	status = culaDeviceCgemm(transa, transb, M, N, K, alpha, Matrix_A_device, LDA,
		Matrix_B_device, LDB, beta, Matrix_C_device, LDC);
	checkStatus(status);
	time(&end_time);

	cula_time = difftime(end_time, begin_time);
	printf("done. (%7.5f seconds)\n\n", cula_time);

	err = cudaMemcpy(Matrix_C, Matrix_C_device, M*N * sizeof(culaFloatComplex),
		cudaMemcpyDeviceToHost);
	checkCudaError(err);

	culaShutdown();
	printf("CULA shutdown passed\n\n");

	//	matrix C
	for (i = 0; i<M*N; i++) {
		matrixC[2 * i] = (float)Matrix_C[i].x;
		matrixC[2 * i + 1] = (float)Matrix_C[i].y;
	}

	/* Clean up workspace, input, and output memory allocations */
	cudaFree(Matrix_A_device);
	cudaFree(Matrix_B_device);
	cudaFree(Matrix_C_device);
	free(Matrix_A);
	free(Matrix_B);
	free(Matrix_C);
}

/* Check for errors and exit if one occurred */
void checkStatus(culaStatus status) {
	char buf[80];
	if (!status) return;
	culaGetErrorInfoString(status, culaGetErrorInfo(), buf, sizeof(buf));
	printf("%s\n", buf);
	culaShutdown();
	exit(EXIT_FAILURE);
}

void checkCudaError(cudaError_t err) {
	if (!err) return;
	printf("%s\n", cudaGetErrorString(err));
	culaShutdown();
	exit(EXIT_FAILURE);
}

int MeetsMinimumCulaRequirements() {
	int culaVersion = culaGetVersion();
	int cudaMinimumVersion = culaGetCudaMinimumVersion();
	int cudaRuntimeVersion = culaGetCudaRuntimeVersion();
	int cudaDriverVersion = culaGetCudaDriverVersion();
	int cublasMinimumVersion = culaGetCublasMinimumVersion();
	int cublasRuntimeVersion = culaGetCublasRuntimeVersion();

#define CULA_GET_VERSION(x) (x)/1000, ((x)%100)/10
	printf("Detecting software versions:\n");
	printf("- CULA:           %d.%d\n", CULA_GET_VERSION(culaVersion));
	printf("- CUDA Runtime:   %d.%d\n", CULA_GET_VERSION(cudaRuntimeVersion));
	printf("- CUDA Driver:    %d.%d\n", CULA_GET_VERSION(cudaDriverVersion));
	printf("- CUBLAS Runtime: %d.%d\n", CULA_GET_VERSION(cublasRuntimeVersion));
	printf("\n");

	if (cudaRuntimeVersion < cudaMinimumVersion) {
		printf("CUDA runtime version is insufficient; version %d or greater is required\n", cudaMinimumVersion);
		return 0;
	}

	if (cudaDriverVersion < cudaMinimumVersion) {
		printf("CUDA driver version is insufficient; version %d or greater is required\n", cudaMinimumVersion);
		return 0;
	}

	if (cublasRuntimeVersion < cublasMinimumVersion) {
		printf("CUBLAS runtime version is insufficient; version %d or greater is required\n", cublasMinimumVersion);
		return 0;
	}

	return 1;
}