scran_pca/simple__pca_8hpp_source.html

#ifndef SCRAN_PCA_SIMPLE_PCA_HPP

#define SCRAN_PCA_SIMPLE_PCA_HPP


#include "tatami/tatami.hpp"

#include "tatami_stats/tatami_stats.hpp"

#include "irlba/irlba.hpp"

#include "irlba/parallel.hpp"

#include "Eigen/Dense"


#include <vector>

#include <type_traits>

#include <algorithm>


#include "utils.hpp"


namespace scran_pca {


struct SimplePcaOptions {

    SimplePcaOptions() {

        irlba_options.cap_number = true;

    }

    int number = 25;


    bool scale = false;


    bool transpose = true;


    int num_threads = 1;


    bool realize_matrix = true;


    irlba::Options irlba_options;

};


namespace internal {


template<bool sparse_, typename Value_, typename Index_, class EigenVector_>

void compute_row_means_and_variances(const tatami::Matrix<Value_, Index_>& mat, int num_threads, EigenVector_& center_v, EigenVector_& scale_v) {

    if (mat.prefer_rows()) {

        tatami::parallelize([&](size_t, Index_ start, Index_ length) -> void {

            tatami::Options opt;

            opt.sparse_extract_index = false;

            auto ext = tatami::consecutive_extractor<sparse_>(&mat, true, start, length, opt);

            auto ncells = mat.ncol();

            std::vector<Value_> vbuffer(ncells);


            for (Index_ r = start, end = start + length; r < end; ++r) {

                auto results = [&]{

                    if constexpr(sparse_) {

                        auto range = ext->fetch(vbuffer.data(), NULL);

                        return tatami_stats::variances::direct(range.value, range.number, ncells, /* skip_nan = */ false);

                    } else {

                        auto ptr = ext->fetch(vbuffer.data());

                        return tatami_stats::variances::direct(ptr, ncells, /* skip_nan = */ false);

                    }

                }();

                center_v.coeffRef(r) = results.first;

                scale_v.coeffRef(r) = results.second;

            }

        }, mat.nrow(), num_threads);


    } else {

        tatami::parallelize([&](size_t t, Index_ start, Index_ length) -> void {

            tatami::Options opt;

            auto ncells = mat.ncol();

            auto ext = tatami::consecutive_extractor<sparse_>(&mat, false, static_cast<Index_>(0), ncells, start, length, opt);


            typedef typename EigenVector_::Scalar Scalar;

            tatami_stats::LocalOutputBuffer<Scalar> cbuffer(t, start, length, center_v.data());

            tatami_stats::LocalOutputBuffer<Scalar> sbuffer(t, start, length, scale_v.data());


            auto running = [&]{

                if constexpr(sparse_) {

                    return tatami_stats::variances::RunningSparse<Scalar, Value_, Index_>(length, cbuffer.data(), sbuffer.data(), /* skip_nan = */ false, /* subtract = */ start);

                } else {

                    return tatami_stats::variances::RunningDense<Scalar, Value_, Index_>(length, cbuffer.data(), sbuffer.data(), /* skip_nan = */ false);

                }

            }();


            std::vector<Value_> vbuffer(length);

            typename std::conditional<sparse_, std::vector<Index_>, Index_>::type ibuffer(length);

            for (Index_ r = 0; r < ncells; ++r) {

                if constexpr(sparse_) {

                    auto range = ext->fetch(vbuffer.data(), ibuffer.data());

                    running.add(range.value, range.index, range.number);

                } else {

                    auto ptr = ext->fetch(vbuffer.data());

                    running.add(ptr);

                }

            }


            running.finish();

            cbuffer.transfer();

            sbuffer.transfer();

        }, mat.nrow(), num_threads);

    }

}


template<class IrlbaMatrix_, class EigenMatrix_, class EigenVector_>

auto run_irlba_deferred(

    const IrlbaMatrix_& mat,

    const SimplePcaOptions& options,

    EigenMatrix_& components,

    EigenMatrix_& rotation,

    EigenVector_& variance_explained,

    EigenVector_& center_v,

    EigenVector_& scale_v)

{

    irlba::Centered<IrlbaMatrix_, EigenVector_> centered(mat, center_v);

    if (options.scale) {

        irlba::Scaled<true, decltype(centered), EigenVector_> scaled(centered, scale_v, true);

        return irlba::compute(scaled, options.number, components, rotation, variance_explained, options.irlba_options);

    } else {

        return irlba::compute(centered, options.number, components, rotation, variance_explained, options.irlba_options);

    }

}


template<typename Value_, typename Index_, class EigenMatrix_, class EigenVector_>

void run_sparse(

    const tatami::Matrix<Value_, Index_>& mat,

    const SimplePcaOptions& options,

    EigenMatrix_& components,

    EigenMatrix_& rotation,

    EigenVector_& variance_explained,

    EigenVector_& center_v,

    EigenVector_& scale_v,

    typename EigenVector_::Scalar& total_var,

    bool& converged)

{

    Index_ ngenes = mat.nrow();

    center_v.resize(ngenes);

    scale_v.resize(ngenes);


    if (options.realize_matrix) {

        // 'extracted' contains row-major contents...

        auto extracted = tatami::retrieve_compressed_sparse_contents<Value_, Index_>(

            &mat,

            /* row = */ true,

            /* two_pass = */ false,

            /* threads = */ options.num_threads

        );


        // But we effectively transpose it to CSC with genes in columns.

        Index_ ncells = mat.ncol();

        irlba::ParallelSparseMatrix emat(

            ncells,

            ngenes,

            std::move(extracted.value),

            std::move(extracted.index),

            std::move(extracted.pointers),

            true,

            options.num_threads

        );


        tatami::parallelize([&](size_t, size_t start, size_t length) -> void {

            const auto& ptrs = emat.get_pointers();

            const auto& values = emat.get_values();

            for (size_t r = start, end = start + length; r < end; ++r) {

                auto offset = ptrs[r];

                Index_ num_nonzero = ptrs[r + 1] - offset;

                auto results = tatami_stats::variances::direct(values.data() + offset, num_nonzero, ncells, /* skip_nan = */ false);

                center_v.coeffRef(r) = results.first;

                scale_v.coeffRef(r) = results.second;

            }

        }, ngenes, options.num_threads);


        total_var = internal::process_scale_vector(options.scale, scale_v);

        auto out = run_irlba_deferred(emat, options, components, rotation, variance_explained, center_v, scale_v);

        converged = out.first;


    } else {

        compute_row_means_and_variances<true>(mat, options.num_threads, center_v, scale_v);

        total_var = internal::process_scale_vector(options.scale, scale_v);

        auto out = run_irlba_deferred(

            internal::TransposedTatamiWrapper<EigenVector_, Value_, Index_>(mat, options.num_threads),

            options,

            components,

            rotation,

            variance_explained,

            center_v,

            scale_v

        );

        converged = out.first;

    }

}


template<typename Value_, typename Index_, class EigenMatrix_, class EigenVector_>

void run_dense(

    const tatami::Matrix<Value_, Index_>& mat,

    const SimplePcaOptions& options,

    EigenMatrix_& components,

    EigenMatrix_& rotation,

    EigenVector_& variance_explained,

    EigenVector_& center_v,

    EigenVector_& scale_v,

    typename EigenVector_::Scalar& total_var,

    bool& converged)

{

    Index_ ngenes = mat.nrow();

    center_v.resize(ngenes);

    scale_v.resize(ngenes);


    if (options.realize_matrix) {

        // Create a matrix with genes in columns.

        Index_ ncells = mat.ncol();

        EigenMatrix_ emat(ncells, ngenes);


        // If emat is row-major, we want to fill it with columns of 'mat', so row_major = false.

        // If emat is column-major, we want to fill it with rows of 'mat', so row_major = true.

        tatami::convert_to_dense(&mat, /* row_major = */ !emat.IsRowMajor, emat.data(), options.num_threads);


        center_v.array() = emat.array().colwise().sum();

        if (ncells) {

            center_v /= ncells;

        } else {

            std::fill(center_v.begin(), center_v.end(), std::numeric_limits<typename EigenVector_::Scalar>::quiet_NaN());

        }

        emat.array().rowwise() -= center_v.adjoint().array(); // applying it to avoid wasting time with deferred operations inside IRLBA.


        scale_v.array() = emat.array().colwise().squaredNorm();

        if (ncells > 1) {

            scale_v /= ncells - 1;

        } else {

            std::fill(scale_v.begin(), scale_v.end(), std::numeric_limits<typename EigenVector_::Scalar>::quiet_NaN());

        }


        total_var = internal::process_scale_vector(options.scale, scale_v);

        if (options.scale) {

            emat.array().rowwise() /= scale_v.adjoint().array();

        }


        auto out = irlba::compute(emat, options.number, components, rotation, variance_explained, options.irlba_options);

        converged = out.first;


    } else {

        compute_row_means_and_variances<false>(mat, options.num_threads, center_v, scale_v);

        total_var = internal::process_scale_vector(options.scale, scale_v);

        auto out = run_irlba_deferred(

            internal::TransposedTatamiWrapper<EigenVector_, Value_, Index_>(mat, options.num_threads),

            options,

            components,

            rotation,

            variance_explained,

            center_v,

            scale_v

        );

        converged = out.first;

    }

}


}

template<typename EigenMatrix_, typename EigenVector_>


struct SimplePcaResults {

    EigenMatrix_ components;


    EigenVector_ variance_explained;


    typename EigenVector_::Scalar total_variance = 0;


    EigenMatrix_ rotation;


    EigenVector_ center;


    EigenVector_ scale;


    bool converged = false;

};


template<typename Value_, typename Index_, typename EigenMatrix_, class EigenVector_>


void simple_pca(const tatami::Matrix<Value_, Index_>& mat, const SimplePcaOptions& options, SimplePcaResults<EigenMatrix_, EigenVector_>& output) {

    irlba::EigenThreadScope t(options.num_threads);


    if (mat.sparse()) {

        internal::run_sparse(mat, options, output.components, output.rotation, output.variance_explained, output.center, output.scale, output.total_variance, output.converged);

    } else {

        internal::run_dense(mat, options, output.components, output.rotation, output.variance_explained, output.center, output.scale, output.total_variance, output.converged);

    }


    internal::clean_up(mat.ncol(), output.components, output.variance_explained);

    if (options.transpose) {

        output.components.adjointInPlace();

    }


    if (!options.scale) {

        output.scale = EigenVector_();

    }

}


template<typename EigenMatrix_ = Eigen::MatrixXd, class EigenVector_ = Eigen::VectorXd, typename Value_, typename Index_>


SimplePcaResults<EigenMatrix_, EigenVector_> simple_pca(const tatami::Matrix<Value_, Index_>& mat, const SimplePcaOptions& options) {

    SimplePcaResults<EigenMatrix_, EigenVector_> output;

    simple_pca(mat, options, output);

    return output;

}


}


#endif

irlba::Centered

irlba::EigenThreadScope

irlba::ParallelSparseMatrix

irlba::Scaled

tatami::Matrix

tatami::Matrix::ncol
virtual Index_ ncol() const=0

tatami::Matrix::nrow
virtual Index_ nrow() const=0

tatami::Matrix::prefer_rows
virtual bool prefer_rows() const=0

tatami::Matrix::sparse
virtual std::unique_ptr< MyopicSparseExtractor< Value_, Index_ > > sparse(bool row, const Options &opt) const=0

irlba.hpp

irlba::compute
std::pair< bool, int > compute(const Matrix_ &matrix, Eigen::Index number, EigenMatrix_ &outU, EigenMatrix_ &outV, EigenVector_ &outD, const Options &options)

scran_pca
Principal component analysis on single-cell data.

scran_pca::simple_pca
void simple_pca(const tatami::Matrix< Value_, Index_ > &mat, const SimplePcaOptions &options, SimplePcaResults< EigenMatrix_, EigenVector_ > &output)
Definition simple_pca.hpp:374

tatami::parallelize
void parallelize(Function_ fun, Index_ tasks, int threads)

tatami::retrieve_compressed_sparse_contents
CompressedSparseContents< StoredValue_, StoredIndex_, StoredPointer_ > retrieve_compressed_sparse_contents(const Matrix< InputValue_, InputIndex_ > *matrix, bool row, bool two_pass, int threads=1)

tatami::convert_to_dense
void convert_to_dense(const Matrix< InputValue_, InputIndex_ > *matrix, bool row_major, StoredValue_ *store, int threads=1)

tatami::consecutive_extractor
auto consecutive_extractor(const Matrix< Value_, Index_ > *mat, bool row, Index_ iter_start, Index_ iter_length, Args_ &&... args)

parallel.hpp

irlba::Options

irlba::Options::cap_number
bool cap_number

scran_pca::SimplePcaOptions
Options for simple_pca().
Definition simple_pca.hpp:26

scran_pca::SimplePcaOptions::realize_matrix
bool realize_matrix
Definition simple_pca.hpp:66

scran_pca::SimplePcaOptions::transpose
bool transpose
Definition simple_pca.hpp:54

scran_pca::SimplePcaOptions::num_threads
int num_threads
Definition simple_pca.hpp:60

scran_pca::SimplePcaOptions::irlba_options
irlba::Options irlba_options
Definition simple_pca.hpp:71

scran_pca::SimplePcaOptions::scale
bool scale
Definition simple_pca.hpp:48

scran_pca::SimplePcaOptions::number
int number
Definition simple_pca.hpp:42

scran_pca::SimplePcaResults
Results of simple_pca().
Definition simple_pca.hpp:304

scran_pca::SimplePcaResults::components
EigenMatrix_ components
Definition simple_pca.hpp:311

scran_pca::SimplePcaResults::rotation
EigenMatrix_ rotation
Definition simple_pca.hpp:330

scran_pca::SimplePcaResults::converged
bool converged
Definition simple_pca.hpp:347

scran_pca::SimplePcaResults::center
EigenVector_ center
Definition simple_pca.hpp:336

scran_pca::SimplePcaResults::variance_explained
EigenVector_ variance_explained
Definition simple_pca.hpp:317

scran_pca::SimplePcaResults::scale
EigenVector_ scale
Definition simple_pca.hpp:342

scran_pca::SimplePcaResults::total_variance
EigenVector_::Scalar total_variance
Definition simple_pca.hpp:323

tatami::Options

tatami::Options::sparse_extract_index
bool sparse_extract_index

tatami.hpp