nf-core · nictru · Aug 28, 2024 · Aug 28, 2024 · Aug 28, 2024 · Aug 28, 2024
diff --git a/conf/modules.config b/conf/modules.config
@@ -819,6 +819,26 @@ process {
         ]
     }
 
+    withName: UNIFY_TARPMIR {
+        ext.args = "-v FS='\\t' -v OFS='\\t' 'NR>1 { split(\$3, arr, \",\"); print \$1, \$2, arr[1], arr[2], \"tarpmir\" }'"
+        ext.suffix = "tarpmir.tsv"
+        publishDir = [
+            path: { "${params.outdir}/mirna_prediction/binding_sites/tools/tarpmir/unified" },
+            mode: params.publish_dir_mode,
+            saveAs: { filename -> filename.equals('versions.yml') ? null : filename },
+        ]
+    }
+
+    withName: UNIFY_PITA {
+        ext.args = "-v FS='\\t' -v OFS='\\t' 'NR>1 { print \$2, \$1, \$3, \$4, \"pita\" }'"
+        ext.suffix = "pita.tsv"
+        publishDir = [
+            path: { "${params.outdir}/mirna_prediction/binding_sites/tools/pita/unified" },
+            mode: params.publish_dir_mode,
+            saveAs: { filename -> filename.equals('versions.yml') ? null : filename },
+        ]
+    }
+
     withName: COMBINE_BINDINGSITES {
         ext.prefix = "bindingsites.tsv"
     }
@@ -1042,6 +1062,26 @@ process {
         ]
     }
 
+    withName: TARPMIR {
+        ext.prefix = { "${meta.id}.tarpmir" }
+        publishDir = [
+            path: { "${params.outdir}/mirna_prediction/binding_sites/tools/tarpmir/output" },
+            mode: params.publish_dir_mode,
+            saveAs: { filename -> filename.equals('versions.yml') ? null : filename },
+            pattern: "*.bp"
+        ]
+    }
+
+    withName: PITA {
+        ext.prefix = { "${meta.id}.pita" }
+        publishDir = [
+            path: { "${params.outdir}/mirna_prediction/binding_sites/tools/pita/output" },
+            mode: params.publish_dir_mode,
+            saveAs: { filename -> filename.equals('versions.yml') ? null : filename },
+            pattern: "*.tab"
+        ]
+    }
+
     withName: MIRNA_TARGETS {
         publishDir = [
             path: { "${params.outdir}/mirna_prediction/binding_sites/targets" },
@@ -1059,15 +1099,15 @@ process {
         ]
     }
 
-    withName: MAJORITY_VOTE {
+    withName: MIRNA_MAJORITYVOTE {
         publishDir = [
             path: { "${params.outdir}/mirna_prediction/binding_sites/majority_vote" },
             mode: params.publish_dir_mode,
             saveAs: { filename -> filename.equals('versions.yml') ? null : filename },
         ]
     }
 
-    withName: '.*:MIRNA_PREDICTION:COMPUTE_CORRELATIONS' {
+    withName: '.*:MIRNA_PREDICTION:MIRNA_COMPUTECORRELATIONS' {
         publishDir = [
             path: { "${params.outdir}/mirna_prediction/correlation" },
             mode: params.publish_dir_mode,

diff --git a/modules/local/ciriquant/de/main.nf b/modules/local/ciriquant/de/main.nf
@@ -8,8 +8,8 @@ process CIRIQUANT_DE {
     tuple val(meta), path(library), path(expression), path(gene)
 
     output:
-    tuple val(meta), path("${circ_path}"), emit: circ
-    tuple val(meta), path("${gene_path}"), emit: gene
+    tuple val(meta), path("${circ_path}"), emit: circ, optional: true
+    tuple val(meta), path("${gene_path}"), emit: gene, optional: true
     path "versions.yml", emit: versions
 
     when:

diff --git a/modules/local/combinebeds/filter/templates/filter.py b/modules/local/combinebeds/filter/templates/filter.py
@@ -74,6 +74,7 @@ def format_yaml_like(data: dict, indent: int = 0) -> str:
         continue
     memberships = series.to_list()
     dataset = upsetplot.from_memberships(memberships)
+    # TODO: Make this more robust for large datasets
     upsetplot.plot(dataset,
                    orientation='horizontal',
                    show_counts=True,

diff --git a/modules/local/deseq2/gene_normalization/main.nf b/modules/local/deseq2/gene_normalization/main.nf
@@ -0,0 +1,32 @@
+process GENE_NORMALIZATION {
+    tag "$meta.id"
+    label 'process_single'
+
+    conda "${moduleDir}/environment.yml"
+    container "${ workflow.containerEngine == 'singularity' && !task.ext.singularity_pull_docker_container ?
+        'https://depot.galaxyproject.org/singularity/bioconductor-deseq2:1.34.0--r41hc247a5b_3' :
+        'biocontainers/bioconductor-deseq2:1.34.0--r41hc247a5b_3' }"
+
+    input:
+    tuple val(meta), path(counts)
+
+    output:
+    tuple val(meta), path("${meta.id}.normalized_counts.tsv"), emit: normalized
+    path "versions.yml"                                      , emit: versions
+
+    when:
+    task.ext.when == null || task.ext.when
+
+    script:
+    template 'gene_deseq_normalization.R'
+
+    stub:
+    """
+    touch ${meta.id}.normalized_counts.tsv
+
+    cat <<-END_VERSIONS > versions.yml
+    "${task.process}":
+        bioconductor-deseq2: \$(Rscript -e "library(DESeq2); cat(as.character(packageVersion('DESeq2')))")
+    END_VERSIONS
+    """
+}
diff --git a/modules/local/deseq2/gene_normalization/templates/gene_deseq_normalization.R b/modules/local/deseq2/gene_normalization/templates/gene_deseq_normalization.R
@@ -0,0 +1,54 @@
+#!/usr/bin/env Rscript
+
+library(DESeq2)
+
+raw_counts <- read.table("$counts", sep = "\\t", header = TRUE, stringsAsFactors = FALSE, check.names = FALSE)
+raw_counts <- raw_counts[ , -2] # drop gene ids
+rownames(raw_counts) <- raw_counts\$tx
+data <- round(raw_counts[, -1])
+
+samples <- colnames(raw_counts)[-c(1)]
+
+
+transcript_names <- data.frame(tx = raw_counts\$tx, order = seq_len(nrow(raw_counts)))
+
+# normalize using DeSeq2, Library Size Estimation
+meta_data <- data.frame(samples)
+row.names(meta_data) <- meta_data\$samples
+all(colnames(data) %in% rownames(meta_data))
+all(colnames(data) == rownames(meta_data))
+
+dds <- DESeqDataSetFromMatrix(countData = data, colData = meta_data, design = ~ 1)
+dds <- estimateSizeFactors(dds)
+sizeFactors(dds)
+normalized_counts <- DESeq2::counts(dds, normalized = TRUE)
+
+# add tx IDs back to counts table
+merged_data <- merge(transcript_names, normalized_counts,
+                    by.x = "tx", by.y = "row.names")
+
+merged_data <- merged_data[order(merged_data\$order), ]
+
+norm_data <- subset(merged_data, select = -c(order))
+
+write.table(norm_data, paste0("${meta.id}.normalized_counts.tsv"), quote = FALSE, sep = "\\t", row.names = FALSE)
+
+# TODO: (Can be done later) Add support for Samplesheet so that we can eliminate batch effects
+
+
+################################################
+################################################
+## VERSIONS FILE                              ##
+################################################
+################################################
+
+r.version <- strsplit(version[['version.string']], ' ')[[1]][3]
+deseq2.version <- as.character(packageVersion('DESeq2'))
+
+writeLines(
+    c(
+        '"${task.process}":',
+        paste('    r-base:', r.version),
+        paste('    bioconductor-deseq2:', deseq2.version)
+    ),
+'versions.yml')
diff --git a/...ocal/deseq2/normalization/environment.yml → ...eseq2/mirna_normalization/environment.yml b/...ocal/deseq2/normalization/environment.yml → ...eseq2/mirna_normalization/environment.yml
diff --git a/modules/local/deseq2/normalization/main.nf → .../local/deseq2/mirna_normalization/main.nf b/modules/local/deseq2/normalization/main.nf → .../local/deseq2/mirna_normalization/main.nf
@@ -1,4 +1,4 @@
-process DESEQ2_NORMALIZATION {
+process MIRNA_NORMALIZATION {
     tag "$meta.id"
     label 'process_single'
 

diff --git a/...alization/templates/deseq_normalization.R → ...alization/templates/deseq_normalization.R b/...alization/templates/deseq_normalization.R → ...alization/templates/deseq_normalization.R
diff --git a/...ocal/compute_correlations/environment.yml → ...mirna/computecorrelations/environment.yml b/...ocal/compute_correlations/environment.yml → ...mirna/computecorrelations/environment.yml
diff --git a/modules/local/compute_correlations/main.nf → ...s/local/mirna/computecorrelations/main.nf b/modules/local/compute_correlations/main.nf → ...s/local/mirna/computecorrelations/main.nf
@@ -1,4 +1,4 @@
-process COMPUTE_CORRELATIONS {
+process MIRNA_COMPUTECORRELATIONS {
     tag "$meta.id"
     label 'process_single'
 

diff --git a/...elations/templates/compute_correlations.R → ...elations/templates/compute_correlations.R b/...elations/templates/compute_correlations.R → ...elations/templates/compute_correlations.R
diff --git a/modules/local/mirna_filtering/main.nf → modules/local/mirna/filtering/main.nf b/modules/local/mirna_filtering/main.nf → modules/local/mirna/filtering/main.nf
diff --git a/...rna_filtering/templates/mirna_filtering.R → ...rna/filtering/templates/mirna_filtering.R b/...rna_filtering/templates/mirna_filtering.R → ...rna/filtering/templates/mirna_filtering.R
diff --git a/modules/local/majority_vote/environment.yml → .../local/mirna/majorityvote/environment.yml b/modules/local/majority_vote/environment.yml → .../local/mirna/majorityvote/environment.yml
diff --git a/modules/local/majority_vote/main.nf → modules/local/mirna/majorityvote/main.nf b/modules/local/majority_vote/main.nf → modules/local/mirna/majorityvote/main.nf
@@ -1,6 +1,6 @@
-process MAJORITY_VOTE {
+process MIRNA_MAJORITYVOTE {
     tag "$meta.id"
-    label 'process_medium'
+    label 'process_high'
 
     conda "${moduleDir}/environment.yml"
     container "${ workflow.containerEngine == 'singularity' && !task.ext.singularity_pull_docker_container ?
@@ -11,9 +11,9 @@ process MAJORITY_VOTE {
     tuple val(meta), path(bindingsites)
 
     output:
-    tuple val(meta), path("${meta.id}.majority.tsv"), emit: tsv
-    tuple val(meta), path("${meta.id}.targets.tsv") , emit: targets
-    path "versions.yml"                             , emit: versions
+    tuple val(meta), path("${meta.id}.majority.tsv")      , emit: tsv
+    tuple val(meta), path("${meta.id}.targets.tsv")       , emit: targets
+    path "versions.yml"                                   , emit: versions
 
     when:
     task.ext.when == null || task.ext.when
@@ -25,6 +25,7 @@ process MAJORITY_VOTE {
     stub:
     """
     touch ${meta.id}.majority.tsv
+    touch ${meta.id}.targets.tsv
 
     cat <<-END_VERSIONS > versions.yml
     "${task.process}":

diff --git a/...local/majority_vote/templates/majority.py → .../mirna/majorityvote/templates/majority.py b/...local/majority_vote/templates/majority.py → .../mirna/majorityvote/templates/majority.py
@@ -1,32 +1,25 @@
 #!/usr/bin/env python3
-
 import platform
-
 import polars as pl
 import yaml
 
-paths = "${bindingsites}".split(" ")
-
-df = pl.scan_csv(paths,
-                 separator="\\t",
-                 has_header=False,
-                 new_columns=['mirna', 'target', 'start', 'end', 'tool'])
-
-df = df.select(["mirna", "target", "tool"])
+df = pl.scan_csv("*.tsv",
+                separator="\\t",
+                has_header=False,
+                new_columns=['mirna', 'target', 'start', 'end', 'tool'])
 
-df = df.group_by(['mirna', 'target']).agg(pl.col("tool").n_unique())
+df = df.select("mirna", "target", "tool")
+df = df.group_by('mirna', 'target').agg(pl.col("tool").n_unique())
 
-df = df.filter(pl.col("tool") > int("${min_tools}")) \
-    .select(["mirna", "target"])
+df = df.filter(pl.col("tool") >= int("${min_tools}"))
+df = df.select("mirna", "target")
 
 df = df.collect()
-
 df.write_csv('${meta.id}.majority.tsv', separator='\\t', include_header=False)
 
 # Create targets file
 
 df = df.group_by('mirna').agg(pl.col("target").str.concat(","))
-
 df.write_csv('${meta.id}.targets.tsv', separator='\\t', include_header=False)
 
 # Create version file
@@ -39,3 +32,4 @@
 
 with open("versions.yml", "w") as f:
     f.write(yaml.dump(versions))
+
diff --git a/modules/local/mirna_targets/main.nf → modules/local/mirna/targets/main.nf b/modules/local/mirna_targets/main.nf → modules/local/mirna/targets/main.nf
@@ -31,7 +31,7 @@ process MIRNA_TARGETS {
     bedtools intersect -a targetscan.bed -b miranda.bed | awk '{print \$6}' > mirna_type
 
     ## remove duplicate miRNA entries at MRE sites.
-    ## strategy: sory by circs, sort by start position, sort by site type - the goal is to take the best site type (i.e rank site type found at MRE site).
+    ## strategy: sort by circs, sort by start position, sort by site type - the goal is to take the best site type (i.e rank site type found at MRE site).
     paste ${prefix}.mirnas.tmp mirna_type | sort -k3n -k2n -k7r | awk -v OFS="\\t" '{print \$4,\$1,\$2,\$3,\$5,\$6,\$7}' | awk -F "\\t" '{if (!seen[\$1,\$2,\$3,\$4,\$5,\$6]++)print}' | sort -k1,1 -k3n > ${prefix}.mirna_targets.tmp
     echo -e "circRNA\\tmiRNA\\tStart\\tEnd\\tScore\\tEnergy_KcalMol\\tSite_type" | cat - ${prefix}.mirna_targets.tmp > ${prefix}.mirna_targets.txt
 

diff --git a/modules/local/pita/main.nf b/modules/local/pita/main.nf
@@ -0,0 +1,34 @@
+process PITA {
+    tag "$meta.id"
+    label 'process_high'
+
+    conda "${moduleDir}/environment.yml"
+    container "${ workflow.containerEngine == 'singularity' && !task.ext.singularity_pull_docker_container ?
+        'https://depot.galaxyproject.org/singularity/ubuntu:20.04' :
+        'nf-core/ubuntu:20.04' }"
+
+    input:
+    tuple val(meta),  path(fasta)
+    tuple val(meta2), path(mature)
+
+    output:
+    tuple val(meta), path("*.tab"), emit: tsv
+    path "versions.yml", emit: versions
+
+    when:
+    task.ext.when == null || task.ext.when
+
+    script:
+    template "pita_prediction.pl"
+
+    stub:
+    def prefix = task.ext.prefix ?: "${meta.id}"
+
+    """
+    touch ${prefix}.tab
+
+    cat <<-END_VERSIONS > versions.yml
+    "${task.process}":
+    END_VERSIONS
+    """
+}
diff --git a/modules/local/pita/templates/Bin/ViennaRNA/ViennaRNA-1.6/AUTHORS b/modules/local/pita/templates/Bin/ViennaRNA/ViennaRNA-1.6/AUTHORS
@@ -0,0 +1,4 @@
+Ivo Hofacker   (all parts)
+Peter Stadler  (design, documentation, cluster algorithms)
+Walter Fontana (suboptimal folding, pre-historic implementation of mfe folding)
+Stefan Wuchty  (suboptimal folding)
diff --git a/modules/local/pita/templates/Bin/ViennaRNA/ViennaRNA-1.6/COPYING b/modules/local/pita/templates/Bin/ViennaRNA/ViennaRNA-1.6/COPYING
@@ -0,0 +1,19 @@
+			 Disclaimer and Copyright
+
+The programs, library and source code of the Vienna RNA Package are free
+software. They are distributed in the hope that they will be useful
+but WITHOUT ANY WARRANTY; without even the implied warranty of
+MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  
+
+Permission is granted for research, educational, and commercial use
+and modification so long as 1) the package and any derived works are not
+redistributed for any fee, other than media costs, 2) proper credit is
+given to the authors and the Institute for Theoretical Chemistry of the 
+University of Vienna.
+
+If you want to include this software in a commercial product, please contact 
+the authors. 
+
+Note that the file ./lib/naview.c has its own copyright attached. 
+The ./Readseq/ directory contains a modified version of Don Gilbert's
+public domain readseq program.