gruenewald-lab · fgrunewald · Apr 22, 2024 · pckroon · May 1, 2024 · pckroon
diff --git a/cgsmiles/graph_utils.py b/cgsmiles/graph_utils.py
@@ -49,6 +49,7 @@ def merge_graphs(source_graph, target_graph, max_node=None):
     for node1, node2 in target_graph.edges:
         if correspondence[node1] != correspondence[node2]:
             attrs = target_graph.edges[(node1, node2)]
+            print(attrs)
-            print(attrs)
-            print(attrs)
             source_graph.add_edge(correspondence[node1], correspondence[node2], **attrs)
 
     return correspondence

diff --git a/cgsmiles/pysmiles_utils.py b/cgsmiles/pysmiles_utils.py
@@ -3,6 +3,49 @@
 VALENCES = pysmiles.smiles_helper.VALENCES
 VALENCES.update({"H": (1,)})
 
+def _smiles_node_iter(smiles_str):
+    """
+    Iterate over all nodes in SMILES string and return
+    the index of the node.
+    """
+    organic_subset = 'B C N O P S F Cl Br I * b c n o s p'.split()
+    batom = False
+    for idx, node in enumerate(smiles_str):
+        if node == '[':
+            batom = True
+            start = idx
+
+        if node == ']' and batom:
+            stop = idx+1
+            batom = False
+            yield start, stop
+
+        if node in organic_subset and not batom:
+            yield idx, idx + 1
+
+def strip_aromatic_nodes(smiles_str):
+    """
+    Find all aromatic nodes and change them to lower
-    Find all aromatic nodes and change them to lower
+    Find all aromatic nodes and change them to upper
-    Find all aromatic nodes and change them to lower
+    Find all aromatic nodes and change them to upper
+    case but keep a mapping of changed nodes.
+    """
+    aromatic_shorthand = 'b c n o s p'.split()
+    aromatic_atoms = {}
+    nodes_iter = _smiles_node_iter(smiles_str)
+    cleaned_str = ""
+    prev_stop = 0
+    for idx, (start, stop) in enumerate(nodes_iter):
+        if smiles_str[start] in aromatic_shorthand:
+            aromatic_atoms[idx] = True
+            cleaned_str += smiles_str[prev_stop:start] + smiles_str[start:stop].upper()
+        else:
+            aromatic_atoms[idx] = False
+            cleaned_str += smiles_str[prev_stop:stop]
+        prev_stop = stop
+
+    cleaned_str +=  smiles_str[prev_stop:]
+    return aromatic_atoms, cleaned_str
+
+
 def rebuild_h_atoms(mol_graph, keep_bonding=False):
     """
     Helper function which add hydrogen atoms to the molecule graph.

diff --git a/cgsmiles/read_fragments.py b/cgsmiles/read_fragments.py
@@ -5,6 +5,14 @@
 import networkx as nx
 import pysmiles
 from .read_cgsmiles import read_cgsmiles
+from .pysmiles_utils import strip_aromatic_nodes
+
+def mark_aromatic_edges(graph):
+    for edge in graph.edges:
+        if graph.nodes[edge[0]].get("aromatic", False) and\
+        graph.nodes[edge[1]].get("aromatic", False):
+            graph.edges[edge]["order"] = 1.5
+    return graph
 
 def strip_bonding_descriptors(fragment_string):
     """
@@ -102,7 +110,18 @@ def fragment_iter(fragment_str, all_atom=True):
             mol_graph.add_node(0, element="H", bonding=bonding_descrpt[0])
             nx.set_node_attributes(mol_graph, bonding_descrpt, 'bonding')
         elif all_atom:
-            mol_graph = pysmiles.read_smiles(smile)
+            try:
+                mol_graph = pysmiles.read_smiles(smile)
-                mol_graph = pysmiles.read_smiles(smile)
+                mol_graph = pysmiles.read_smiles(smile, reinterpret_aromatic=False)
-                mol_graph = pysmiles.read_smiles(smile)
+                mol_graph = pysmiles.read_smiles(smile, reinterpret_aromatic=False)
+            # we have non-ring aromitic fragments that need to be handled
+            # a bit hacky
+            except ValueError:
+                arom_nodes, smile = strip_aromatic_nodes(smile)
+                mol_graph = pysmiles.read_smiles(smile)
+                # overwrite the aromaticity assignment
+                nx.set_node_attributes(mol_graph, arom_nodes, "aromatic")
+                # set the bond order for the aromatic edges
+                mol_graph = mark_aromatic_edges(mol_graph)
+
             nx.set_node_attributes(mol_graph, bonding_descrpt, 'bonding')
         # we deal with a CG resolution graph
         else:

diff --git a/cgsmiles/resolve.py b/cgsmiles/resolve.py
@@ -3,7 +3,7 @@
 import networkx as nx
 import pysmiles
 from .read_cgsmiles import read_cgsmiles
-from .read_fragments import read_fragments
+from .read_fragments import read_fragments, mark_aromatic_edges
 from .graph_utils import merge_graphs, sort_nodes_by_attr, annotate_fragments
 from .pysmiles_utils import rebuild_h_atoms
 
@@ -165,7 +165,8 @@ def edges_from_bonding_descrpt(self):
         bonding descriptors that formed the edge. Later unconsumed
         bonding descriptors are replaced by hydrogen atoms.
         """
-        for prev_node, node in nx.dfs_edges(self.meta_graph):
+        for prev_node, node in self.meta_graph.edges:
+            print(prev_node, node)
-            print(prev_node, node)
-            print(prev_node, node)
             prev_graph = self.meta_graph.nodes[prev_node]['graph']
             node_graph = self.meta_graph.nodes[node]['graph']
             edge, bonding = generate_edge(prev_graph,
@@ -177,9 +178,12 @@ def edges_from_bonding_descrpt(self):
 
             # bonding descriptors are assumed to have bonding order 1
             # unless they are specifically annotated
-            order = re.findall("\d+\.\d+", bonding[0])
+            order = re.findall("[-+]?[.]?[\d]+(?:,\d\d\d)*[\.]?\d*(?:[eE][-+]?\d+)?", bonding[0])
+            print(order)
-            order = re.findall("[-+]?[.]?[\d]+(?:,\d\d\d)*[\.]?\d*(?:[eE][-+]?\d+)?", bonding[0])
-            print(order)
+            order = re.findall("[-+]?[.]?[\d]+(?:,\d\d\d)*[\.]?\d*(?:[eE][-+]?\d+)?", bonding[0])
-            order = re.findall("[-+]?[.]?[\d]+(?:,\d\d\d)*[\.]?\d*(?:[eE][-+]?\d+)?", bonding[0])
-            print(order)
+            order = re.findall("[-+]?[.]?[\d]+(?:,\d\d\d)*[\.]?\d*(?:[eE][-+]?\d+)?", bonding[0])
             if not order:
                 order = 1
+            else:
+                order = float(order[0])
             self.molecule.add_edge(edge[0], edge[1], bonding=bonding, order=order)
 
     def squash_atoms(self):
@@ -225,6 +229,7 @@ def resolve(self):
 
         # rebuild hydrogen in all-atom case
         if self.all_atom:
+            mark_aromatic_edges(self.molecule)
             rebuild_h_atoms(self.molecule)
 
         # sort the atoms