ATSPEnv.py

from dataclasses import dataclass
import torch

from ATSProblemDef import get_random_problems


@dataclass
class Reset_State:
    problems: torch.Tensor
    # shape: (batch, node, node)


@dataclass
class Step_State:
    BATCH_IDX: torch.Tensor
    POMO_IDX: torch.Tensor
    # shape: (batch, pomo)
    current_node: torch.Tensor = None
    # shape: (batch, pomo)
    ninf_mask: torch.Tensor = None
    # shape: (batch, pomo, node)


class ATSPEnv:
    def __init__(self, **env_params):

        # Const @INIT
        ####################################
        self.env_params = env_params
        self.node_cnt = env_params['node_cnt']
        self.pomo_size = env_params['pomo_size']

        # Const @Load_Problem
        ####################################
        self.batch_size = None
        self.BATCH_IDX = None
        self.POMO_IDX = None
        # IDX.shape: (batch, pomo)
        self.problems = None
        # shape: (batch, node, node)

        # Dynamic
        ####################################
        self.selected_count = None
        self.current_node = None
        # shape: (batch, pomo)
        self.selected_node_list = None
        # shape: (batch, pomo, 0~)

        # STEP-State
        ####################################
        self.step_state = None

    def load_problems(self, batch_size):
        self.batch_size = batch_size
        self.BATCH_IDX = torch.arange(self.batch_size)[:, None].expand(self.batch_size, self.pomo_size)
        self.POMO_IDX = torch.arange(self.pomo_size)[None, :].expand(self.batch_size, self.pomo_size)

        problem_gen_params = self.env_params['problem_gen_params']
        self.problems = get_random_problems(batch_size, self.node_cnt, problem_gen_params)
        # shape: (batch, node, node)

    def load_problems_manual(self, problems):
        # problems.shape: (batch, node, node)

        self.batch_size = problems.size(0)
        self.BATCH_IDX = torch.arange(self.batch_size)[:, None].expand(self.batch_size, self.pomo_size)
        self.POMO_IDX = torch.arange(self.pomo_size)[None, :].expand(self.batch_size, self.pomo_size)
        self.problems, self.scaled_problems_time, self.start, self.end = problems
        # shape: (batch, node, node)

    def reset(self):
        self.selected_count = 0
        self.current_node = None
        # shape: (batch, pomo)
        self.selected_node_list = torch.empty((self.batch_size, self.pomo_size, 0), dtype=torch.long)
        # shape: (batch, pomo, 0~)

        self._create_step_state()

        reward = None
        done = False
        return Reset_State(problems=self.problems), reward, done

    def _create_step_state(self):
        self.step_state = Step_State(BATCH_IDX=self.BATCH_IDX, POMO_IDX=self.POMO_IDX)
        self.step_state.ninf_mask = torch.zeros((self.batch_size, self.pomo_size, self.node_cnt))
        # shape: (batch, pomo, node)

    def pre_step(self):
        reward = None
        done = False
        return self.step_state, reward, done

    def step(self, node_idx):
        # node_idx.shape: (batch, pomo)

        self.selected_count += 1
        self.current_node = node_idx
        # shape: (batch, pomo)
        self.selected_node_list = torch.cat((self.selected_node_list, self.current_node[:, :, None]), dim=2)
        # shape: (batch, pomo, 0~node)

        self._update_step_state()
        
        # returning values
        done = (self.selected_count == self.node_cnt)
        if done:
            reward = -self._get_total_distance()  # Note the MINUS Sign ==> We MAXIMIZE reward
            # shape: (batch, pomo)
        else:    
            reward = None
        return self.step_state, reward, done

    def _update_step_state(self):
        self.step_state.current_node = self.current_node
        # shape: (batch, pomo)
        self.step_state.ninf_mask[self.BATCH_IDX, self.POMO_IDX, self.current_node] = float('-inf')
        # shape: (batch, pomo, node)

    def _get_total_distance(self):

        node_from = self.selected_node_list
        # shape: (batch, pomo, node)
        node_to = self.selected_node_list.roll(dims=2, shifts=-1)
        # shape: (batch, pomo, node)
        batch_index = self.BATCH_IDX[:, :, None].expand(self.batch_size, self.pomo_size, self.node_cnt)
        # shape: (batch, pomo, node)

        #####################################################
        #define problems_time


        #######################################################
        # selected_time (shape: batch,pomo,node)
        # start, end(shape: node)
        # x=torch.cumsum(selected_time, dim =2) // start' = selected_node_list.apply_(lamba x:start[x]) // end' = selected_node_list.apply_(lamba x:end[x])
        # time_penalty = (start'>x)element_wise(start'-x) +(x>end')element_wise(x-end')
        #####################################################
        cost, time, start, end = self.problems
        selected_time = time[batch_index,node_from,node_to]

        #shape: node
        x = torch.cumsum(selected_time, dim=2)
        startz = torch.zeros(self.selected_node_list.shape, dtype=torch.float64, device=self.selected_node_list.get_device())
        endz = torch.zeros(self.selected_node_list.shape, dtype=torch.float64, device=self.selected_node_list.get_device())
        for b,batch in enumerate(startz):
            for p, pomo in enumerate(batch):
                for i, index in enumerate(pomo):
                    startz[b][p][i] = start[b][self.selected_node_list[b][p][i].item()].float()
                    endz[b][p][i] = end[b][self.selected_node_list[b][p][i].item()].float()

        # startz = startz.cpu().apply_(lambda x:start[batch_index][int(x)]).to("cuda:0")
        # endz = endz.cpu().apply_(lambda x:end[x]).to_device("cuda:0")
        time_penalty = torch.mul((torch.lt(startz,x).float()),abs(startz-x))+ torch.mul((torch.lt(x,endz).float()),abs(x-endz))

        #######################################################
        selected_cost = cost[batch_index, node_from, node_to]
        # shape: (batch, pomo, node)
        total_distance = selected_cost.sum(2)+time_penalty.sum(2)
        # shape: (batch, pomo)
        # print()
        return total_distance