Keras的batch_dot和dot函数与TensorFlow的matmul有何区别?
如何用PyTorch对每个样本在批次中单独计算损失?