Publications

Mengmeng Xu, Yanghao Li, Cheng-Yang Fu, Bernard Ghanem, Tao Xiang, Juan-Manuel Perez-Rua (2023). Where is my wallet? modeling object proposal sets for egocentric visual query localization. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.

Cite

Mengmeng Xu (2023). Query Localization in Long-form Videos.

Cite

Mingchen Zhuge, Haozhe Liu, Francesco Faccio, Dylan R Ashley, Róbert Csordás, Anand Gopalakrishnan, Abdullah Hamdi, Hasan Abed Al Kader Hammoud, Vincent Herrmann, Kazuki Irie, others (2023). Mindstorms in Natural Language-Based Societies of Mind. arXiv preprint arXiv:2305.17066.

Cite

Shoufa Chen, Mengmeng Xu, Jiawei Ren, Yuren Cong, Sen He, Yanping Xie, Animesh Sinha, Ping Luo, Tao Xiang, Juan-Manuel Perez-Rua (2023). GenTron: Delving Deep into Diffusion Transformers for Image and Video Generation. CVPR 2024.

Cite

Yuren Cong, Mengmeng Xu, Christian Simon, Shoufa Chen, Jiawei Ren, Yanping Xie, Juan-Manuel Perez-Rua, Bodo Rosenhahn, Tao Xiang, Sen He (2023). FLATTEN: optical FLow-guided ATTENtion for consistent text-to-video editing. ICLR 2024.

Cite

Shuming Liu, Mengmeng Xu, Chen Zhao, Xu Zhao, Bernard Ghanem (2023). ETAD: Training Action Detection End to End on a Laptop. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.

Cite

Mengmeng Xu, Mattia Soldan, Jialin Gao, Shuming Liu, Juan-Manuel Perez-Rua, Bernard Ghanem (2023). Boundary-denoising for video activity localization. ICLR 2024.

Cite

Chen Zhao, Merey Ramazanova, Mengmeng Xu, Bernard Ghanem (2022). Segtad: Precise temporal action detection via semantic segmentation. European Conference on Computer Vision.

Cite

Mengmeng Xu, Cheng-Yang Fu, Yanghao Li, Bernard Ghanem, Juan-Manuel Perez-Rua, Tao Xiang (2022). Negative frames matter in egocentric visual query 2d localization. arXiv preprint arXiv:2208.01949.

Cite

Sauradip Nag, Mengmeng Xu, Xiatian Zhu, Juan-Manuel Perez-Rua, Bernard Ghanem, Yi-Zhe Song, Tao Xiang (2022). Multi-modal few-shot temporal action detection via vision-language meta-adaptation. arXiv preprint arXiv:2211.14905.

Cite

Guohao Li, Mengmeng Xu, Silvio Giancola, Ali Thabet, Bernard Ghanem (2022). LC-NAS: Latency constrained neural architecture search for point cloud networks. 2022 International Conference on 3D Vision (3DV).

Cite

Kristen Grauman, Andrew Westbury, Eugene Byrne, Zachary Chavis, Antonino Furnari, Rohit Girdhar, Jackson Hamburger, Hao Jiang, Miao Liu, Xingyu Liu, others (2022). Ego4d: Around the world in 3,000 hours of egocentric video. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.

Cite

Mengmeng Xu, Erhan Gundogdu, Maksim Lapin, Bernard Ghanem, Michael Donoser, Loris Bazzani (2022). Contrastive language-action pre-training for temporal localization. arXiv preprint arXiv:2204.12293.

Cite

Mengmeng Xu, Juan-Manuel Perez-Rua, Xiatian Zhu, Bernard Ghanem, Brais Martinez (2021). Low-Fidelity End-to-End Video Encoder Pre-training for Temporal Action Localization. NeurIPS 2021.

Mengmeng Xu, Juan-Manuel Perez-Rua, Victor Escorcia, Brais Martinez, Xiatian Zhu, Li Zhang, Bernard Ghanem, Tao Xiang (2021). Boundary-sensitive Pre-training for Temporal Localization in Videos. ICCV 2021.

Cite

Mattia Soldan, Mengmeng Xu, Sisi Qu, Jesper Tegner, Bernard Ghanem (2021). Vlg-net: Video-language graph matching network for video grounding. Proceedings of the IEEE/CVF International Conference on Computer Vision.

Cite

Jialin Gao, Xin Sun, Mengmeng Xu, Xi Zhou, Bernard Ghanem (2021). Relation-aware video reading comprehension for temporal language grounding. The 2021 Conference on Empirical Methods in Natural Language Processing.

Cite

Mengmeng Xu, Juan-Manuel Perez-Rua, Xiatian Zhu, Bernard Ghanem, Brais Martinez (2021). Low-fidelity video encoder optimization for temporal action localization. Advances in Neural Information Processing Systems.

Cite

Mengmeng Xu, Juan-Manuel Perez-Rua, Victor Escorcia, Brais Martinez, Xiatian Zhu, Li Zhang, Bernard Ghanem, Tao Xiang (2021). Boundary-sensitive pre-training for temporal localization in videos. Proceedings of the IEEE/CVF International Conference on Computer Vision.

Cite

Alejandro Pardo, Mengmeng Xu, Ali Thabet, Pablo Arbelaez, Bernard Ghanem (2021). BAOD: Budget-Aware Object Detection. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) Workshops.

Cite

Sisi Qu, Mengmeng Xu, Bernard Ghanem, Jesper Tegner (2020). Learning Heat Diffusion for Network Alignment. Thirty-seventh International Conference on Machine Learning (ICML) Workshop.

Cite

Mengmeng Xu, Chen Zhao, Merey Ramazanova, David S Rojas, Ali Thabet, Bernard Ghanem (2020). Improve Baseline for Temporal Action Detection: HACS Challenge 2020 Solution of IVUL-KAUST team. The Conference on Computer Vision and Pattern Recognition (CVPR) Workshops.

Cite

Mengmeng Xu, Yancheng Bai, Sally Sisi Qu, Bernard Ghanem (2019). Semantic Part RCNN for Real-World Pedestrian Detection. The IEEE Conference on Computer Vision and Pattern Recognition (CVPR) Workshops.

Cite

Mengmeng Xu (2019). Object Detection Using Multiple Level Annotations.

Cite

Mengmeng Xu, Yancheng Bai, Bernard Ghanem (2019). Missing Labels in Object Detection. The IEEE Conference on Computer Vision and Pattern Recognition (CVPR) Workshops.

Cite

Merey Ramazanova, Chen Zhao, Mengmeng Xu, Humam Alwassel, Sara Rojas Martinez, Fabian Caba, Bernard Ghanem (2019). Logistic Regression is Still Alive and Effective: The 3rd YouTube 8M Challenge Solution of the IVUL-KAUST team. The IEEE International Conference on Computer Vision (ICCV) Workshops.

Cite

Yongqiang Zhang, Mingli Ding, Yancheng Bai, Mengmeng Xu, Bernard Ghanem (2019). Beyond weakly supervised: Pseudo ground truths mining for missing bounding-boxes object detection. IEEE Transactions on Circuits and Systems for Video Technology.

Cite

Mengmeng Xu, Chen Zhao, David S. Rojas, Ali Thabet, Bernard Ghanem (2013). G-TAD: Sub-Graph Localization for Temporal Action Detection. CVPR 2020.

Cite