Xin Luna Dong — Principal Scientist, Meta Reality Labs

Research Areas

Intelligent Assistants

2022–Present

Building trustworthy, multi-modal, and personalized AI assistants for wearable devices like Ray-Ban Meta smart glasses. Core work on RAG factuality, visual question answering, and personal memory search.

SCRIBES — Semi-structured extraction via RL (ICLR 2026)
CRAG — Comprehensive RAG Benchmark (NeurIPS 2024)
VisualLens — Personalization via visual history (NeurIPS 2025)
Head-to-Tail — LLM knowledge evaluation (NAACL 2024)

Knowledge Graphs

2013–2022

A decade of work on knowledge extraction, fusion, and evaluation — from Amazon Product Graph to Google Knowledge Vault and Knowledge-Based Trust.

Knowledge Vault — Web-scale knowledge fusion (KDD 2014)
AutoKnow — Self-driving product KG (KDD 2020)
Ceres — Semi-structured web extraction (VLDB 2018)
KBT — Source trustworthiness evaluation (VLDB 2015)

All KG papers →

Data Integration

2002–2015

Foundational research on truth discovery, copy detection, record linkage, and schema mapping. Includes the Solomon, Chronos, and Semex projects.

Truth discovery & copy detection (VLDB 2009–2013)
Data Integration with Uncertainties (Best of VLDB 2007)
Semex — Personal info management (Sigmod'05 Best Demo)
Deep transfer entity linkage (VLDB 2022)

All integration papers →

Resources

Wearables Benchmarks

A comprehensive suite of benchmarks open-sourced for evaluating Wearable AI—-spanning voice and vision, memory and retrieval, and tasks ranging from simple interactions to complex multimodal reasoning.

Hugging Face →

View all benchmarks →

📡 Paper Radar

Tracking research frontiers in LLM, RAG, Agents, Factuality, and more. Browse curated Scholar Picks, Paper of the Day, and topic-based exploration across 15+ research areas — from Pretraining and Reasoning to Knowledge Graphs, Multimodal, and Speech.

Explore Paper Radar →

🎓 From Zero to Research Frontier

A 4-week course pathway designed to take you from foundational concepts to the cutting edge of AI research. Includes curated reading lists, area surveys across key topics, and guided progression through landmark papers in each field.

Start the course →

View more resources → · View more services →

Recent Keynotes & Invited Talks

From Sight to Insight: Visual Memory for Smarter Assistants PAKDD 2026 Keynote · Sigmod DEEM 2026 Keynote · CHIIR 2026 Keynote · KDD GenAIRecP 2025 Keynote — Slides
Towards Factual Information with Dual Neural Knowledge HKU Distinguished Lecture 2025 · RISE AI Keynote 2025 · Berkeley DSF 2025 · KDD SKnowLLM 2025 · KDD MLoG 2025 — Slides
Next-Generation Intelligent Assistants for Wearable Devices UPenn 2024 · KDD ADS 2024 · WSDM LLM-IGS 2024 Keynote · KDD Multimodal 2023 · SDM 2022 Keynote — Slides
Where Are We in the Journey to a Knowledgeable Assistant? Sigmod 2024 Keynote · ACL KaLLM 2024 · CODS-COMAD 2024 · WISE 2024 · WSDM Industry 2024 — Slides
Generations of Knowledge Graphs: The Crazy Ideas and the Business Impact VLDB 2023 Award Talk · Semantics 2023 Keynote · NE DB Day 2023 · EGC 2023 — Slides

View all talks →

Media & Interviews

2024 ACM ByteCast — Podcast interview on knowledge graphs and AI assistants.
2024 People of ACM — Interview feature.
2023 SEMANTiCS Conference — Video interview on knowledge graph generations.
2021 IEEE Industry Leaders Series — Interview on signal processing and ML.
2021 TWIML AI Podcast — Building the Product Knowledge Graph at Amazon.
2018 Sigmod Blog — Courting ML: Witnessing the marriage of relational & web data systems to ML.
2015 Washington Post — Coverage on Knowledge-Based Trust research. 1, 2, 3

Books

Machine Knowledge

Gerhard Weikum, Xin Luna Dong, Simon Razniewski & Fabian Suchanek.
Foundations and Trends in Databases, 2021.

Barnes & Noble →

Big Data Integration

Xin Luna Dong & Divesh Srivastava.
Morgan Claypool Publishers, 2015.

Publisher →

Recent Papers on Intelligent Assistants

Trustworthy Assistants, RAG & Factuality

Siddhant Arora, Haidar Khan, Kai Sun, Xin Luna Dong, Sajal Choudhary, Seungwhan Moon, Xinyuan Zhang, Adithya Sagar, Surya Teja Appini, Kaushik Patnaik, Sanat Sharma, Shinji Watanabe, Anuj Kumar, Yue Liu, Florian Metze, Zhaojiang Lin. Stream RAG: Instant and Accurate Spoken Dialogue Systems with Streaming Tool Usage. ICML, 2026. [Link]
Zhepei Wei, Xiao Yang, Kai Sun, Jiaqi Wang, Rulin Shao, Jingxiang Chen, Mohammad Kachuee, Teja Gollapudi, Yiwei Liao, Nicolas Scheffer, Rakesh Wanga, Anuj Kumar, Yu Meng, Wen-tau Yih, Xin Luna Dong. TruthRL: Incentivizing Truthful LLMs via Reinforcement Learning. ICML, 2026. [Link]
Shicheng Liu, Kai Sun, Lisheng Fu, Xilun Chen, Xinyuan Zhang, Zhaojiang Lin, Rulin Shao, Yue Liu, Anuj Kumar, Wen-tau Yih, Xin Luna Dong. SCRIBES: Web-Scale Script-Based Semi-Structured Data Extraction with Reinforcement Learning. ICLR, 2026. [Link]
Kai Sun, Yin Huang, Srishti Mehra, Mohammad Kachuee, Xilun Chen, Renjie Tao, Zhaojiang Lin, Andrea Jessee, Nirav Shah, Alex L Betty, Yue Liu, Anuj Kumar, Wen-tau Yih, Xin Luna Dong. Knowledge Extraction on Semi-Structured Content: Does It Remain Relevant for Question Answering in the Era of LLMs? EACL, 2026. [Link]
Mohammad Kachuee, Teja Gollapudi, Minseok Kim, Yin Huang, Kai Sun, Xiao Yang, Jiaqi Wang, Nirav Shah, Yue Liu, Aaron Colak, Anuj Kumar, Wen-tau Yih, Xin Luna Dong. PrismRAG: Boosting RAG Factuality with Distractor Resilience and Strategized Reasoning. EMNLP, 2025. [Link]
Yushi Sun, Kai Sun, Yifan Ethan Xu, Xiao Yang, Xin Luna Dong, Nan Tang, Lei Chen. KERAG: Knowledge-Enhanced Retrieval-Augmented Generation for Advanced Question Answering. EMNLP, 2025. [Link]
Yin Huang, Yifan Ethan Xu, Kai Sun, Vera Yan, Alicia Yi Sun, Haidar Khan, Jimmy Nguyen, Mohammad Kachuee, Zhaojiang Lin, Yue Liu, Aaron Colak, Anuj Kumar, Wen-tau Yih, Xin Luna Dong. ConfRAG: Confidence-Guided Retrieval-Augmented Generation. arXiv, 2025. [Link]
Aidan Hogan, Xin Luna Dong, Denny Vrandecic, Gerhard Weikum. Large Language Models, Knowledge Graphs and Search Engines: A Crossroads for Answering Users' Questions. arXiv, 2025. [Link]
Xiao Yang, Yifan Ethan Xu, Kai Sun, Jiaqi Wang, Lingkun Kong, Wen-tau Scott Yih, Xin Luna Dong. KDD Cup CRAG Competition: Systems, Finding, and Learning. IEEE Data Engineering Bulletin "Special Issue on RAG", 48(4), 2024. [Link]
Xiao Yang, Kai Sun, Hao Xin, Yushi Sun, Nikita Bhalla, Xiangsen Chen, Sajal Choudhary, Rongze Daniel Gui, Ziran Will Jiang, Ziyu Jiang, Lingkun Kong, Brian Moran, Jiaqi Wang, Yifan Ethan Xu, An Yan, Chenyu Yang, Eting Yuan, Hanwen Zha, Nan Tang, Lei Chen, Nicolas Scheffer, Yue Liu, Nirav Shah, Rakesh Wanga, Anuj Kumar, Wen-tau Scott Yih, Xin Luna Dong. CRAG — Comprehensive RAG Benchmark. NeurIPS, 2024. [Link][Hugging Face Daily Papers][Poster]
Yushi Sun, Hao Xin, Kai Sun, Yifan Ethan Xu, Xiao Yang, Xin Luna Dong, Nan Tang, Lei Chen. Are Large Language Models A Good Replacement of Taxonomies? PVLDB, 2024. [Link]
Kai Sun, Yifan Ethan Xu, Hanwen Zha, Yue Liu, Xin Luna Dong. Head-to-Tail: How Knowledgeable Are Large Language Models? A.K.A. Will LLMs Replace Knowledge Graphs? NAACL, 2024. [Link]

Multi-modal Assistants

Jeonghwan Kim, Renjie Tao, Sanat Sharma, Jiaqi Wang, Kai Sun, Zhaojiang Lin, Seungwhan Moon, Lambert Mathias, Anuj Kumar, Heng Ji, Xin Luna Dong. PixSearch: Pixel-Grounded Retrieval for Knowledgeable Large Multimodal Models. arXiv, 2026. [Link]
Jiaqi Wang, Xiao Yang, Kai Sun, Parth Suresh, Sanat Sharma, Adam Czyzewski, Derek Andersen, Surya Teja Appini, Arkav Banerjee, Sajal Choudhary, Shervin Ghasemlou, Ziqiang Guan, Akil Iyer, Haidar Khan, Lingkun Kong, Roy Luo, Tiffany Ma, Zhen Qiao, Tammy Stark, David Tran, Wenfang Xu, Skyler Yeatman, Chen Zhou, Gunveer Gujral, Yinglong Xia, Seungwhan Moon, Nicolas Scheffer, Nirav Shah, Eun Chang, Yue Liu, Florian Metze, Zhaleh Feizollahi, Andrea Jessee, Mangesh Pujari, Ahmed A Aly, Babak Damavandi, Rakesh Wanga, Anuj Kumar, Rohit Patel, Wen-tau Yih, Xin Luna Dong. CRAG-MM: Multi-modal Multi-turn Comprehensive RAG Benchmark. arXiv, 2025. [Link]
Eun Chang, Zhuangqun Huang, Yiwei Liao, Sagar Ravi Bhavsar, Amogh Param, Tammy Stark, Adel Ahmadyan, Xiao Yang, Jiaqi Wang, Ahsan Abdullah, Giang Nguyen, Akil Iyer, David Hall, Elissa Li, Shane Moon, Nicolas Scheffer, Kirmani Ahmed, Babak Damavandi, Rakesh Wanga, Anuj Kumar, Rohit Patel, and Xin Luna Dong. WearVQA: A Visual Question Answering Benchmark for Wearables in Egocentric Authentic Real-world Scenarios. NeurIPS, 2025. [Link]
Yichi Zhang, Xin Luna Dong, Zhaojiang Lin, Andrea Madotto, Anuj Kumar, Babak Damavandi, Joyce Chai, Shane Moon. Proactive Assistant Dialogue Generation from Streaming Egocentric Videos. EMNLP, 2025. [Link]
Xindi Wu, Uriel Singer, Zhaojiang Lin, Xide Xia, Andrea Madotto, Yifan Ethan Xu, Paul A. Crook, Xin Luna Dong, Shane Moon. Corgi: Cached Memory Guided Video Generation. WACV, 2025. [Link]
Jielin Qiu, Andrea Madotto, Zhaojiang Lin, Paul A. Crook, Yifan Ethan Xu, Xin Luna Dong, Christos Faloutsos, Lei Li, Babak Damavandi, Seungwhan Moon. SnapNTell: Enhancing Entity-Centric Visual Question Answering with Retrieval Augmented Multimodal LLM. EMNLP, 2024. [Link]
Ashish Shenoy, Yichao Lu, Srihari Jayakumar, Debojeet Chatterjee, Mohsen Moslehpour, Pierce Chuang, Abhay Harpale, Vikas Bhardwaj, Di Xu, Shicong Zhao, Longfang Zhao, Ankit Ramchandani, Xin Luna Dong, Anuj Kumar. Lumos: Empowering Multimodal LLMs with Scene Text Recognition. SigKDD, 2024. [Link]

Personal Memory & Personalization

Kai Zhang, Xinyuan Zhang, Ejaz Ahmed, Hongda Jiang, Caleb Kumar, Kai Sun, Zhaojiang Lin, Sanat Sharma, Shereen Oraby, Aaron Colak, Ahmed A Aly, Anuj Kumar, Xiaozhong Liu, Xin Luna Dong. AssoMem: Scalable Memory QA with Multi-Signal Associative Retrieval. ICLR, 2026. [Link]
Wang Bill Zhu, Deqing Fu, Kai Sun, Yi Lu, Zhaojiang Lin, Seungwhan Moon, Kanika Narang, Mustafa Canim, Yue Liu, Anuj Kumar, Xin Luna Dong. VisualLens: Personalization through Visual History. NeurIPS, 2025. [Link][Hugging Face Daily Papers]
Hongda Jiang, Xinyuan Zhang, Siddhant Garg, Rishab Arora, Shiun-Zu Kuo, Jiayang Xu, Ankur Bansal, Aaron Colak, Yue Liu, Ahmed Aly, Anuj Kumar, Xin Luna Dong. Memory-QA: Answering Recall Questions Based on Multimodal Memories. EMNLP, 2025. [Link]

General Voice Assistants

Zhaojiang Lin, Yong Xu, Kai Sun, Jing Zheng, Yin Huang, Surya Teja Appini, Krish Narang, Renjie Tao, Ishan Kapil Jain, Siddhant Arora, Ruizhi Li, Yiteng Huang, Kaushik Patnaik, Wenfang Xu, Suwon Shon, Yue Liu, Ahmed A Aly, Anuj Kumar, Florian Metze, Xin Luna Dong. WearVox: An Egocentric Multichannel Voice Assistant Benchmark for Wearables. ICLR, 2026. [Link]
Zekun Li, Zhiyu Zoey Chen, Mike Ross, Patrick Huber, Seungwhan Moon, Zhaojiang Lin, Xin Luna Dong, Adithya Sagar, Xifeng Yan, Paul A. Crook. Large Language Models as Zero-shot Dialogue State Tracker through Function Calling. ACL, 2024. [Link]