เคมีเมตริกส์และการวิเคราะห์ข้อมูล
เคมีเมตริกส์ประยุกต์ใช้วิธีการทางสถิติและคณิตศาสตร์ในการออกแบบการทดลองและสกัดข้อมูลทางเคมีจากข้อมูลการวิเคราะห์ โดยเฉพาะข้อมูลหลายตัวแปร
Definition
เคมีเมตริกส์คือสาขาวิชาที่ใช้วิธีการทางสถิติและคณิตศาสตร์ในการออกแบบการทดลองทางเคมีและสกัดข้อมูลทางเคมีสูงสุดจากการวัดเชิงวิเคราะห์ โดยเฉพาะข้อมูลหลายตัวแปร
Scope
หัวข้อนี้ครอบคลุมการวิเคราะห์ข้อมูลเชิงวิเคราะห์ที่นอกเหนือจากสถิติแบบตัวแปรเดียว: การออกแบบและการปรับปรุงการทดลองให้เหมาะสม, วิธีการสำรวจและการจดจำรูปแบบ เช่น การวิเคราะห์องค์ประกอบหลักและการจัดกลุ่ม, การจำแนกประเภท, และการสอบเทียบหลายตัวแปร รวมถึงกำลังสองน้อยที่สุดบางส่วน (partial least squares) โดยจะกล่าวถึงวิธีการสร้างแบบจำลองการวัดที่มีมิติสูง เช่น สเปกตรัมเต็มรูปแบบ เพื่อจำแนกตัวอย่างและทำนายความเข้มข้น และวิธีการตรวจสอบความถูกต้องของแบบจำลองเพื่อป้องกันการเกิดภาวะการเรียนรู้เกิน (overfitting)
Core questions
- การออกแบบการทดลองทำให้การปรับปรุงให้เหมาะสมและการคัดกรองมีประสิทธิภาพได้อย่างไร?
- วิธีการต่างๆ เช่น การวิเคราะห์องค์ประกอบหลัก เปิดเผยโครงสร้างในข้อมูลที่มีมิติสูงได้อย่างไร?
- การสอบเทียบหลายตัวแปรทำนายความเข้มข้นจากสเปกตรัมเต็มรูปแบบได้อย่างไร?
- แบบจำลองทางเคมีเมตริกส์ได้รับการตรวจสอบความถูกต้องเพื่อหลีกเลี่ยงการเกิดภาวะการเรียนรู้เกินได้อย่างไร?
Key theories
- การวิเคราะห์องค์ประกอบหลัก
- การวิเคราะห์องค์ประกอบหลักเป็นการแสดงการวัดที่สัมพันธ์กันจำนวนมากใหม่ในรูปขององค์ประกอบเชิงตั้งฉากไม่กี่ตัวที่จับความแปรปรวนส่วนใหญ่ เปิดเผยการจัดกลุ่มและแนวโน้ม และเป็นพื้นฐานสำหรับการจำแนกประเภทและการบีบอัดข้อมูลสเปกตรัมก่อนการสร้างแบบจำลอง
- การสอบเทียบหลายตัวแปร
- วิธีการต่างๆ เช่น กำลังสองน้อยที่สุดบางส่วน เชื่อมโยงโปรไฟล์ที่วัดได้ทั้งหมด เช่น สเปกตรัม กับความเข้มข้นหนึ่งหรือหลายค่า โดยใช้ประโยชน์จากตัวแปรทั้งหมดพร้อมกันเพื่อให้การทำนายที่แข็งแกร่ง แม้ว่าสัญญาณแต่ละตัวจะทับซ้อนหรือรบกวนกันก็ตาม
Mechanisms
เคมีเมตริกส์จะพิจารณาชุดของการวัดเป็นเมทริกซ์ข้อมูลและประยุกต์ใช้แบบจำลองทางคณิตศาสตร์กับข้อมูลนั้น วิธีการสำรวจ เช่น การวิเคราะห์องค์ประกอบหลัก จะฉายภาพข้อมูลไปยังตัวแปรแฝงไม่กี่ตัวที่จับโครงสร้างของข้อมูล เปิดเผยกลุ่มและค่าผิดปกติ วิธีการจำแนกประเภทจะกำหนดตัวอย่างให้กับกลุ่มต่างๆ และการสอบเทียบหลายตัวแปรจะสร้างแบบจำลองเชิงทำนายที่เชื่อมโยงสเปกตรัมหรือโปรไฟล์อื่นๆ เข้ากับความเข้มข้น แบบจำลองจะได้รับการตรวจสอบความถูกต้องโดยการตรวจสอบข้าม (cross-validation) หรือชุดทดสอบอิสระ เพื่อให้แน่ใจว่าแบบจำลองสามารถสรุปผลได้ทั่วไป แทนที่จะเพียงแค่เหมาะสมกับสัญญาณรบกวน
Clinical relevance
วิธีการทางเคมีเมตริกส์เป็นหัวใจสำคัญของการวิเคราะห์ด้วยเครื่องมือที่ทันสมัย: การตีความข้อมูลสเปกโทรสโกปีและโครมาโตกราฟีในห้องปฏิบัติการเภสัชกรรม อาหาร และสิ่งแวดล้อม ทำให้สามารถทดสอบแบบไม่ทำลายได้อย่างรวดเร็วด้วยสเปกโทรสโกปีอินฟราเรดใกล้ และสนับสนุนการวิเคราะห์เมตาโบโลมิกส์และโอไมกส์อื่นๆ ที่แต่ละตัวอย่างให้ตัวแปรนับพัน
History
เคมีเมตริกส์เกิดขึ้นเป็นสาขาวิชาที่มีชื่อเรียกในทศวรรษ 1970 โดย Svante Wold เป็นผู้บัญญัติศัพท์และ Bruce Kowalski ช่วยก่อตั้ง เนื่องจากข้อมูลเครื่องมือที่เพิ่มขึ้นและการประมวลผลด้วยคอมพิวเตอร์ที่มีราคาไม่แพงทำให้เกิดความต้องการวิธีการหลายตัวแปร การถดถอยกำลังสองน้อยที่สุดบางส่วน (Partial least squares regression) ซึ่งพัฒนาโดย Wold และ Martens กลายเป็นเครื่องมือสำคัญ และสาขาวิชานี้ได้ขยายตัวพร้อมกับการเพิ่มขึ้นของข้อมูลสเปกโทรสโกปีและโอไมกส์ที่มีมิติสูง
Key figures
- Svante Wold
- Bruce Kowalski
- Harald Martens
Related topics
Seminal works
- wold1987
- miller2018
- brereton2018
Frequently asked questions
- เคมีเมตริกส์แก้ปัญหาอะไร?
- เครื่องมือที่ทันสมัยสร้างข้อมูลได้มากกว่าที่สถิติแบบง่ายจะจัดการได้ เช่น สเปกตรัมเต็มรูปแบบสำหรับแต่ละตัวอย่าง เคมีเมตริกส์นำเสนอวิธีการหลายตัวแปรเพื่อค้นหารูปแบบ จำแนกตัวอย่าง และทำนายความเข้มข้นจากข้อมูลทั้งหมดนั้นพร้อมกัน
- เหตุใดแบบจำลองทางเคมีเมตริกส์จึงต้องได้รับการตรวจสอบความถูกต้อง?
- ด้วยตัวแปรจำนวนมาก แบบจำลองสามารถปรับให้เข้ากับสัญญาณรบกวนแทนที่จะเป็นเคมีจริง ซึ่งดูเหมือนจะแม่นยำกับข้อมูลการฝึกอบรมแต่ล้มเหลวกับตัวอย่างใหม่ การตรวจสอบความถูกต้องโดยการตรวจสอบข้ามหรือชุดทดสอบอิสระจะตรวจสอบว่าแบบจำลองสามารถสรุปผลได้ทั่วไปอย่างแท้จริง