ridm@nrct.go.th   ระบบคลังข้อมูลงานวิจัยไทย   รายการโปรดที่คุณเลือกไว้

การออกแบบแฟ้มผกผันเพื่อการค้นคืนข้อความไทย

หน่วยงาน จุฬาลงกรณ์มหาวิทยาลัย

รายละเอียด

ชื่อเรื่อง : การออกแบบแฟ้มผกผันเพื่อการค้นคืนข้อความไทย
นักวิจัย : สมชาย ประสิทธิ์จูตระกูล
คำค้น : แฟ้มดัชนี , ระบบการจัดเก็บและค้นข้อสนเทศ
หน่วยงาน : จุฬาลงกรณ์มหาวิทยาลัย
ผู้ร่วมงาน : จุฬาลงกรณ์มหาวิทยาลัย. ภาควิชาวิศวกรรมคอมพิวเตอร์
ปีพิมพ์ : 2541
อ้างอิง : http://cuir.car.chula.ac.th/handle/123456789/5608
ที่มา : -
ความเชี่ยวชาญ : -
ความสัมพันธ์ : -
ขอบเขตของเนื้อหา : -
บทคัดย่อ/คำอธิบาย :

งานวิจัยนี้นำเสนอขั้นตอนวิธีการหาคำเพื่อจัดทำดัชนีสำหรับระบบการค้นคืนข้อความไทยที่ใช้โครงสร้างแฟ้มผกผัน โดยอาศัยพจนานุกรมช่วยในการแยกคำ และยังสามารถจัดการกับกรณีที่ข้อความที่ได้รับมีคำที่ไม่ปรากฏพจนานุกรม อาทิเช่นคำทับศัพท์ หรือคำที่สะกดผิดเป็นต้น โดยอาศัยกฎการแบ่งพยางค์ข้อความไทย ขั้นตอนวิธีนี้จำลองปัญหาด้วยกราฟการต่อและซ้อนกันของคำ ซึ่งมีโหนดแทนคำและเส้นเชื่อมแทนการต่อหรือซ้อนกันของคำ โดยมีเส้นทางสั้นสุดจากซ้ายไปขวาในกราฟนี้ แทนรายการคำพื้นฐานที่ควรถูกจัดทำดัชนีสำหรับแฟ้มผกผันเวลาการทำงานของการหาคำนี้เป็น O(n[superscript 2] ) โดยที่ n คือความยาวข้อความ ขั้นตอนวิธีนี้จะถูกใช้ทั้งในขั้นตอนการเตรียมเอกสารก่อนการทำดัชนี และการประมวลข้อคำถามก่อนการสืบค้น ผลการทดลองพบว่าจำนวนคำที่หาได้เพื่อทำดัชนีนั้นมีจำนวนประมาณ 30-50% ของจำนวนคำที่เป็นไปได้ทั้งหมดที่ปรากฏในข้อความทดสอบ นอกจากนี้งานวิจัยนี้ยังได้นำเสนอขั้นตอนวิธีในการเข้ารหัสคำทับศัพท์ เพื่อรองรับการค้นคืนคำทับศัพท์ข้ามภาษาจากอังกฤษมาไทย นั่นคือระบบสามารถค้นคืนเอกสารที่มีคำสำคัญภาษาอังกฤษ หรือคำทับศัพท์เป็นภาษาไทยของคำอังกฤษนั้น การเข้ารหัสนี้ปรับปรุงวิธีการเข้ารหัสเสียงและตารางการเข้ารหัสในระบบซาวน์เดกซ์ วิธีนี้ใช้เวลาการเข้ารหัสแปรเชิงเส้นตามความยาว จากผลที่ได้จากการทดลองพบว่าได้ค่าเรียกคืนและความแม่นยำมากกว่า 80% เมื่อจำกัดการพิจารณาเฉพาะคำที่รหัสเสียงมีความยาวเกิน 4

บรรณานุกรม :
สมชาย ประสิทธิ์จูตระกูล . (2541). การออกแบบแฟ้มผกผันเพื่อการค้นคืนข้อความไทย.
    กรุงเทพมหานคร : จุฬาลงกรณ์มหาวิทยาลัย.
สมชาย ประสิทธิ์จูตระกูล . 2541. "การออกแบบแฟ้มผกผันเพื่อการค้นคืนข้อความไทย".
    กรุงเทพมหานคร : จุฬาลงกรณ์มหาวิทยาลัย.
สมชาย ประสิทธิ์จูตระกูล . "การออกแบบแฟ้มผกผันเพื่อการค้นคืนข้อความไทย."
    กรุงเทพมหานคร : จุฬาลงกรณ์มหาวิทยาลัย, 2541. Print.
สมชาย ประสิทธิ์จูตระกูล . การออกแบบแฟ้มผกผันเพื่อการค้นคืนข้อความไทย. กรุงเทพมหานคร : จุฬาลงกรณ์มหาวิทยาลัย; 2541.