ಸದಸ್ಯ:Likith astron/sandbox

ವಿಕಿಪೀಡಿಯದಿಂದ, ಇದು ಮುಕ್ತ ಹಾಗೂ ಸ್ವತಂತ್ರ ವಿಶ್ವಕೋಶ

“ರಾಮನು ರಾವಣನನ್ನು ಕೊಂದನು” “ರಮೇಶನು ಒಂದು ಹೊಸ ಕಾರನ್ನು ಕೊಂಡುಕೊಂಡನು” “ಬೆಳಗಾವಿಯಲ್ಲಿ ವಿಶ್ವಕನ್ನಡ ಸಮ್ಮೇಳನ ಜರುಗಲಿದೆ” ಹೀಗೆ ಹಲವಾರು ವಾಕ್ಯಗಳನ್ನು ನಾವು ಪ್ರತಿನಿತ್ಯ ಓದುತ್ತಿರುತ್ತೇವೆ ಅಥವಾ ಕೇಳುತ್ತಿರುತ್ತೇವೆ. ಇದು ಮಾಹಿತಿಯುಗ. ಪ್ರತಿದಿನ ಪ್ರತಿ ನಿಮಿಷ ಮಾಹಿತಿ ಸ್ಫೋಟ ನಡೆಯುತ್ತಲೇ ಇದೆ. ಸುದ್ದಿಪತ್ರಿಕೆ, ಟಿ.ಇವಿ. ಅಂತರಜಾಲ -ಹೀಗೆ ಹಲವಾರು ಮಾಧ್ಯಮಗಳಿಂದ ನಮ್ಮ ಕಿವಿ ಮೇಲೆ ಮಾಹಿತಿಯ “ಧಾಳಿ” ನಡೆಯುತ್ತಿದೆ. ಈ ಮಾಹಿತಿಯ ಪ್ರಮುಖ ಅಂಗ ಪಠ್ಯರೂಪದಲ್ಲಿದೆ ಅಂದರೆ ವಾಕ್ಯಗಳು. ವಾಕ್ಯಗಳು ಪದಗಳಿಂದಾಗಿವೆ. ಈ ವಾಕ್ಯಗಳನ್ನು ನಮ್ಮ ಮೆದುಳು ಸಹಜವಾಗಿಯೇ ಪದಗಳಾಗಿ ವಿಂಗಡಿಸಿ ಅವುಗಳ ಅರ್ಥವನ್ನು ವಿಶ್ಲೀಷಿಸುತ್ತದೆ. ಎಲ್ಲ ವಾಕ್ಯಗಳನ್ನು ಓದಿ ಇಡಿಯ ಲೇಖನದ ಒಟ್ಟು ಸಾರಾಂಶವನ್ನು ಮೆದುಳು ಗ್ರಹಿಸುತ್ತದೆ. ಈ ಪ್ರಕ್ರಿಯೆ ಮಾನವರಲ್ಲಿ ಸಹಜವಾಗಿ ನಡೆಯುವ ಕ್ರಿಯೆ. ಇದನ್ನೇ ಗಣಕ ಬಳಸಿ ಮಾಡುವಂತಿದ್ದರೆ? ಮಾಹಿತಿ ತಂತ್ರಜ್ಞಾನದ ಈ ವಿಭಾಗಕ್ಕೆ ಸಹಜಭಾಷಾ ಸಂಸ್ಕರಣೆ (Natural Language Processing) ಎಂಬ ಹೆಸರಿದೆ. ಇದು ಯಾಕೆ ಬೇಕು? ಯಂತ್ರಗಳೇ ಭಾಷೆಯನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವಂತಿದ್ದರೆ ಒಳ್ಳೆಯದಲ್ಲವೇ? ಉದಾಹರಣೆಗೆ ಬ್ಯಾಂಕಿನ ಎಟಿಎಂ ಯಂತ್ರದ ಮುಂದೆ ನಿಂತು ಅದು ತಾನಾಗಿಯೇ ನಿಮ್ಮನ್ನು ಗುರುತಿಸಿ ನಿಮ್ಮ ಮಾತುಗಳನ್ನು ಅರ್ಥಮಾಡಿಕೊಂಡು ಹಣ ನೀಡುವಂತಿದ್ದರೆ ಎಷ್ಟು ಸುಲಭ ಅಲ್ಲವೇ? ಯಂತ್ರದ ಪರದೆಯಲ್ಲಿ ಮೂಡಿಬರುವ ಸಾಲುಸಾಲು ಸಂದೇಶ ಮತ್ತು ನೀಡಬೇಕಾದ ಆದೇಶಗಳ ಗೊಡವೆ ಇಲ್ಲದೆ ಸರಳವಾಗಿ ನಮ್ಮ ಕೆಲಸ ಮುಗಿಸಬಹುದು. ಕುರುಡರು ಗಣಕಕ್ಕೆ ಮಾತುಗಳ ಮೂಲಕವೇ ಆದೇಶ ನೀಡಬಹುದು. ಒಂದು ಭಾಷೆಯಿಂದ ಇನ್ನೊಂದು ಭಾಷೆಗೆ ಅನುವಾದ ಮಾಡಬಹುದು. ಹೀಗೆ ಈ ಸಹಜಭಾಷಾ ಸಂಸ್ಕರಣೆಯ ಕ್ಷೇತ್ರದ ಉಪಕಾರಗಳು ಬಹಳಷ್ಟಿವೆ. ತೀನಂಶ್ರೀಯವರ ವ್ಯಾಕರಣ ಪುಸ್ತಕ ತೆರೆದು ನೋಡಿ. ಎಲ್ಲ ವ್ಯಾಕರಣಗಳೂ ಪ್ರಾರಂಭವಾಗುವುದು ವಾಕ್ಯಗಳನ್ನು ಪದಗಳಾಗಿ ವಿಂಗಡಿಸುವಲ್ಲಿಂದ. “ರಮೇಶ ಬಂದನು” ಎಂಬ ವಾಕ್ಯದಲ್ಲಿ ಎರಡು ಪದಗಳಿವೆ. ಮೊದಲನೆಯ “ರಮೇಶ” ಎಂಬ ಪದ ನಾಮಪದ. ಎರಡನೆಯ “ಬಂದನು” ಎಂಬುದು ಕ್ರಿಯಾಪದ. ಇದನ್ನು ನಾವು ಶಾಲೆಯಲ್ಲಿ ಕಲಿತಿದ್ದೇವೆ. ಇದನ್ನೇ ಗಣಕ ಮೂಲಕ ಮಾಡುವುದು ಸಹಜಭಾಷಾ ಸಂಸ್ಕರಣೆಯ ಪ್ರಥಮ ಹಂತ. ಇದು ಹೇಳಿದಷ್ಟು ಸುಲಭವಲ್ಲ. ಮೊದಲನೆಯದಾಗಿ ಗಣಕದಲ್ಲಿ ಲಕ್ಷಗಟ್ಟಲೆ ಪದಗಳ ಕಣಜವಿರಬೇಕಾಗುತ್ತದೆ. ಈ ಪದಗಳು ಕೇವಲ ಒಂದು ದತ್ತಸಂಚಯದಲ್ಲಿ (database) ಇದ್ದರೆ ಸಾಲದು. ಪ್ರತಿ ಪದಕ್ಕೂ ಅದರ ವ್ಯಾಕರಣಸ್ವರೂಪದ ವಿಂಗಡಣೆ ಆಗಿರಬೇಕು. ಉದಾಹರಣೆಗೆ ರಾಮ <ನಾಮಪದ>, ಓಡು <ಕ್ರಿಯಾಪದ>, ಪುಸ್ತಕ <ನಾಮಪದ>,.. ಇಂತಹ ಸಂಗ್ರಹಕ್ಕೆ corpus ಅರ್ಥಾತ್ ಪಠ್ಯಕಣಜ ಎನ್ನುತ್ತಾರೆ. ಪದಗಳ ವ್ಯಾಕರಣಸ್ವರೂಪದ ವಿಂಗಡಣೆ ಅಥವಾ ಸರಳವಾಗಿ ಹೇಳುವುದಾದರೆ ಪದವಿಂಗಡಣೆಗೆ part of speech tagging ಎನ್ನುತ್ತಾರೆ. ಈ ಮೊದಲ ಹಂತದ ಕ್ರಿಯೆಗೆ ಹಲವಾರು ತಂತ್ರಾಂಶಗಳು ಲಭ್ಯವಿವೆ. ಇಂಗ್ಲಿಶ್ ಭಾಷೆಯಲ್ಲಿ ಇದು ಅಷ್ಟು ಕಷ್ಟವಿಲ್ಲ. ಕನ್ನಡದ ಸಂದರ್ಭದಲ್ಲಿ ಇದು ತುಂಬ ಕ್ಲಿಷ್ಟ. ಇದಕ್ಕೆ ಕಾರಣ ಸಂಧಿವಿಂಗಡಣೆ. “ಬಹೂಪಯೋಗಿಯಾಗಿದೆ” ಎಂಬ ಪದವನ್ನು ಬಹು + ಉಪಯೋಗಿ + ಆಗಿದೆ ಎಂಬುದಾಗಿ ವಿಂಗಡಿಸಬೇಕು. ಈ ಮೂಲಪದಗಳು ಸೇರಿ ಸಂಯುಕ್ತಪದವಾಗುವ ಸೂತ್ರವು ಗಣಕದಲ್ಲಿ ಇರಬೇಕು. ಇದರ ಜೊತೆ ವಿಭಕ್ತಿ ಪ್ರತ್ಯಯಗಳ ಸೂತ್ರ ಸಿದ್ಧವಿರಬೇಕು. ಯಾವ ಪದ ಎಲ್ಲಿ ಕೊನೆಗೊಳ್ಳುತ್ತದೆ ಯಾವ ಪದ ಎಲ್ಲಿ ಪ್ರಾರಂಭವಾಗುತ್ತದೆ, ಯಾವ ಸಂದರ್ಭದಲ್ಲಿ ಯಾವ ಸಂಧಿಯ ಸೂತ್ರ ಬಳಸಬೇಕು ಎಂಬಿತ್ಯಾದಿ ಅನುಮಾನಗಳನ್ನು ಪರಿಹರಿಸಬೇಕು. ಅನುಮಾನಾಸ್ಪದವಾದ ಹಲವಾರು ಸಂದರ್ಭಗಳನ್ನು ಮೊದಲೇ ಪಠ್ಯಕಣಜದಲ್ಲಿ ದಾಖಲಿಸಿಟ್ಟಿದ್ದರೆ ಒಳ್ಳೆಯದು. ಈ ರೀತಿ ಪದವಿಂಗಡಣೆಯನ್ನು ಒಂದು ಹಂತದಲ್ಲಿ ತಂತ್ರಾಂಶದ ಮೂಲಕ ಮಾಡಿಸಿ ಅನುಮಾನಾಸ್ಪದವಾದವುಗಳನ್ನು ನಂತರ ಮನುಷ್ಯರೇ ಮಾಡಬೇಕು. ಹೀಗೆ ಮಾಡುವಾಗ ತಂತ್ರಾಂಶವನ್ನು “ಕಲಿಯುವ” ಸ್ಥಿತಿಯಲ್ಲಿಟ್ಟುಕೊಂಡು ಮುಂದೆ ಇದೇ ರೀತಿಯ ಸಂದರ್ಭ ಬಂದಾಗ ಈ ಕಲಿಕೆಯ ಅನುಭವವನ್ನು ಬಳಸಬೇಕು. ಈ ರೀತಿ ವ್ಯಾಕರಣಸ್ವರೂಪ ನಿಗದಿಯನ್ನು ನಮ್ಮ ಭಾಷೆಗೆ ತಂತ್ರಾಂಶಗಳ ಮೂಲಕ ಮಾಡುವುದು ಕಷ್ಟ ಎಂದು ಅನ್ನಿಸಿದರೂ ಅದು ನಿಜವಾಗಿ ನೋಡಿದರೆ ಪರಿಸ್ಥಿತಿ ಹಾಗಿಲ್ಲ. ಯಾಕೆಂದರೆ ಭಾರತೀಯ ಬಾಷೆಗಳಲ್ಲಿ ಅನುಮಾನಾಸ್ಪದ ಸಂದರ್ಭಗಳು ಕಡಿಮೆ. ಒಂದು ಪದವನ್ನು ನಾವು ಯಾವ ರೀತಿ ಬರೆಯುತ್ತೇವೆಯೋ ಅದೇ ರೀತಿ ಓದುತ್ತೇವೆ. ಇಂಗ್ಲಿಶ್ ಭಾಷೆಯಂತೆ ಬರೆದುದನ್ನು ಯಾವ ರೀತಿ ಉಚ್ಛರಿಸಬೇಕು ಎಂದು ನಮಗೆ ಯಾರೂ ಹೇಳಿಕೊಡುವ ಅಗತ್ಯವಿಲ್ಲ. ಈ ಗುಣವೈಶಿಷ್ಟ್ಯವು ಪಠ್ಯದಿಂದ ಧ್ವನಿಯನ್ನು ಮೂಡಿಸುವಲ್ಲಿ ತುಂಬ ಉಪಯುಕ್ತ. ಎಲ್ಲ ಪದಗಳು, ಅವುಗಳ ಸಂಯುಕ್ತಗಳು, ಅವುಗಳನ್ನು ಬೇರೆಬೇರೆ ಧ್ವನಿಯಲ್ಲಿ ಬೇರೆಬೇರೆ ಭಾವನೆಗಳಲ್ಲಿ ಉಚ್ಛರಿಸುವ ವಿಧಾನಗಳನ್ನು ದತ್ತಸಂಚಯದಲ್ಲಿ ಇಟ್ಟುಕೊಂಡು ಪಠ್ಯದಿಂದ ಧ್ವನಿಗೆ ಬದಲಾವಣೆ ಮಾಡುವ ತಂತ್ರಾಂಶದ ತಯಾರಿ ಮಾಡಬಹುದು. ಒಂದು ಭಾಷೆಯನ್ನು ವೈಜ್ಞಾನಿಕವಾಗಿ ವಿಂಗಡಿಸುವ ಸೂತ್ರವನ್ನು ಪ್ರಪಂಚದ ಯಾವುದೇ ಭಾಷೆಗೆ ಪ್ರಪ್ರಥಮ ಬಾರಿಗೆ ನಿರ್ಮಿಸಿದವನು ಪಾಣಿನಿ. ಆತ ಸಂಸ್ಕೃತ ಭಾಷೆಗೆ ವ್ಯಾಕರಣಸ್ವರೂಪ ನಿಗದಿಯ ಸೂತ್ರಗಳನ್ನು ನೀಡಿದ. ಆತನಿಗೆ ಸಹಜಭಾಷಾ ಸಂಸ್ಕರಣೆ ಕ್ಷೇತ್ರದ ಜನಕ ಎಂಬ ಹೆಸರೂ ಇದೆ. ದುರದೃಷ್ಟಕ್ಕೆ ಆತನ ಕಾಲದಲ್ಲಿ ಗಣಕ ಮತ್ತು ತಂತ್ರಾಂಶಗಳು ಇರಲಿಲ್ಲ. ಈಗ ಈ ಸಹಜಭಾಷಾ ಸಂಸ್ಕರಣೆಯ ಇತರೆ ವಿಭಾಗಗಳನ್ನು ಮತ್ತು ಸೌಕರ್ಯಗಳನ್ನು ಸ್ವಲ್ಪ ಪರಿಶೀಲಿಸೋಣ. ಒಂದು ಪ್ಯಾರ ಅಥವಾ ಸಂಪೂರ್ಣ ಲೇಖನವನ್ನು ಓದಿ ನಾವು ಮನಸ್ಸಿನಲ್ಲಿಯೇ ಅದರ ಸಾರಾಂಶವನ್ನು ಗ್ರಹಿಸಿಕೊಳ್ಳುತ್ತೇವೆ. ಇದನ್ನೇ ತಂತ್ರಾಂಶಗಳ ಮೂಲಕವೂ ಮಾಡಬಹುದು. ದೀರ್ಘವಾದ ಲೇಖನ ಅಥವಾ ವರದಿಯನ್ನು ತಂತ್ರಾಂಶವು ಓದಿ ಕ್ಷಣಮಾತ್ರದಲ್ಲಿ ಅದರ ಸಾರಾಂಶವನ್ನು ನೀಡಬಹುದು. ಪಠ್ಯದಿಂದ ಧ್ವನಿಗೆ ಮತ್ತು ಧ್ವನಿಯಿಂದ ಪಠ್ಯಕ್ಕೆ ಬದಲಾವಣೆ ಮಾಡಬಹುದು. ನಾವು ಮಾತನಾಡಿದುದನ್ನು ಗಣಕವು ಆಲಿಸಿ ಅದನ್ನು ಅರ್ಥ ಮಾಡಿಕೊಂಡು ಅದನ್ನು ಪಠ್ಯಕ್ಕೆ ಬದಲಾವಣೆ ಮಾಡುವ ಸವಲತ್ತು ಕನ್ನಡಕ್ಕೂ ಬಂದಾಗ ನಮ್ಮ ಲೇಖಕರುಗಳಿಗೆ ಖಂಡಿತ ಮಹದಾನಂದವಾಗುವುದರಲ್ಲಿ ಅನುಮಾನವಿಲ್ಲ. ಗಣಕ ಪರದೆಯಲ್ಲಿ ಮೂಡಿಬಂದುದನ್ನು ಓದಿಹೇಳುವ ತಂತ್ರಾಂಶ ಕನ್ನಡಕ್ಕೆ ಲಭ್ಯವಾದಾಗ ಕುರುಡರು ಕನ್ನಡದ ಲೇಖನಗಳನ್ನು, ಅಂತರಜಾಲತಾಣಗಳನ್ನು, ಖ್ಯಾತ ಪುಸ್ತಕಗಳನ್ನು ಎಲ್ಲ ಧ್ವನಿ ಮೂಲಕ ಓದಬಹುದು, ಅಲ್ಲ ಆಲಿಸಬಹುದು. ಈ ಕ್ಷೇತ್ರದ ಇನ್ನೊಂದು ಪ್ರಮುಖ ಕೊಡುಗೆಯೆಂದರೆ ತಂತ್ರಾಂಶಗಳ ಮೂಲಕ ಒಂದು ಭಾಷೆಯಿಂದ ಇನ್ನೊಂದು ಭಾಷೆಗೆ ಅನುವಾದ. ಈ ಬಗ್ಗೆ ಮಾಹಿತಿ ತಂತ್ರಜ್ಞಾನ ಕ್ಷೇತ್ರದ ದಿಗ್ಗಜಗಳಾದ ಮೈಕ್ರೋಸಾಫ್ಟ್, ಗೂಗ್ಲ್ ಮತ್ತು ಇನ್ನೂ ಹಲವು ಕಂಪೆನಿಗಳು ಸಂಶೋಧನಾ ನಿರತವಾಗಿವೆ. ಬಿಂಗ್ ಮತ್ತು ಗೂಗ್ಲ್ ಶೋಧಕಗಳು ಪ್ರಪಂಚದ ಹಲವು ಭಾಷೆಗಳ ನಡುವೆ ಭಾಷಾಂತರದ ಸೌಲಭ್ಯವನ್ನು ಈಗಾಲೆ ನೀಡಿವೆ. ಸದ್ಯಕ್ಕೆ ಭಾರತೀಯ ಭಾಷೆಗಳಲ್ಲಿ ಹಿಂದಿ ಮಾತ್ರ ಲಭ್ಯವಿದೆ. ಕನ್ನಡವೂ ಮುಂದಕ್ಕೆ ಈ ಪಟ್ಟಿಯಲ್ಲಿ ದಾಖಲಾಗಬಹುದು. ಆದರೆ ಈ ಯಂತ್ರಾನುವಾದ ಅಷ್ಟು ಪರಿಪೂರ್ಣವಲ್ಲ. ಅದರಲ್ಲಿ ಹಲವಾರು ತಪ್ಪುಗಳು ಆಗುವ ಸಾಧ್ಯತೆಯಿದೆ, ಆಗುತ್ತಿದೆ. ತಪ್ಪಾದಾಗ ನಾವು ಆ ತಪ್ಪನ್ನು ಸರಿಪಡಿಸಿದರೆ ತಂತ್ರಾಂಶವು ಅದನ್ನು ತನ್ನ ಸಂಗ್ರಹಕ್ಕೆ ಸೇರಿಸಿಕೊಂಡು ಮಂದೆ ಅದೇ ತಪ್ಪು ಮರುಕಳಿಸದಂತೆ ನೋಡಿಕೊಳ್ಳುತ್ತದೆ. ನಮ್ಮ ದೇಶದ ಹಲವಾರು ಸಂಶೋಧನಾ ಕೇಂದ್ರಗಳು ಈ ಸಹಜಭಾಷಾ ಕ್ಷೇತ್ರದಲ್ಲಿ ಈಗಾಗಲೆ ಕೆಲಸ ಮಾಡಿವೆ. ಆದರೆ ಒಂದು ದುಃಖದ ಸಂಗತಿಯೆಂದರೆ ಒಬ್ಬರು ಮಾಡಿದ ಕೆಲಸದ ಆಕರಗಳು ಇನ್ನೊಬ್ಬರಿಗೆ ಲಭ್ಯವಿಲ್ಲ. ಈಗಾಗಲೆ ತಿಳಿಸಿದಂತೆ ಈ ಎಲ್ಲ ಕೆಲಸಗಳಿಗೆ ಮೂಲ ಆಕರ ಪಠ್ಯಕಣಜ (corpus). ಇದರಲ್ಲಿ ಹಲವು ವಿಧಗಳಿವೆ. ಕೇವಲ ಪದಗಳು, ವಿಂಗಡಿಸಿದ ಪದಗಳು, ವಾಕ್ಯಗಳು, ಸಂಪೂರ್ಣ ಲೇಖನಗಳು, ಧ್ವನಿಕಣಜ -ಇತ್ಯಾದಿ. ಮೈಸೂರಿನ ಭಾರತೀಯ ಭಾಷೆಗಳ ಸಂಶೋಧನಾ ಕೇಂದ್ರ, ಬೆಂಗಳೂರಿನ ಭಾರತೀಯ ವಿಜ್ಞಾನ ಸಂಸ್ಥೆ, ಹೈದರಾಬಾದಿನ ಐಐಐಟಿ, ಚೆನ್ನೈನ ಐಐಟಿ, ಇತ್ಯಾದಿ ಸಂಶೋಧನಾ ಕೇಂದ್ರಗಳು ತಮ್ಮದೇ ಆದ ಕಣಜ ನಿರ್ಮಿಸಿವೆ. ಆದರೆ ಒಬ್ಬರು ತಯಾರಿಸಿದ್ದು ಇನ್ನೊಬ್ಬರಿಗೆ ಸುಲಭದಲ್ಲಿ ಲಭ್ಯವಿಲ್ಲ. ಯಾವುದೂ ಅಂತರಜಾಲದಲ್ಲಿ ಇಲ್ಲವೇ ಇಲ್ಲ. ಶಿವಮೊಗ್ಗದಲ್ಲಿ ಒಬ್ಬ ಸಂಶೋಧಕರು ಈ ಕಣಜವನ್ನು ಬಳಸಿಕೊಂಡು ಸಹಜಭಾಷಾಸಂಸ್ಕರಣೆಯ ಕ್ಷೇತ್ರದಲ್ಲಿ ಸಂಶೋಧನೆ ಮಾಡಲು ಇಚ್ಛಿಸಿದಲ್ಲಿ ಅದು ಅಷ್ಟು ಸುಲಭವಲ್ಲ. ಪ್ರತಿಯೊಬ್ಬರಿಗೂ ತಮ್ಮದೇ ಸ್ವಪ್ರತಿಷ್ಠೆಗಳ ಸಮಸ್ಯೆ. ಇತ್ತೀಚೆಗೆ ಹಂಪಿಯ ಕನ್ನಡ ವಿಶ್ವವಿದ್ಯಾಲಯವು ಕನ್ನಡ ಭಾಷೆಯ ಪಠ್ಯಕಣಜ (corpus) ತಯಾರಿಸಲು ಪ್ರಾರಂಭಿಸಿದೆ. ಇದು ತಯಾರಾದಾಗ ಕನ್ನಡದಲ್ಲಿ ಸಹಜಭಾಷಾಸಂಸ್ಕರಣೆ ಮಾಡುವವರಿಗೆ ಪ್ರಯೋಜನಕಾರಿಯಾಗಲಿದೆ. ಈ ಪಠ್ಯಕಣಜವು ಅಂತರಜಾಲದ ಮೂಲಕ ಎಲ್ಲರಿಗೂ ಲಭ್ಯವಾಗಲಿ ಎಂದು ಹಾರೈಸೋಣ.