ಪಠ್ಯ ಗಣಿಗಾರಿಕೆ
ಪಠ್ಯ ಗಣಿಗಾರಿಕೆ, ಪಠ್ಯ ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆ (ಟಿಡಿಎಂ) ಅಥವಾ ಪಠ್ಯ ವಿಶ್ಲೇಷಣೆಯು ಪಠ್ಯದಿಂದ ಉತ್ತಮ-ಗುಣಮಟ್ಟದ ಮಾಹಿತಿಯನ್ನು ಪಡೆಯುವ ಪ್ರಕ್ರಿಯೆಯಾಗಿದೆ. ಇದು "ವಿವಿಧ ಲಿಖಿತ ಸಂಪನ್ಮೂಲಗಳಿಂದ ಮಾಹಿತಿಯನ್ನು ಸ್ವಯಂಚಾಲಿತವಾಗಿ ಹೊರತೆಗೆಯುವ ಮೂಲಕ ಹೊಸ, ಹಿಂದೆ ತಿಳಿದಿಲ್ಲದ ಮಾಹಿತಿಯನ್ನು ಕಂಪ್ಯೂಟರ್ ಮೂಲಕ ಕಂಡುಹಿಡಿಯುವುದನ್ನು" ಒಳಗೊಂಡಿರುತ್ತದೆ.[೧] ಲಿಖಿತ ಸಂಪನ್ಮೂಲಗಳು ವೆಬ್ಸೈಟ್ಗಳು, ಪುಸ್ತಕಗಳು, ಇ-ಅಂಚೆಗಳು(ಇಮೇಲ್ಗಳು), ವಿಮರ್ಶೆಗಳು ಮತ್ತು ಲೇಖನಗಳನ್ನು ಒಳಗೊಂಡಿರಬಹುದು. ಸಂಖ್ಯಾಶಾಸ್ತ್ರೀಯ ಮಾದರಿ ಕಲಿಕೆಯಂತಹ ವಿಧಾನಗಳ ಮೂಲಕ ಮಾದರಿಗಳು ಮತ್ತು ಪ್ರವೃತ್ತಿಗಳನ್ನು ರೂಪಿಸುವ ಮೂಲಕ ಉತ್ತಮ-ಗುಣಮಟ್ಟದ ಮಾಹಿತಿಯನ್ನು ಸಾಮಾನ್ಯವಾಗಿ ಪಡೆಯಲಾಗುತ್ತದೆ. ಹೋಥೋ ಪ್ರಕಾರ (೨೦೦೫) ನಾವು ಪಠ್ಯ ಗಣಿಗಾರಿಕೆಯ ಮೂರು ವಿಭಿನ್ನ ದೃಷ್ಟಿಕೋನಗಳ ನಡುವೆ ವ್ಯತ್ಯಾಸವನ್ನು ಗುರುತಿಸಬಹುದು. ಅವು: ಮಾಹಿತಿ ಹೊರತೆಗೆಯುವಿಕೆ, ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆ ಮತ್ತು ಡೇಟಾಬೇಸ್ಗಳಲ್ಲಿ ಜ್ಞಾನದ ಆವಿಷ್ಕಾರ(ಕೆಡಿಡಿ) ಪ್ರಕ್ರಿಯೆ.[೨] ಪಠ್ಯ ಗಣಿಗಾರಿಕೆಯು ಸಾಮಾನ್ಯವಾಗಿ ಇನ್ಪುಟ್ ಪಠ್ಯವನ್ನು ರಚಿಸುವ ಪ್ರಕ್ರಿಯೆಯನ್ನು ಒಳಗೊಂಡಿರುತ್ತದೆ(ಸಾಮಾನ್ಯವಾಗಿ ಪಾರ್ಸಿಂಗ್, ಕೆಲವು ವ್ಯುತ್ಪನ್ನ ಭಾಷಾ ವೈಶಿಷ್ಟ್ಯಗಳ ಸೇರ್ಪಡೆ ಮತ್ತು ಇತರರ ತೆಗೆದುಹಾಕುವಿಕೆ ಮತ್ತು ನಂತರದ ಡೇಟಾಬೇಸ್ಗೆ ಸೇರಿಸುವುದು), ನಂತರ ರಚನಾತ್ಮಕ ದತ್ತಾಂಶ ಮಾದರಿಗಳನ್ನು ಪಡೆಯುವುದು ಮತ್ತು ಅಂತಿಮವಾಗಿ ಔಟ್ಪುಟ್ನ ಮೌಲ್ಯಮಾಪನ ಮತ್ತು ವ್ಯಾಖ್ಯಾನ. ಪಠ್ಯ ಗಣಿಗಾರಿಕೆಯಲ್ಲಿ 'ಉನ್ನತ ಗುಣಮಟ್ಟ' ವು ಸಾಮಾನ್ಯವಾಗಿ ಪ್ರಸ್ತುತತೆ, ನವೀನತೆ ಮತ್ತು ಆಸಕ್ತಿಯ ಕೆಲವು ಸಂಯೋಜನೆಯನ್ನು ಸೂಚಿಸುತ್ತದೆ. ಪಠ್ಯ ಗಣಿಗಾರಿಕೆಯ ವಿಶಿಷ್ಟ ಕಾರ್ಯಗಳಲ್ಲಿ ಪಠ್ಯ ವರ್ಗೀಕರಣ, ಪಠ್ಯ ಕ್ಲಸ್ಟರಿಂಗ್, ಪರಿಕಲ್ಪನೆ/ಅಸ್ತಿತ್ವದ ಹೊರತೆಗೆಯುವಿಕೆ, ಹರಳಿನ ವರ್ಗೀಕರಣಗಳ ಉತ್ಪಾದನೆ, ಭಾವನೆ ವಿಶ್ಲೇಷಣೆ, ಡಾಕ್ಯುಮೆಂಟ್ ಸಾರಾಂಶ ಮತ್ತು ಅಸ್ತಿತ್ವದ ಸಂಬಂಧದ ಮಾದರಿ (ಅಂದರೆ, ಹೆಸರಿಸಲಾದ ಘಟಕಗಳ ನಡುವಿನ ಕಲಿಕಾ ಸಂಬಂಧಗಳು) ಸೇರಿವೆ.
ಪಠ್ಯ ವಿಶ್ಲೇಷಣೆಯು ಮಾಹಿತಿ ಮರುಪಡೆಯುವಿಕೆ, ಪದ ಆವರ್ತನ ವಿತರಣೆ, ಮಾದರಿ ಗುರುತಿಸುವಿಕೆ, ಟ್ಯಾಗಿಂಗ್/ಟಿಪ್ಪಣಿ, ಮಾಹಿತಿ ಹೊರತೆಗೆಯುವಿಕೆ, ಸಂಪರ್ಕ ಮತ್ತು ಸಂಯೋಜನೆ ವಿಶ್ಲೇಷಣೆ, ದೃಶ್ಯೀಕರಣ ಮತ್ತು ಮುನ್ಸೂಚಕ ವಿಶ್ಲೇಷಣೆ ಸೇರಿದಂತೆ ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆ ತಂತ್ರಗಳನ್ನು ಅಧ್ಯಯನ ಮಾಡಲು ಲೆಕ್ಸಿಕಲ್ ವಿಶ್ಲೇಷಣೆ ಒಳಗೊಂಡಿರುತ್ತದೆ. ಮೂಲಭೂತವಾಗಿ, ನೈಸರ್ಗಿಕ ಭಾಷಾ ಸಂಸ್ಕರಣೆ(ಎನ್ಎಲ್ಪಿ) ಅನ್ವಯದ ಮೂಲಕ ಪಠ್ಯವನ್ನು ವಿಶ್ಲೇಷಣೆಗಾಗಿ ದತ್ತಾಂಶವಾಗಿ ಪರಿವರ್ತಿಸುವುದು ವ್ಯಾಪಕವಾದ ಗುರಿಯಾಗಿದೆ. ಈ ಪ್ರಕ್ರಿಯೆಯ ಒಂದು ಪ್ರಮುಖ ಹಂತವೆಂದರೆ ಸಂಗ್ರಹಿಸಿದ ಮಾಹಿತಿಯ ವ್ಯಾಖ್ಯಾನ.
ನೈಸರ್ಗಿಕ ಭಾಷೆಯಲ್ಲಿ ಬರೆಯಲಾದ ದಾಖಲೆಗಳ ಗುಂಪನ್ನು ಸ್ಕ್ಯಾನ್ ಮಾಡುವುದು ಮತ್ತು ಪೂರ್ವಸೂಚಕ ವರ್ಗೀಕರಣ ಉದ್ದೇಶಗಳಿಗಾಗಿ ಡಾಕ್ಯುಮೆಂಟ್ ಸೆಟ್ ಅನ್ನು ಮಾದರಿ ಮಾಡುವುದು ಅಥವಾ ಡೇಟಾಬೇಸ್ ಅಥವಾ ಹುಡುಕಾಟ ಸೂಚಿಯನ್ನು ಹೊರತೆಗೆಯಲಾದ ಮಾಹಿತಿಯೊಂದಿಗೆ ಜನಪ್ರಿಯಗೊಳಿಸುವುದು ಒಂದು ವಿಶಿಷ್ಟವಾದ ಅನ್ವಯವಾಗಿದೆ. ಪಠ್ಯ ಗಣಿಗಾರಿಕೆಯಿಂದ ಪ್ರಾರಂಭಿಸುವಾಗ ಡಾಕ್ಯುಮೆಂಟ್(ದಾಖಲೆ ಅಥವಾ ಕಾಗದ ಪತ್ರ) ಮೂಲ ಅಂಶವಾಗಿದೆ. ಇಲ್ಲಿ, ನಾವು ಡಾಕ್ಯುಮೆಂಟ್ ಅನ್ನು ಪಠ್ಯ ದತ್ತಾಂಶದ ಘಟಕವೆಂದು ವ್ಯಾಖ್ಯಾನಿಸುತ್ತೇವೆ. ಇದು ಸಾಮಾನ್ಯವಾಗಿ ಅನೇಕ ರೀತಿಯ ಸಂಗ್ರಹಗಳಲ್ಲಿ ಅಸ್ತಿತ್ವದಲ್ಲಿದೆ.[೩]
ಪಠ್ಯ ವಿಶ್ಲೇಷಣೆ
[ಬದಲಾಯಿಸಿ]ಪಠ್ಯ ವಿಶ್ಲೇಷಣೆಯು ಭಾಷಾಶಾಸ್ತ್ರ, ಸಂಖ್ಯಾಶಾಸ್ತ್ರ ಮತ್ತು ಯಂತ್ರ ಕಲಿಕೆ ತಂತ್ರಗಳ ಒಂದು ಗುಂಪನ್ನು ವಿವರಿಸುತ್ತದೆ ಮತ್ತು ಅದು ವ್ಯವಹಾರದ ಬುದ್ಧಿವಂತಿಕೆ, ಪರಿಶೋಧನಾತ್ಮಕ ದತ್ತಾಂಶ ವಿಶ್ಲೇಷಣೆ, ಸಂಶೋಧನೆ ಅಥವಾ ತನಿಖೆಗಾಗಿ ಪಠ್ಯ ಮೂಲಗಳ ಮಾಹಿತಿ ವಿಷಯವನ್ನು ರೂಪಿಸುತ್ತದೆ ಮತ್ತು ರಚಿಸುತ್ತದೆ.[೪] ಈ ಪದವು ಪಠ್ಯ ಗಣಿಗಾರಿಕೆಗೆ ಸರಿಸುಮಾರು ಸಮಾನಾರ್ಥಕವಾಗಿದೆ; ವಾಸ್ತವವಾಗಿ, ರೊನೆನ್ ಫೆಲ್ಡ್ಮನ್ ಅವರು "ಪಠ್ಯ ವಿಶ್ಲೇಷಣೆ" ಯನ್ನು ವಿವರಿಸಲು ೨೦೦೪ ರಲ್ಲಿ "ಪಠ್ಯ ಗಣಿಗಾರಿಕೆ" ಯ ೨೦೦೦ ವಿವರಣೆಯನ್ನು ಮಾರ್ಪಡಿಸಿದರು.[೫][೬] ನಂತರದ ಪದವನ್ನು ಈಗ ವ್ಯಾಪಾರ ವ್ಯವಸ್ಥೆಗಳಲ್ಲಿ ಹೆಚ್ಚಾಗಿ ಬಳಸಲಾಗುತ್ತಿದ್ದು, "ಪಠ್ಯ ಗಣಿಗಾರಿಕೆ" ಯನ್ನು ೧೯೮೦ರ ದಶಕದ ಕೆಲವು ಆರಂಭಿಕ ಅನ್ವಯಿಕೆ ಕ್ಷೇತ್ರಗಳಲ್ಲಿ, ಮುಖ್ಯವಾಗಿ ಜೀವ-ವಿಜ್ಞಾನ ಸಂಶೋಧನೆ ಮತ್ತು ಸರ್ಕಾರಿ ಗುಪ್ತಚರದಲ್ಲಿ ಬಳಸಲಾಗುತ್ತದೆ.[೭]
ಪಠ್ಯ ವಿಶ್ಲೇಷಣೆ ಎಂಬ ಪದವು, ಸ್ವತಂತ್ರವಾಗಿ ಅಥವಾ ಪ್ರಶ್ನೆಗಳ ಜೊತೆಗೂಡಿ ಮತ್ತು ಕ್ಷೇತ್ರದಲ್ಲಿನ ಸಂಖ್ಯಾತ್ಮಕ ದತ್ತಾಂಶದ ವಿಶ್ಲೇಷಣೆಯೊಂದಿಗೆ, ವ್ಯವಹಾರದ ಸಮಸ್ಯೆಗಳಿಗೆ ಪ್ರತಿಕ್ರಿಯಿಸಲು ಪಠ್ಯ ವಿಶ್ಲೇಷಣೆಯ ಅನ್ವಯವನ್ನು ಸಹ ವಿವರಿಸುತ್ತದೆ. ೮೦ ಪ್ರತಿಶತದಷ್ಟು ವ್ಯವಹಾರ-ಸಂಬಂಧಿತ ಮಾಹಿತಿಯು ರಚನೆಯಿಲ್ಲದ ರೂಪದಲ್ಲಿ, ಮುಖ್ಯವಾಗಿ ಪಠ್ಯದಲ್ಲಿ ಹುಟ್ಟುತ್ತದೆ ಎಂಬುದು ಸತ್ಯವಾಗಿದೆ.[೮] ಈ ತಂತ್ರಗಳು ಮತ್ತು ಪ್ರಕ್ರಿಯೆಗಳು ಜ್ಞಾನವನ್ನು ಕಂಡುಕೊಳ್ಳುತ್ತವೆ ಮತ್ತು ಪ್ರಸ್ತುತಪಡಿಸುತ್ತವೆ-ಸತ್ಯಗಳು, ವ್ಯವಹಾರ ನಿಯಮಗಳು ಮತ್ತು ಸಂಬಂಧಗಳು-ಇಲ್ಲದಿದ್ದರೆ ಪಠ್ಯ ರೂಪದಲ್ಲಿ ಇರುತ್ತವೆ ಮತ್ತು ಅವು ಸ್ವಯಂಚಾಲಿತ ಪ್ರಕ್ರಿಯೆಗೆ ತೂರಲಾಗುವುದಿಲ್ಲ.
ಪಠ್ಯ ವಿಶ್ಲೇಷಣೆ ಪ್ರಕ್ರಿಯೆಗಳು
[ಬದಲಾಯಿಸಿ]ಉಪಕಾರ್ಯಗಳು-ದೊಡ್ಡ ಪಠ್ಯ-ವಿಶ್ಲೇಷಣೆಯ ಪ್ರಯತ್ನದ ಘಟಕಗಳು-ಸಾಮಾನ್ಯವಾಗಿ ಈ ಕೆಳಗಿನವುಗಳನ್ನು ಸೇರಿವೆ:
- ಡೈಮೆನ್ಶನಾಲಿಟಿ ಕಡಿತವು ಪೂರ್ವ-ಸಂಸ್ಕರಣೆ ಡೇಟಾಗೆ ಪ್ರಮುಖ ತಂತ್ರವಾಗಿದೆ. ನಿಜವಾದ ಪದಗಳಿಗೆ ಮೂಲ ಪದವನ್ನು ಗುರುತಿಸಲು ಮತ್ತು ಪಠ್ಯ ದತ್ತಾಂಶದ ಗಾತ್ರವನ್ನು ಕಡಿಮೆ ಮಾಡಲು ತಂತ್ರವನ್ನು ಬಳಸಲಾಗುತ್ತದೆ.
- ಮಾಹಿತಿ ಮರುಪಡೆಯುವಿಕೆ ಅಥವಾ ಕಾರ್ಪಸ್ ಅನ್ನು ಗುರುತಿಸುವುದು ಪೂರ್ವಸಿದ್ಧತಾ ಹಂತ: ವೆಬ್ನಲ್ಲಿ ಅಥವಾ ಫೈಲ್ ಸಿಸ್ಟಮ್, ಡೇಟಾಬೇಸ್ ಅಥವಾ ಕಾಂಟೆಂಟ್ ಕಾರ್ಪಸ್ ಮ್ಯಾನೇಜರ್ನಲ್ಲಿ ವಿಶ್ಲೇಷಣೆಗಾಗಿ ಇರಿಸಲಾದ ಪಠ್ಯ ಸಾಮಗ್ರಿಗಳ ಗುಂಪನ್ನು ಸಂಗ್ರಹಿಸುವುದು ಅಥವಾ ಗುರುತಿಸುವುದು.
- ಕೆಲವು ಪಠ್ಯ ವಿಶ್ಲೇಷಣಾ ವ್ಯವಸ್ಥೆಗಳು ಪ್ರತ್ಯೇಕವಾಗಿ ಸುಧಾರಿತ ಅಂಕಿಅಂಶಗಳ ವಿಧಾನಗಳನ್ನು ಅನ್ವಯಿಸುತ್ತವೆಯಾದರೂ, ಇನ್ನೂ ಅನೇಕವು ಹೆಚ್ಚು ವ್ಯಾಪಕವಾದ ನೈಸರ್ಗಿಕ ಭಾಷಾ ಸಂಸ್ಕರಣೆಯನ್ನು ಅನ್ವಯಿಸುತ್ತವೆ, ಉದಾಹರಣೆಗೆ ಸ್ಪೀಚ್ ಟ್ಯಾಗಿಂಗ್, ಸಿಂಟ್ಯಾಕ್ಟಿಕ್ ಪಾರ್ಸಿಂಗ್, ಮತ್ತು ಇತರ ರೀತಿಯ ಭಾಷಾ ವಿಶ್ಲೇಷಣೆ.[೯]
- ಹೆಸರಿಸಲಾದ ಘಟಕದ ಗುರುತಿಸುವಿಕೆ ಎಂದರೆ ಹೆಸರಿಸಲಾದ ಪಠ್ಯ ವೈಶಿಷ್ಟ್ಯಗಳನ್ನು ಗುರುತಿಸಲು ಗೆಜೆಟಿಯರ್ಗಳು ಅಥವಾ ಸಂಖ್ಯಾಶಾಸ್ತ್ರೀಯ ತಂತ್ರಗಳನ್ನು ಬಳಸುವುದು: ಜನರು, ಸಂಸ್ಥೆಗಳು, ಸ್ಥಳದ ಹೆಸರುಗಳು, ಸ್ಟಾಕ್ ಟಿಕ್ಕರ್ ಚಿಹ್ನೆಗಳು, ಕೆಲವು ಸಂಕ್ಷೇಪಣಗಳು, ಇತ್ಯಾದಿ.
- ಹೊಂದಾಣಿಕೆಯ ಮಾದರಿಗಳ ಮೂಲಕ ಘಟಕಗಳನ್ನು ಗುರುತಿಸುವುದು: ದೂರವಾಣಿ ಸಂಖ್ಯೆಗಳು, ಇಮೇಲ್ ವಿಳಾಸಗಳು, ಪ್ರಮಾಣಗಳು (ಘಟಕಗಳೊಂದಿಗೆ) ನಂತಹ ಗುಣಲಕ್ಷಣಗಳನ್ನು ನಿಯಮಿತ ಅಭಿವ್ಯಕ್ತಿಗಳು ಅಥವಾ ಇತರ ಮಾದರಿ ಹೊಂದಾಣಿಕೆಯ ಮೂಲಕ ಗುರುತಿಸಬಹುದು.[೧೦]
- ಡಾಕ್ಯುಮೆಂಟ್ ಕ್ಲಸ್ಟರಿಂಗ್(ಅಥವಾ ಪಠ್ಯ/ದಾಖಲೆ ಕ್ಲಸ್ಟರಿಂಗ್): ಒಂದೇ ರೀತಿಯ ಪಠ್ಯ ದಾಖಲೆಗಳ ಸೆಟ್ಗಳನ್ನು ಗುರುತಿಸುವುದು.[೧೧]
- ಸಹ-ಉಲ್ಲೇಖ: ನಾಮಪದ ನುಡಿಗಟ್ಟುಗಳು ಮತ್ತು ಅದೇ ವಿಷಯವನ್ನು ಉಲ್ಲೇಖಿಸುವ ಇತರ ಪದಗಳನ್ನು ಗುರುತಿಸುವುದು.
- ಸಂಬಂಧ, ಸತ್ಯ ಮತ್ತು ಘಟನೆಯ ಹೊರತೆಗೆಯುವಿಕೆ: ಘಟಕಗಳ ಮತ್ತು ಪಠ್ಯಗಳಲ್ಲಿನ ಇತರ ಮಾಹಿತಿಗಳ ನಡುವೆ ಸಂಘಗಳ ಗುರುತಿಸುವಿಕೆ.
- ಭಾವನಾತ್ಮಕ ವಿಶ್ಲೇಷಣೆಯು ವ್ಯಕ್ತಿನಿಷ್ಠ (ವಾಸ್ತವಕ್ಕೆ ವಿರುದ್ಧವಾಗಿ) ವಸ್ತುವನ್ನು ವಿವೇಚಿಸುವ ಮತ್ತು ವಿವಿಧ ರೀತಿಯ ವರ್ತನೆಯ ಮಾಹಿತಿಯನ್ನು ಹೊರತೆಗೆಯುವುದನ್ನು ಒಳಗೊಂಡಿರುತ್ತದೆ: ಭಾವನೆ, ಅಭಿಪ್ರಾಯ, ಮನಸ್ಥಿತಿ ಮತ್ತು ಮನಸ್ಸಿನ ಉದ್ವೇಗ. ಪಠ್ಯ ವಿಶ್ಲೇಷಣಾ ತಂತ್ರಗಳು ಅಸ್ತಿತ್ವ, ಪರಿಕಲ್ಪನೆ, ಅಥವಾ ವಿಷಯದ ಮಟ್ಟದಲ್ಲಿ ಭಾವನೆಯನ್ನು ವಿಶ್ಲೇಷಿಸಲು ಸಹಾಯ ಮಾಡುತ್ತದೆ ಮತ್ತು ಅಭಿಪ್ರಾಯ ಹೊಂದಿರುವವರು ಮತ್ತು ವಸ್ತುಗಳನ್ನು ಪ್ರತ್ಯೇಕಿಸುತ್ತದೆ.[೧೨]
- ಪರಿಮಾಣಾತ್ಮಕ ಪಠ್ಯ ವಿಶ್ಲೇಷಣೆಯು ಸಾಮಾಜಿಕ ವಿಜ್ಞಾನದಿಂದ ಉದ್ಭವಿಸುವ ತಂತ್ರಗಳ ಒಂದು ಗುಂಪಾಗಿದೆ, ಅಲ್ಲಿ ಮಾನವ ನ್ಯಾಯಾಧೀಶರು ಅಥವಾ ಕಂಪ್ಯೂಟರ್ ಸಾಮಾನ್ಯವಾಗಿ ಮಾನಸಿಕ ಪ್ರೊಫೈಲಿಂಗ್ನ ಉದ್ದೇಶ, ಇತ್ಯಾದಿಗಳಿಗೆ ಸಾಂದರ್ಭಿಕ ವೈಯಕ್ತಿಕ ಪಠ್ಯದ ಅರ್ಥ ಅಥವಾ ಶೈಲಿಯ ಮಾದರಿಗಳನ್ನು ಕಂಡುಹಿಡಿಯಲು ಪದಗಳ ನಡುವೆ ಶಬ್ದಾರ್ಥ ಅಥವಾ ವ್ಯಾಕರಣ ಸಂಬಂಧಗಳನ್ನು ಹೊರತೆಗೆಯುತ್ತದೆ.[೧೩]
- ಪೂರ್ವ-ಸಂಸ್ಕರಣೆಯು ಸಾಮಾನ್ಯವಾಗಿ ಟೋಕನೈಸೇಶನ್, ಫಿಲ್ಟರಿಂಗ್ ಮತ್ತು ಸ್ಟೆಮ್ಮಿಂಗ್ನಂತಹ ಕಾರ್ಯಗಳನ್ನು ಒಳಗೊಂಡಿರುತ್ತದೆ.
ಅನ್ವಯಗಳು
[ಬದಲಾಯಿಸಿ]ಪಠ್ಯ ಗಣಿಗಾರಿಕೆ ತಂತ್ರಜ್ಞಾನವನ್ನು ಈಗ ವ್ಯಾಪಕವಾಗಿ ಸರ್ಕಾರ, ಸಂಶೋಧನೆ ಮತ್ತು ವ್ಯಾಪಾರ ಅಗತ್ಯಗಳಿಗೆ ಅನ್ವಯಿಸಲಾಗಿದೆ. ಈ ಎಲ್ಲಾ ಗುಂಪುಗಳು ತಮ್ಮ ದೈನಂದಿನ ಚಟುವಟಿಕೆಗಳಿಗೆ ಸಂಬಂಧಿಸಿದ ದಾಖಲೆಗಳ ನಿರ್ವಹಣೆ ಮತ್ತು ದಾಖಲೆಗಳನ್ನು ಹುಡುಕಲು ಪಠ್ಯ ಗಣಿಗಾರಿಕೆಯನ್ನು ಬಳಸಬಹುದು. ಕಾನೂನು ವೃತ್ತಿಪರರು ಇ-ಅನ್ವೇಷಣೆಗಾಗಿ ಪಠ್ಯ ಗಣಿಗಾರಿಕೆಯನ್ನು ಬಳಸಬಹುದು, ಉದಾಹರಣೆಗೆ: ಸರ್ಕಾರಗಳು ಮತ್ತು ಮಿಲಿಟರಿ ಗುಂಪುಗಳು ರಾಷ್ಟ್ರೀಯ ಭದ್ರತೆ ಮತ್ತು ಗುಪ್ತಚರ ಉದ್ದೇಶಗಳಿಗಾಗಿ ಪಠ್ಯ ಗಣಿಗಾರಿಕೆಯನ್ನು ಬಳಸುತ್ತವೆ. ವೈಜ್ಞಾನಿಕ ಸಂಶೋಧಕರು ಪಠ್ಯದ ಮೂಲಕ ಸಂವಹನ ಮಾಡಲಾದ ವಿಚಾರಗಳನ್ನು ನಿರ್ಧರಿಸಲು(ಉದಾಹರಣೆಗೆ, ಸಾಮಾಜಿಕ ಮಾಧ್ಯಮದಲ್ಲಿ ಭಾವನಾತ್ಮಕ ವಿಶ್ಲೇಷಣೆ[೧೪][೧೫][೧೬]) ದೊಡ್ಡ ಪಠ್ಯ ದತ್ತಾಂಶವನ್ನು ಸಂಘಟಿಸುವ ಪ್ರಯತ್ನಗಳಲ್ಲಿ ಪಠ್ಯ ಗಣಿಗಾರಿಕೆ ವಿಧಾನಗಳನ್ನು ಸಂಯೋಜಿಸುತ್ತಾರೆ(ಅಂದರೆ, ರಚನೆಯಾಗದ ಡೇಟಾದ ಸಮಸ್ಯೆಯನ್ನು ಪರಿಹರಿಸುವುದು) ಮತ್ತು ಜೀವ ವಿಜ್ಞಾನ ಮತ್ತು ಬಯೋಇನ್ಫರ್ಮ್ಯಾಟಿಕ್ಸ್ನಂತಹ ಕ್ಷೇತ್ರಗಳಲ್ಲಿ ವೈಜ್ಞಾನಿಕ ಆವಿಷ್ಕಾರವನ್ನು ಬೆಂಬಲಿಸುತ್ತಾರೆ. ವ್ಯವಹಾರದಲ್ಲಿ, ಹಲವಾರು ಇತರ ಚಟುವಟಿಕೆಗಳಲ್ಲಿ ಸ್ಪರ್ಧಾತ್ಮಕ ಬುದ್ಧಿವಂತಿಕೆ ಮತ್ತು ಸ್ವಯಂಚಾಲಿತ ಜಾಹೀರಾತು ನಿಯೋಜನೆಯನ್ನು ಬೆಂಬಲಿಸಲು ಅಪ್ಲಿಕೇಶನ್/ಅನ್ವಯಗಳನ್ನು ಬಳಸಲಾಗುತ್ತದೆ.
ಭದ್ರತಾ ಅನ್ವಯಗಳು(ಅಪ್ಲಿಕೇಶನ್ಗಳು)
[ಬದಲಾಯಿಸಿ]ಅನೇಕ ಪಠ್ಯ ಗಣಿಗಾರಿಕೆ ಸಾಫ್ಟ್ವೇರ್ ಪ್ಯಾಕೇಜುಗಳನ್ನು ಭದ್ರತಾ ಅಪ್ಲಿಕೇಶನ್ಗಳಿಗಾಗಿ ಮಾರಾಟ ಮಾಡಲಾಗುತ್ತದೆ. ವಿಶೇಷವಾಗಿ ರಾಷ್ಟ್ರೀಯ ಭದ್ರತಾ ಉದ್ದೇಶಗಳಿಗಾಗಿ ಅಂತರಜಾಲ(ಇಂಟರ್ನೆಟ್) ಸುದ್ದಿ, ಬ್ಲಾಗ್ಗಳು ಮುಂತಾದ ಆನ್ಲೈನ್ ಸರಳ ಪಠ್ಯ ಮೂಲಗಳನ್ನು ಮೇಲ್ವಿಚಾರಣೆ ಮಾಡಲು ಮತ್ತು ವಿಶ್ಲೇಷಿಸುವ ಸಲುವಾಗಿ.[೧೭]
ಜೈವಿಕ ವೈದ್ಯಕೀಯ ಅನ್ವಯಗಳು
[ಬದಲಾಯಿಸಿ]ಜೈವಿಕ ವೈದ್ಯಕೀಯ(ಬಯೋಮೆಡಿಕಲ್) ಸಾಹಿತ್ಯದಲ್ಲಿ ಪಠ್ಯ ಗಣಿಗಾರಿಕೆಯ ಅನ್ವಯಗಳ ವ್ಯಾಪ್ತಿಯನ್ನು ವಿವರಿಸಲಾಗಿದೆ. ಪ್ರೊಟೀನ್ ಡಾಕಿಂಗ್, ಪ್ರೊಟೀನ್ ಸಂವಹನ,[21] [22] ಮತ್ತು ಪ್ರೊಟೀನ್-ರೋಗ ಅಸೋಸಿಯೇಶನ್ಗಳಲ್ಲಿ ಸಹಾಯ ಮಾಡಲು ಕಂಪ್ಯೂಟೇಶನಲ್ ವಿಧಾನಗಳು ಸೇರಿವೆ.[23] ಹೆಚ್ಚುವರಿಯಾಗಿ, ವೈದ್ಯಕೀಯ ಕ್ಷೇತ್ರದಲ್ಲಿ ದೊಡ್ಡ ರೋಗಿಯ ಪಠ್ಯ ಡೇಟಾಸೆಟ್ಗಳು, ಜನಸಂಖ್ಯೆಯ ಅಧ್ಯಯನಗಳಲ್ಲಿನ ಜನಸಂಖ್ಯಾ ಮಾಹಿತಿಯ ಡೇಟಾಸೆಟ್ಗಳು ಮತ್ತು ಪ್ರತಿಕೂಲ ಘಟನೆಗಳ ವರದಿಗಳು, ಪಠ್ಯ ಗಣಿಗಾರಿಕೆಯು ಕ್ಲಿನಿಕಲ್ ಅಧ್ಯಯನಗಳು ಮತ್ತು ನಿಖರವಾದ ಔಷಧವನ್ನು ಸುಗಮಗೊಳಿಸುತ್ತದೆ. ಪಠ್ಯ ಗಣಿಗಾರಿಕೆ ಕ್ರಮಾವಳಿಗಳು ರೋಗಲಕ್ಷಣಗಳು, ಅಡ್ಡಪರಿಣಾಮಗಳು ಮತ್ತು ಎಲೆಕ್ಟ್ರಾನಿಕ್(ವಿದ್ಯುಜ್ಜನಿತ) ಆರೋಗ್ಯ ದಾಖಲೆಗಳು, ಈವೆಂಟ್ ವರದಿಗಳು ಮತ್ತು ನಿರ್ದಿಷ್ಟ ರೋಗನಿರ್ಣಯ ಪರೀಕ್ಷೆಗಳಿಂದ ವರದಿಗಳಿಂದ ಸಹವರ್ತಿ ರೋಗಗಳ ದೊಡ್ಡ ರೋಗಿಗಳ ಪಠ್ಯದ ಡೇಟಾಸೆಟ್ಗಳಲ್ಲಿ ನಿರ್ದಿಷ್ಟ ಕ್ಲಿನಿಕಲ್ ಘಟನೆಗಳ ಶ್ರೇಣೀಕರಣ ಮತ್ತು ಸೂಚ್ಯಂಕವನ್ನು ಸುಗಮಗೊಳಿಸಬಹುದು.[೯] ಪಬ್ಜಿನ್ ಜೈವಿಕ ವೈದ್ಯಕೀಯ(ಬಯೋಮೆಡಿಕಲ್) ಸಾಹಿತ್ಯದಲ್ಲಿನ ಒಂದು ಆನ್ಲೈನ್ ಪಠ್ಯ ಗಣಿಗಾರಿಕೆ ಅಪ್ಲಿಕೇಶನ್ ಆಗಿದೆ, ಇದು ಬಯೋಮೆಡಿಕಲ್ ಪಠ್ಯ ಗಣಿಗಾರಿಕೆಯನ್ನು ನೆಟ್ವರ್ಕ್ ದೃಶ್ಯೀಕರಣದೊಂದಿಗೆ ಸಂಯೋಜಿಸುವ ಸಾರ್ವಜನಿಕವಾಗಿ ಪ್ರವೇಶಿಸಬಹುದಾದ ಹುಡುಕಾಟ ಎಂಜಿನ್ ಆಗಿದೆ.[25][26] ಗೋಪಬ್ಮೆಡ್(GoPubMed) ಬಯೋಮೆಡಿಕಲ್ ಪಠ್ಯಗಳಿಗಾಗಿ ಒಂದು ಜ್ಞಾನ ಆಧಾರಿತ ಹುಡುಕಾಟ ಎಂಜಿನ್ ಆಗಿದೆ. ಪಠ್ಯ ಗಣಿಗಾರಿಕೆ ತಂತ್ರಗಳು ವೈದ್ಯಕೀಯ ಡೊಮೇನ್ನಲ್ಲಿನ ರಚನೆಯಿಲ್ಲದ ದಾಖಲೆಗಳಿಂದ ಅಜ್ಞಾತ ಜ್ಞಾನವನ್ನು ಹೊರತೆಗೆಯಲು ನಮಗೆ ಅನುವು ಮಾಡಿಕೊಡುತ್ತದೆ.[೧೯]
ತಂತ್ರಾಂಶ(ಸಾಫ್ಟ್ವೇರ್) ಅನ್ವಯಗಳು
[ಬದಲಾಯಿಸಿ]ಗಣಿಗಾರಿಕೆ ಮತ್ತು ವಿಶ್ಲೇಷಣಾ ಪ್ರಕ್ರಿಯೆಗಳನ್ನು ಮತ್ತಷ್ಟು ಸ್ವಯಂಚಾಲಿತಗೊಳಿಸಲು ಐಬಿಎಮ್(IBM) ಮತ್ತು ಮೈಕ್ರೋಸಾಫ್ಟ್ ಸೇರಿದಂತೆ ಪ್ರಮುಖ ಸಂಸ್ಥೆಗಳಿಂದ ಪಠ್ಯ ಗಣಿಗಾರಿಕೆ ವಿಧಾನಗಳು ಮತ್ತು ತಂತ್ರಾಂಶ(ಸಾಫ್ಟ್ವೇರ್)ವನ್ನು ಸಂಶೋಧಿಸಲಾಗುತ್ತಿದೆ ಮತ್ತು ಮತ್ತು ಹುಡುಕಾಟ ಮತ್ತು ಸೂಚ್ಯಂಕ ಕ್ಷೇತ್ರದಲ್ಲಿ ಕೆಲಸ ಮಾಡುವ ವಿವಿಧ ಸಂಸ್ಥೆಗಳಿಂದ ಅಭಿವೃದ್ಧಿಪಡಿಸಲಾಗಿದೆ. ಸಾರ್ವಜನಿಕ ವಲಯದಲ್ಲಿ, ಭಯೋತ್ಪಾದಕ ಚಟುವಟಿಕೆಗಳನ್ನು ಪತ್ತೆಹಚ್ಚಲು ಮತ್ತು ಮೇಲ್ವಿಚಾರಣೆ ಮಾಡಲು ಸಾಫ್ಟ್ವೇರ್(ತಂತ್ರಾಂಶ) ಅನ್ನು ರಚಿಸುವಲ್ಲಿ ಹೆಚ್ಚಿನ ಪ್ರಯತ್ನವನ್ನು ಕೇಂದ್ರೀಕರಿಸಲಾಗಿದೆ.[೨೦] ಅಧ್ಯಯನದ ಉದ್ದೇಶಗಳಿಗಾಗಿ, ವೆಕಾ ಸಾಫ್ಟ್ವೇರ್ ವೈಜ್ಞಾನಿಕ ಜಗತ್ತಿನಲ್ಲಿ ಅತ್ಯಂತ ಜನಪ್ರಿಯ ಆಯ್ಕೆಗಳಲ್ಲಿ ಒಂದಾಗಿದೆ. ಇದು ಆರಂಭಿಕರಿಗಾಗಿ ಅತ್ಯುತ್ತಮ ಪ್ರವೇಶ ಕೇಂದ್ರವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ. ಪೈಥಾನ್ ಕಾರ್ಯಕ್ರಮಗಳಿಗಾಗಿ, ಹೆಚ್ಚು ಸಾಮಾನ್ಯ ಉದ್ದೇಶಗಳಿಗಾಗಿ ಎನ್ಎಲ್ಟಿಕೆ ಎಂಬ ಅತ್ಯುತ್ತಮ ಟೂಲ್ಕಿಟ್ ಇದೆ ಮತ್ತು ಹೆಚ್ಚು ಸುಧಾರಿತ ಕಾರ್ಯಕ್ರಮಗಳಿಗಾಗಿ, ಜೆನ್ಸಿಮ್ ಲೈಬ್ರರಿಯೂ ಇದೆ. ಇದು ಪದ ಎಂಬೆಡಿಂಗ್ ಆಧಾರಿತ ಪಠ್ಯ ಪ್ರಾತಿನಿಧ್ಯಗಳ ಮೇಲೆ ಕೇಂದ್ರೀಕರಿಸುತ್ತದೆ.
ಆನ್ಲೈನ್ ಮಾಧ್ಯಮ ಅಪ್ಲಿಕೇಶನ್ಗಳು
[ಬದಲಾಯಿಸಿ]ಮಾಹಿತಿಯನ್ನು ಸ್ಪಷ್ಟಪಡಿಸಲು ಮತ್ತು ಓದುಗರಿಗೆ ಹೆಚ್ಚಿನ ಹುಡುಕಾಟ ಅನುಭವಗಳನ್ನು ಒದಗಿಸಲು ಟೆಕ್ಸ್ಟ್ ಗಣಿಗಾರಿಕೆಯನ್ನು ಟ್ರಿಬ್ಯೂನ್ ಕಂಪನಿಯಂತಹ ದೊಡ್ಡ ಮಾಧ್ಯಮ ಕಂಪನಿಗಳು ಬಳಸುತ್ತಿವೆ ಮತ್ತು ಇದು ಸೈಟ್ "ಜಿಗುಟುತನ" ಮತ್ತು ಆದಾಯವನ್ನು ಹೆಚ್ಚಿಸುತ್ತದೆ. ಹೆಚ್ಚುವರಿಯಾಗಿ, ಹಿಂಭಾಗದ ತುದಿಯಲ್ಲಿ, ಸಂಪಾದಕರು ಸುದ್ದಿಗಳನ್ನು ಹಂಚಿಕೊಳ್ಳಲು, ಸಂಯೋಜಿಸಲು ಮತ್ತು ಪ್ಯಾಕೇಜ್ ಮಾಡಲು ಸಾಧ್ಯವಾಗುವ ಮೂಲಕ ಪ್ರಯೋಜನ ಪಡೆಯುತ್ತಿದ್ದಾರೆ. ಜೊತೆಗೆ ವಿಷಯವನ್ನು ಹಣಗಳಿಸುವ ಅವಕಾಶವನ್ನಾಗಿ ಗಮನಾರ್ಹವಾಗಿ ಹೆಚ್ಚಿಸುತ್ತಿದ್ದಾರೆ.
ವ್ಯಾಪಾರ ಮತ್ತು ಮಾರುಕಟ್ಟೆ ಅನ್ವಯಗಳು
[ಬದಲಾಯಿಸಿ]ಪಠ್ಯ ವಿಶ್ಲೇಷಣೆಯನ್ನು ವ್ಯವಹಾರದಲ್ಲಿ, ವಿಶೇಷವಾಗಿ ಗ್ರಾಹಕ ಸಂಬಂಧ ನಿರ್ವಹಣೆಯಂತಹ ವ್ಯಾಪಾರೋದ್ಯಮದಲ್ಲಿ ಬಳಸಲಾಗುತ್ತಿದೆ.[೨೧] ಕೌಸ್ಮೆಂಟ್ ಮತ್ತು ವ್ಯಾನ್ ಡೆನ್ ಪೊಯೆಲ್(೨೦೦೮) ಗ್ರಾಹಕರ ಮಂಥನಕ್ಕಾಗಿ ಮುನ್ಸೂಚಕ ವಿಶ್ಲೇಷಣಾತ್ಮಕ ಮಾದರಿಗಳನ್ನು ಸುಧಾರಿಸಲು ಇದನ್ನು ಅನ್ವಯಿಸುತ್ತಾರೆ(ಗ್ರಾಹಕರ ದಣಿವು).[೨೨][೨೩][೨೨] ಪಠ್ಯ ಗಣಿಗಾರಿಕೆಯನ್ನು ಸ್ಟಾಕ್ ರಿಟರ್ನ್ಸ್ ಮುನ್ಸೂಚನೆಯಲ್ಲಿ ಸಹ ಅನ್ವಯಿಸಲಾಗುತ್ತಿದೆ.[೨೪]
ಭಾವನೆಗಳ ವಿಶ್ಲೇಷಣೆ
[ಬದಲಾಯಿಸಿ]ಭಾವನೆ ವಿಶ್ಲೇಷಣೆಯು, ವಿಮರ್ಶೆಯು ಉತ್ಪನ್ನಕ್ಕೆ ಎಷ್ಟು ಅನುಕೂಲಕರವಾಗಿದೆ ಎಂಬುದನ್ನು ಅಂದಾಜು ಮಾಡಲು ಚಲನಚಿತ್ರಗಳು, ಪುಸ್ತಕಗಳು ಅಥವಾ ಹೋಟೆಲ್ ವಿಮರ್ಶೆಗಳಂತಹ ಉತ್ಪನ್ನಗಳ ವಿಶ್ಲೇಷಣೆಯನ್ನು ಒಳಗೊಂಡಿರಬಹುದು.[೨೫] ಅಂತಹ ವಿಶ್ಲೇಷಣೆಗೆ ಲೇಬಲ್ ಮಾಡಲಾದ ದತ್ತಾಂಶ ಸೆಟ್ ಅಥವಾ ಪದಗಳ ಪ್ರಭಾವಶೀಲತೆಯ ಲೇಬಲಿಂಗ್ ಅಗತ್ಯವಿರುತ್ತದೆ. ಪದಗಳು ಮತ್ತು ಪರಿಕಲ್ಪನೆಗಳ ಪ್ರಭಾವದ ಸಂಪನ್ಮೂಲಗಳನ್ನು ಕ್ರಮವಾಗಿ ವರ್ಡ್ನೆಟ್[೨೬] ಮತ್ತು ಕಾನ್ಸೆಪ್ಟ್ನೆಟ್ಗಾಗಿ[೨೭] ಮಾಡಲಾಗಿದೆ.
ಪರಿಣಾಮಕಾರಿ ಕಂಪ್ಯೂಟಿಂಗ್ನ ಸಂಬಂಧಿತ ಪ್ರದೇಶದಲ್ಲಿನ ಭಾವನೆಗಳನ್ನು ಪತ್ತೆಹಚ್ಚಲು ಪಠ್ಯವನ್ನು ಬಳಸಲಾಗುತ್ತದೆ.[೨೮] ವಿದ್ಯಾರ್ಥಿಗಳ ಮೌಲ್ಯಮಾಪನಗಳು, ಮಕ್ಕಳ ಕಥೆಗಳು ಮತ್ತು ಸುದ್ದಿಗಳಂತಹ ಅನೇಕ ಕಾರ್ಪೋರಾಗಳಲ್ಲಿ ಪರಿಣಾಮಕಾರಿ ಕಂಪ್ಯೂಟಿಂಗ್ಗೆ ಪಠ್ಯ ಆಧಾರಿತ ವಿಧಾನಗಳನ್ನು ಬಳಸಲಾಗುತ್ತದೆ.
ವೈಜ್ಞಾನಿಕ ಸಾಹಿತ್ಯ ಗಣಿಗಾರಿಕೆ ಮತ್ತು ಶೈಕ್ಷಣಿಕ ಅನ್ವಯಗಳು
[ಬದಲಾಯಿಸಿ]ಮರುಪಡೆಯುವಿಕೆಗಾಗಿ ಸೂಚ್ಯಂಕದ ಅಗತ್ಯವಿರುವ ಮಾಹಿತಿಯ ದೊಡ್ಡ ದತ್ತಸಂಚಯಗಳನ್ನು ಹೊಂದಿರುವ ಪ್ರಕಾಶಕರಿಗೆ ಪಠ್ಯ ಗಣಿಗಾರಿಕೆಯ ವಿಷಯವು ಮಹತ್ವದ್ದಾಗಿದೆ. ಇದು ವಿಶೇಷವಾಗಿ ವೈಜ್ಞಾನಿಕ ವಿಭಾಗಗಳಲ್ಲಿ ಸತ್ಯವಾಗಿದೆ. ಇದರಲ್ಲಿ ಹೆಚ್ಚು ನಿರ್ದಿಷ್ಟವಾದ ಮಾಹಿತಿಯು ಸಾಮಾನ್ಯವಾಗಿ ಲಿಖಿತ ಪಠ್ಯದಲ್ಲಿ ಒಳಗೊಂಡಿರುತ್ತದೆ. ಆದ್ದರಿಂದ, ಮುಕ್ತ ಪಠ್ಯ ಗಣಿಗಾರಿಕೆ ಇಂಟರ್ಫೇಸ್ (ಒಟಿಎಂಐ) ಮತ್ತು ನ್ಯಾಷನಲ್ ಇನ್ಸ್ಟಿಟ್ಯೂಟ್ ಆಫ್ ಹೆಲ್ತ್ನ ಸಾಮಾನ್ಯ ಜರ್ನಲ್ ಪಬ್ಲಿಷಿಂಗ್ ಡಾಕ್ಯುಮೆಂಟ್ ಟೈಪ್ ಡೆಫಿನಿಷನ್(ಡಿಟಿಡಿ)ಗಾಗಿ ಪ್ರಕೃತಿಯ ಪ್ರಸ್ತಾಪದಂತಹ ಉಪಕ್ರಮಗಳನ್ನು ತೆಗೆದುಕೊಳ್ಳಲಾಗಿದೆ. ಇದು ಸಾರ್ವಜನಿಕ ಪ್ರವೇಶಕ್ಕೆ ಪ್ರಕಾಶಕರ ಅಡೆತಡೆಗಳನ್ನು ತೆಗೆದುಹಾಕದೆ ಪಠ್ಯದಲ್ಲಿರುವ ನಿರ್ದಿಷ್ಟ ಪ್ರಶ್ನೆಗಳಿಗೆ ಉತ್ತರಿಸಲು ಯಂತ್ರಗಳಿಗೆ ಶಬ್ದಾರ್ಥದ ಸೂಚನೆಗಳನ್ನು ಒದಗಿಸುತ್ತದೆ.
ಪಠ್ಯ ಗಣಿಗಾರಿಕೆ ಉಪಕ್ರಮದಲ್ಲಿ ಶೈಕ್ಷಣಿಕ ಸಂಸ್ಥೆಗಳು ಸಹ ತೊಡಗಿಸಿಕೊಂಡಿವೆ:
- ನ್ಯಾಷನಲ್ ಸೆಂಟರ್ ಫಾರ್ ಟೆಕ್ಸ್ಟ್ ಮೈನಿಂಗ್ (NACTEM), ವಿಶ್ವದ ಸಾರ್ವಜನಿಕವಾಗಿ ಧನಸಹಾಯ ಪಡೆದ ಮೊದಲ ಪಠ್ಯ ಗಣಿಗಾರಿಕೆ ಕೇಂದ್ರವಾಗಿದೆ. ಇದನ್ನು ಮ್ಯಾಂಚೆಸ್ಟರ್ ವಿಶ್ವವಿದ್ಯಾಲಯವು ಟೋಕಿಯೊ ವಿಶ್ವವಿದ್ಯಾಲಯದ ತ್ಸುಜಿ ಲ್ಯಾಬ್ ಸಹಯೋಗದೊಂದಿಗೆ ನಿರ್ವಹಿಸುತ್ತದೆ.[೨೯][೩೦] ನ್ಯಾಷನಲ್ ಸೆಂಟರ್ ಫಾರ್ ಟೆಕ್ಸ್ಟ್ ಮೈನಿಂಗ್, ಕಸ್ಟಮೈಸ್ ಮಾಡಿದ ಪರಿಕರಗಳು, ಸಂಶೋಧನಾ ಸೌಲಭ್ಯಗಳನ್ನು ಒದಗಿಸುತ್ತದೆ ಮತ್ತು ಶೈಕ್ಷಣಿಕ ಸಮುದಾಯಕ್ಕೆ ಸಲಹೆಯನ್ನು ನೀಡುತ್ತದೆ. ಜಂಟಿ ಮಾಹಿತಿ ವ್ಯವಸ್ಥೆಗಳ ಸಮಿತಿ (ಜೆಐಎಸ್ಸಿ) ಮತ್ತು ಯುಕೆ ಸಂಶೋಧನಾ ಮಂಡಳಿಗಳಲ್ಲಿ (ಇಪಿಎಸ್ಆರ್ಸಿ ಮತ್ತು ಬಿಬಿಎಸ್ಆರ್ಸಿ) ಅವರಿಗೆ ಧನಸಹಾಯ ನೀಡಲಾಗುತ್ತದೆ. ಜೈವಿಕ ಮತ್ತು ಜೈವಿಕ ವೈದ್ಯಕೀಯ ವಿಜ್ಞಾನಗಳಲ್ಲಿ ಪಠ್ಯ ಗಣಿಗಾರಿಕೆಯ ಮೇಲೆ ಆರಂಭಿಕ ಗಮನವನ್ನು ಹೊಂದಿರುವ ಸಂಶೋಧನೆಯು ಸಾಮಾಜಿಕ ವಿಜ್ಞಾನಗಳ ಕ್ಷೇತ್ರಗಳಾಗಿ ವಿಸ್ತರಿಸಿದೆ.
- ಯುನೈಟೆಡ್ ಸ್ಟೇಟ್ಸ್ನಲ್ಲಿ, ಕ್ಯಾಲಿಫೋರ್ನಿಯಾ ವಿಶ್ವವಿದ್ಯಾಲಯ ಬರ್ಕ್ಲಿಯ ಸ್ಕೂಲ್ ಆಫ್ ಇನ್ಫಾರ್ಮೇಶನ್, ಪಠ್ಯ ಗಣಿಗಾರಿಕೆ ಮತ್ತು ವಿಶ್ಲೇಷಣೆಯಲ್ಲಿ ಜೀವಶಾಸ್ತ್ರ ಸಂಶೋಧಕರಿಗೆ ಸಹಾಯ ಮಾಡಲು "ಬಯೋಟೆಕ್ಸ್ಟ್" ಎಂಬ ಕಾರ್ಯಕ್ರಮವನ್ನು ಅಭಿವೃದ್ಧಿಪಡಿಸುತ್ತಿದೆ.
- ಪ್ರಸ್ತುತ ಆಲ್ಬರ್ಟಾ ವಿಶ್ವವಿದ್ಯಾಲಯದಲ್ಲಿ ಇರಿಸಲಾಗಿರುವ ಟೆಕ್ಸ್ಟ್ ಅನಾಲಿಸಿಸ್ ಪೋರ್ಟಲ್ ಫಾರ್ ರಿಸರ್ಚ್(ಟಿಎಪಿಒಆರ್), ಪಠ್ಯ ವಿಶ್ಲೇಷಣೆ ಅಪ್ಲಿಕೇಶನ್ಗಳನ್ನು ಪಟ್ಟಿ ಮಾಡಲು ಮತ್ತು ಅಭ್ಯಾಸಕ್ಕೆ ಹೊಸ ಸಂಶೋಧಕರಿಗೆ ಗೇಟ್ವೇ ರಚಿಸಲು ವಿದ್ವತ್ಪೂರ್ಣ ಯೋಜನೆಯಾಗಿದೆ.
ವೈಜ್ಞಾನಿಕ ಸಾಹಿತ್ಯ ಗಣಿಗಾರಿಕೆಯ ವಿಧಾನಗಳು
[ಬದಲಾಯಿಸಿ]ವೈಜ್ಞಾನಿಕ ಸಾಹಿತ್ಯದಿಂದ ಮಾಹಿತಿಯನ್ನು ಮರುಪಡೆಯಲು ಸಹಾಯ ಮಾಡಲು ಕಂಪ್ಯೂಟೇಶನಲ್ ವಿಧಾನಗಳನ್ನು ಅಭಿವೃದ್ಧಿಪಡಿಸಲಾಗಿದೆ. ಪ್ರಕಟಿತ ವಿಧಾನಗಳಲ್ಲಿ ಶೋಧನೆ, ನವೀನತೆಯನ್ನು ನಿರ್ಧರಿಸುವ, ಮತ್ತು ತಾಂತ್ರಿಕ ವರದಿಗಳಲ್ಲಿ ಸಮಾನಾರ್ಥಕ ಪದಗಳನ್ನು ಸ್ಪಷ್ಟಪಡಿಸುವ ವಿಧಾನಗಳು ಸೇರಿವೆ.[೩೧][೩೨][೩೩]
ಡಿಜಿಟಲ್ ಮಾನವಿಕ ಮತ್ತು ಗಣಕೀಕೃತ ಸಮಾಜಶಾಸ್ತ್ರ
[ಬದಲಾಯಿಸಿ]ವಿಶಾಲ ಪಠ್ಯ ಸಂಗ್ರಹದ ಸ್ವಯಂಚಾಲಿತ ವಿಶ್ಲೇಷಣೆಯು ವಿದ್ವಾಂಸರಿಗೆ ಬಹು ಭಾಷೆಗಳಲ್ಲಿ ಲಕ್ಷಾಂತರ ದಾಖಲೆಗಳನ್ನು ಬಹಳ ಸೀಮಿತ ಹಸ್ತಚಾಲಿತ ಹಸ್ತಕ್ಷೇಪದೊಂದಿಗೆ ವಿಶ್ಲೇಷಿಸುವ ಸಾಧ್ಯತೆಯನ್ನು ಸೃಷ್ಟಿಸಿದೆ. ವಿಶ್ಲೇಷಿಸುವಿಕೆ, ಯಂತ್ರ ಅನುವಾದ, ವಿಷಯ ವರ್ಗೀಕರಣ ಮತ್ತು ಯಂತ್ರ ಕಲಿಕೆಯು ಪ್ರಮುಖ ಸಕ್ರಿಯಗೊಳಿಸುವ ತಂತ್ರಜ್ಞಾನಗಳಾಗಿವೆ.
ಪಠ್ಯ ಕಾರ್ಪೋರಾದ ಸ್ವಯಂಚಾಲಿತ ಪಾರ್ಸಿಂಗ್, ಪಠ್ಯ ದತ್ತಾಂಶವನ್ನು ಜಾಲ ದತ್ತಾಂಶವಾಗಿ ಪರಿವರ್ತಿಸುವ ಮೂಲಕ ನಟರನ್ನು ಮತ್ತು ಅವರ ಸಂಬಂಧಿತ ಜಾಲಗಳನ್ನು ದೊಡ್ಡ ಪ್ರಮಾಣದಲ್ಲಿ ಹೊರತೆಗೆಯಲು ಅನುವು ಮಾಡಿಕೊಟ್ಟಿದೆ. ಸಾವಿರಾರು ನೋಡ್ಗಳನ್ನು ಒಳಗೊಂಡಿರುವ ಪರಿಣಾಮವಾಗಿ ಬರುವ ನೆಟ್ವರ್ಕ್ಗಳನ್ನು, ನಂತರ ನೆಟ್ವರ್ಕ್ ಸಿದ್ಧಾಂತದ ಸಾಧನಗಳನ್ನು ಬಳಸಿಕೊಂಡು ಪ್ರಮುಖ ನಟರು, ಪ್ರಮುಖ ಸಮುದಾಯಗಳು ಅಥವಾ ಪಕ್ಷಗಳನ್ನು ಗುರುತಿಸುವ ಮೂಲಕ ವಿಶ್ಲೇಷಿಸಲಾಗುತ್ತದೆ ಮತ್ತು ಒಟ್ಟಾರೆ ನೆಟ್ವರ್ಕ್ನ ದೃಢತೆ ಅಥವಾ ರಚನಾತ್ಮಕ ಸ್ಥಿರತೆ ಅಥವಾ ಕೆಲವು ನೋಡ್ಗಳ ಕೇಂದ್ರಬಿಂದುವಿನಂತಹ ಸಾಮಾನ್ಯ ಗುಣಲಕ್ಷಣಗಳನ್ನು ವಿಶ್ಲೇಷಿಸಲಾಗುತ್ತದೆ.[೩೫] ಇದು ಪರಿಮಾಣಾತ್ಮಕ ನಿರೂಪಣೆಯ ವಿಶ್ಲೇಷಣೆಯಿಂದ ಪರಿಚಯಿಸಲಾದ ವಿಧಾನವನ್ನು ಸ್ವಯಂಚಾಲಿತಗೊಳಿಸುತ್ತದೆ ಮತ್ತು ಆ ಮೂಲಕ ವಿಷಯ-ಕ್ರಿಯಾಪದ-ವಸ್ತು ತ್ರಿವಳಿಗಳನ್ನು(ಮೂರು ಭಾಗಗಳನ್ನು) ಕ್ರಿಯೆಯಿಂದ ಜೋಡಿಸಲಾದ ಜೋಡಿ ನಟರೊಂದಿಗೆ ಅಥವಾ ನಟ-ವಸ್ತುವಿನಿಂದ ರೂಪುಗೊಂಡ ಜೋಡಿಗಳೊಂದಿಗೆ ಗುರುತಿಸಲಾಗುತ್ತದೆ.[೩೬][೩೪]
ವಿಷಯ ವಿಶ್ಲೇಷಣೆಯು ದೀರ್ಘಕಾಲದವರೆಗೆ ಸಾಮಾಜಿಕ ವಿಜ್ಞಾನ ಮತ್ತು ಮಾಧ್ಯಮ ಅಧ್ಯಯನಗಳ ಸಾಂಪ್ರದಾಯಿಕ ಭಾಗವಾಗಿದೆ. ವಿಷಯ ವಿಶ್ಲೇಷಣೆಯ ಯಾಂತ್ರೀಕರಣವು, ಸಾಮಾಜಿಕ ಮಾಧ್ಯಮದಲ್ಲಿ ಅಧ್ಯಯನಗಳು ಮತ್ತು ಲಕ್ಷಾಂತರ ಸುದ್ದಿ ಐಟಂಗಳನ್ನು ಒಳಗೊಂಡಿರುವ ವೃತ್ತಪತ್ರಿಕೆ ವಿಷಯಗಳ ಮೂಲಕ ಆ ಕ್ಷೇತ್ರದಲ್ಲಿ "ದೊಡ್ಡ ಡೇಟಾ" ಕ್ರಾಂತಿಯನ್ನು ನಡೆಸಲು ಅವಕಾಶ ಮಾಡಿಕೊಟ್ಟಿದೆ. ಲಿಂಗ ಪಕ್ಷಪಾತ, ಓದುವಿಕೆ, ವಿಷಯ ಹೋಲಿಕೆ, ಓದುಗರ ಆದ್ಯತೆಗಳು ಮತ್ತು ಮನಸ್ಥಿತಿಯನ್ನು ಲಕ್ಷಾಂತರ ದಾಖಲೆಗಳ ಮೇಲೆ ಪಠ್ಯ ಗಣಿಗಾರಿಕೆ ವಿಧಾನಗಳ ಆಧಾರದ ಮೇಲೆ ವಿಶ್ಲೇಷಿಸಲಾಗಿದೆ.[೩೭][೩೮][೩೯][೪೦][೪೧] ಓದುವಿಕೆ, ಲಿಂಗ ಪಕ್ಷಪಾತ ಮತ್ತು ವಿಷಯದ ಪಕ್ಷಪಾತದ ವಿಶ್ಲೇಷಣೆಯನ್ನು "ಫ್ಲೌನಾಸ್ ಮತ್ತು ಇತರರು" ನಲ್ಲಿ ಪ್ರದರ್ಶಿಸಿದರು.[5] ವಿಭಿನ್ನ ವಿಷಯಗಳು ಹೇಗೆ ವಿಭಿನ್ನ ಲಿಂಗ ಪಕ್ಷಪಾತಗಳನ್ನು ಮತ್ತು ಓದುವ ಮಟ್ಟಗಳನ್ನು ಹೊಂದಿವೆ ಎಂಬುದನ್ನು ತೋರಿಸುತ್ತದೆ; ಟ್ವಿಟ್ಟರ್ ವಿಷಯವನ್ನು ವಿಶ್ಲೇಷಿಸುವ ಮೂಲಕ ವಿಶಾಲವಾದ ಜನಸಂಖ್ಯೆಯಲ್ಲಿ ಮನಸ್ಥಿತಿಯ ಮಾದರಿಗಳನ್ನು ಪತ್ತೆಹಚ್ಚುವ ಸಾಧ್ಯತೆಯನ್ನು ಸಹ ಪ್ರದರ್ಶಿಸಲಾಯಿತು.[೪೨][೪೩]
ತಂತ್ರಾಂಶ
[ಬದಲಾಯಿಸಿ]ಪಠ್ಯ ಗಣಿಗಾರಿಕೆಯ ಕಂಪ್ಯೂಟರ್ ಪ್ರೋಗ್ರಾಂಗಳು ಅನೇಕ ವಾಣಿಜ್ಯ ಮತ್ತು ಮುಕ್ತ ಮೂಲ ಕಂಪನಿಗಳು ಮತ್ತು ಮೂಲಗಳಿಂದ ಲಭ್ಯವಿವೆ.
ಬೌದ್ಧಿಕ ಆಸ್ತಿ ಕಾನೂನು
[ಬದಲಾಯಿಸಿ]ಯುರೋಪ್ನಲ್ಲಿ ಪರಿಸ್ಥಿತಿ
[ಬದಲಾಯಿಸಿ]ಯುರೋಪಿಯನ್ ಕೃತಿಸ್ವಾಮ್ಯ ಮತ್ತು ದತ್ತಸಂಚಯ ಕಾನೂನುಗಳ ಅಡಿಯಲ್ಲಿ, ಕೃತಿಸ್ವಾಮ್ಯದ ಮಾಲೀಕರ ಅನುಮತಿಯಿಲ್ಲದೆ ಕೃತಿಸ್ವಾಮ್ಯವಲ್ಲದ ಕೃತಿಗಳ ಗಣಿಗಾರಿಕೆ (ವೆಬ್ ಗಣಿಗಾರಿಕೆ) ಕಾನೂನುಬಾಹಿರವಾಗಿದೆ. ಯುಕೆಯಲ್ಲಿ ೨೦೧೪ ರಲ್ಲಿ, ಹರ್ಗ್ರೀವ್ಸ್ ವಿಮರ್ಶೆಯ ಶಿಫಾರಸಿನ ಮೇರೆಗೆ, ಪಠ್ಯ ಗಣಿಗಾರಿಕೆಯನ್ನು ಮಿತಿ ಮತ್ತು ವಿನಾಯಿತಿಗಾಗಿ ಅನುಮತಿಸಲು ಸರ್ಕಾರವು ಕೃತಿಸ್ವಾಮ್ಯ ಕಾನೂನನ್ನು ತಿದ್ದುಪಡಿ ಮಾಡಿತು.[೪೪] ೨೦೦೯ ರಲ್ಲಿ ಜಪಾನ್ ನಂತರ ಗಣಿಗಾರಿಕೆ-ನಿರ್ದಿಷ್ಟ ವಿನಾಯಿತಿಯನ್ನು ಪರಿಚಯಿಸಿದ ಮಾಡಿದ ವಿಶ್ವದ ಎರಡನೇ ದೇಶ ಇದಾಗಿದೆ. ಆದಾಗ್ಯೂ, ಮಾಹಿತಿ ಸೊಸೈಟಿ ನಿರ್ದೇಶನ(೨೦೦೧) ನಿರ್ಬಂಧದಿಂದಾಗಿ, ಯುಕೆ ವಿನಾಯಿತಿಯು ವಾಣಿಜ್ಯೇತರ ಉದ್ದೇಶಗಳಿಗಾಗಿ ಮಾತ್ರ ವಿಷಯ ಗಣಿಗಾರಿಕೆಯನ್ನು ಅನುಮತಿಸುತ್ತದೆ. ಯುಕೆ ಕೃತಿಸ್ವಾಮ್ಯ ಕಾನೂನು, ಈ ನಿಬಂಧನೆಯನ್ನು ಒಪ್ಪಂದದ ನಿಯಮಗಳು ಮತ್ತು ಷರತ್ತುಗಳಿಂದ ಅತಿಕ್ರಮಿಸಲು ಅನುಮತಿಸುವುದಿಲ್ಲ.
೨೦೧೩ ರಲ್ಲಿ, ಯುರೋಪಿಯನ್ ಕಮಿಷನ್, ಯುರೋಪ್ಗೆ ಪರವಾನಗಿಗಳು ಎಂಬ ಶೀರ್ಷಿಕೆಯಡಿಯಲ್ಲಿ ಪಠ್ಯ ಮತ್ತು ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆಯ ಮೇಲೆ ಮಧ್ಯಸ್ಥಗಾರರ ಚರ್ಚೆಯನ್ನು ಸುಗಮಗೊಳಿಸಿತು.[೪೫] ಈ ಕಾನೂನು ಸಮಸ್ಯೆಯ ಪರಿಹಾರದ ಮೇಲೆ ಗಮನ ಕೇಂದ್ರೀಕರಿಸಿದ್ದು ಪರವಾನಗಿಗಳು, ಆದರೆ ಹಕ್ಕುಸ್ವಾಮ್ಯ ಕಾನೂನಿಗೆ ಮಿತಿಗಳು ಮತ್ತು ವಿನಾಯಿತಿಗಳಲ್ಲ. ಇದು ವಿಶ್ವವಿದ್ಯಾನಿಲಯಗಳ ಪ್ರತಿನಿಧಿಗಳು, ಸಂಶೋಧಕರು, ಗ್ರಂಥಾಲಯಗಳು, ನಾಗರಿಕ ಸಮಾಜ ಗುಂಪುಗಳು ಮತ್ತು ಮುಕ್ತ ಪ್ರವೇಶ ಪ್ರಕಾಶಕರು ಮೇ ೨೦೧೩ ರಲ್ಲಿ ಮಧ್ಯಸ್ಥಗಾರರ ಸಂವಾದವನ್ನು ತೊರೆಯಲು ಕಾರಣವಾಯಿತು.[೪೬]
ಅಮೆರಿಕದಲ್ಲಿ ಪರಿಸ್ಥಿತಿ
[ಬದಲಾಯಿಸಿ]ಯುಎಸ್ ಕೃತಿಸ್ವಾಮ್ಯ(ಹಕ್ಕುಸ್ವಾಮ್ಯ) ಕಾನೂನು, ಮತ್ತು ನಿರ್ದಿಷ್ಟವಾಗಿ ಅದರ ನ್ಯಾಯೋಚಿತ ಬಳಕೆಯ ನಿಬಂಧನೆಗಳು ಎಂದರೆ, ಅಮೆರಿಕಾದಲ್ಲಿ ಪಠ್ಯ ಗಣಿಗಾರಿಕೆ, ಹಾಗೆಯೇ ಇತರ ನ್ಯಾಯೋಚಿತ ಬಳಕೆಯ ದೇಶಗಳಾದ ಇಸ್ರೇಲ್, ತೈವಾನ್ ಮತ್ತು ದಕ್ಷಿಣ ಕೊರಿಯಾವನ್ನು ಕಾನೂನುಬದ್ಧವೆಂದು ಪರಿಗಣಿಸಲಾಗಿದೆ. ಪಠ್ಯ ಗಣಿಗಾರಿಕೆಯು ಪರಿವರ್ತಕವಾಗಿರುವುದರಿಂದ, ಅದು ಮೂಲ ಕೃತಿಯನ್ನು ಬದಲಿಸುವುದಿಲ್ಲ ಎಂದರ್ಥ. ಇದು ನ್ಯಾಯಯುತ ಬಳಕೆಯ ಅಡಿಯಲ್ಲಿ ಕಾನೂನುಬದ್ಧವಾಗಿದೆ ಎಂದು ಪರಿಗಣಿಸಲಾಗುತ್ತದೆ. ಉದಾಹರಣೆಗೆ, "ಗೂಗಲ್ ಬುಕ್ ಒಪ್ಪಂದ"ದ ಭಾಗವಾಗಿ, ಪ್ರಕರಣದ ಅಧ್ಯಕ್ಷೀಯ ನ್ಯಾಯಾಧೀಶರು ಗೂಗಲ್ನ ಕೃತಿಸ್ವಾಮ್ಯ ಪುಸ್ತಕಗಳ ಡಿಜಿಟಲೀಕರಣ ಯೋಜನೆಯು ಕಾನೂನುಬದ್ಧವಾಗಿದೆ ಎಂದು ತೀರ್ಪು ನೀಡಿದರು. ಭಾಗಶಃ ಡಿಜಿಟಲೀಕರಣ ಯೋಜನೆಯಲ್ಲಿ ಪ್ರದರ್ಶಿಸಲಾದ ಪರಿವರ್ತಕ ಬಳಕೆಗಳ ಕಾರಣದಿಂದಾಗಿ-ಅಂತಹ ಒಂದು ಬಳಕೆಯು ಪಠ್ಯ ಮತ್ತು ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆಯಾಗಿದೆ.[೪೭]
ಆಸ್ಟ್ರೇಲಿಯಾದಲ್ಲಿ ಪರಿಸ್ಥಿತಿ
[ಬದಲಾಯಿಸಿ]ಕೃತಿಸ್ವಾಮ್ಯ ಕಾಯಿದೆ ೧೯೬೮ರೊಳಗೆ ಪಠ್ಯ ಅಥವಾ ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆಗೆ ಆಸ್ಟ್ರೇಲಿಯಾದ ಕೃತಿಸ್ವಾಮ್ಯ ಕಾನೂನಿನಲ್ಲಿ ಯಾವುದೇ ವಿನಾಯಿತಿ ಇಲ್ಲ. ಆಸ್ಟ್ರೇಲಿಯಾದ ಕಾನೂನು ಸುಧಾರಣಾ ಆಯೋಗವು "ಸಂಶೋಧನೆ ಮತ್ತು ಅಧ್ಯಯನ" ನ್ಯಾಯೋಚಿತ ವ್ಯವಹಾರದ ವಿನಾಯಿತಿಯು ಅಂತಹ ವಿಷಯವನ್ನು ಒಳಗೊಂಡಿರುವ ಸಾಧ್ಯತೆಯಿಲ್ಲ ಎಂದು ಹೇಳಿದೆ, ಏಕೆಂದರೆ ಅದು "ನ್ಯಾಯಯುತ ಹಂಚಿಕೆ" ಅಗತ್ಯವನ್ನು ಮೀರುತ್ತದೆ.[೪೮]
ಪರಿಣಾಮಗಳು
[ಬದಲಾಯಿಸಿ]ಇತ್ತೀಚಿನವರೆಗೂ, ಜಾಲತಾಣಗಳು ಹೆಚ್ಚಾಗಿ ಪಠ್ಯ-ಆಧಾರಿತ ಹುಡುಕಾಟಗಳನ್ನು ಬಳಸುತ್ತಿದ್ದವು. ಅವು ನಿರ್ದಿಷ್ಟ ಬಳಕೆದಾರ-ವ್ಯಾಖ್ಯಾನಿತ ಪದಗಳು ಅಥವಾ ಪದಗುಚ್ಛಗಳನ್ನು ಹೊಂದಿರುವ ದಾಖಲೆಗಳನ್ನು ಮಾತ್ರ ಕಂಡುಕೊಂಡಿದ್ದವು. ಈಗ, ಶಬ್ದಾರ್ಥದ ಜಾಲ ಬಳಸುವುದರ ಮೂಲಕ, ಪಠ್ಯ ಗಣಿಗಾರಿಕೆಯು ಅರ್ಥ ಮತ್ತು ಸಂದರ್ಭದ ಆಧಾರದ ಮೇಲೆ ವಿಷಯವನ್ನು ಕಂಡುಹಿಡಿಯಬಹುದು (ಕೇವಲ ಒಂದು ನಿರ್ದಿಷ್ಟ ಪದದ ಬದಲು). ಹೆಚ್ಚುವರಿಯಾಗಿ, ನಿರ್ದಿಷ್ಟ ವ್ಯಕ್ತಿಗಳು ಮತ್ತು ಘಟನೆಗಳ ಬಗ್ಗೆ ಮಾಹಿತಿಯ ದೊಡ್ಡ ಕಡತಗಳನ್ನು ನಿರ್ಮಿಸಲು ಪಠ್ಯ ಗಣಿಗಾರಿಕೆ ತಂತ್ರಾಂಶವನ್ನು ಬಳಸಬಹುದು. ಉದಾಹರಣೆಗೆ, ಸುದ್ದಿ ವರದಿಗಳಿಂದ ಹೊರತೆಗೆಯಲಾದ ದತ್ತಾಂಶದ ಆಧಾರದ ಮೇಲೆ ದೊಡ್ಡ ದತ್ತಾಂಶಗಳನ್ನು ಸಾಮಾಜಿಕ ಜಾಲಗಳ ವಿಶ್ಲೇಷಣೆ ಅಥವಾ ಪ್ರತಿ-ಗುಪ್ತಚರಕ್ಕೆ ಅನುಕೂಲವಾಗುವಂತೆ ನಿರ್ಮಿಸಬಹುದು. ಪರಿಣಾಮವಾಗಿ, ಪಠ್ಯ ಗಣಿಗಾರಿಕೆ ತಂತ್ರಾಂಶವು ವಿಶ್ಲೇಷಣೆಯ ಹೆಚ್ಚು ಸೀಮಿತ ವ್ಯಾಪ್ತಿಯೊಂದಿಗೆ ಗುಪ್ತಚರ ವಿಶ್ಲೇಷಕ ಅಥವಾ ಸಂಶೋಧನಾ ಗ್ರಂಥಪಾಲಕರಂತೆಯೇ ಕಾರ್ಯನಿರ್ವಹಿಸಬಹುದು. ಜಾಹೀರಾತುಗಳು ಅಥವಾ ಇತರ ಅನಗತ್ಯ ವಸ್ತುಗಳಾಗಿರಬಹುದಾದ ಸಂದೇಶಗಳ ಗುಣಲಕ್ಷಣಗಳನ್ನು ನಿರ್ಧರಿಸುವ ಮಾರ್ಗವಾಗಿ ಪಠ್ಯ ಗಣಿಗಾರಿಕೆಯನ್ನು ಕೆಲವು ಇಮೇಲ್ ಸ್ಪ್ಯಾಮ್ ಶೋಧಕಗಳಲ್ಲಿ ಬಳಸಲಾಗುತ್ತದೆ. ಹಣಕಾಸಿನ ಮಾರುಕಟ್ಟೆಯ ಭಾವನೆಯನ್ನು ನಿರ್ಧರಿಸುವಲ್ಲಿ ಪಠ್ಯ ಗಣಿಗಾರಿಕೆಯು ಪ್ರಮುಖ ಪಾತ್ರ ವಹಿಸುತ್ತದೆ.
ಉಲ್ಲೇಖಗಳು
[ಬದಲಾಯಿಸಿ]- ↑ "Marti Hearst: What is Text Mining?".
- ↑ Hotho, A., Nürnberger, A. and Paaß, G. (2005). "A brief survey of text mining". In Ldv Forum, Vol. 20(1), p. 19-62
- ↑ Feldman, R. and Sanger, J. (2007). The text mining handbook. Cambridge University Press. New York
- ↑ [೧] Archived November 29, 2009, ವೇಬ್ಯಾಕ್ ಮೆಷಿನ್ ನಲ್ಲಿ.
- ↑ [೨] Archived March 3, 2012, ವೇಬ್ಯಾಕ್ ಮೆಷಿನ್ ನಲ್ಲಿ.
- ↑ "KDD-2000 Workshop on Text Mining – Call for Papers". Cs.cmu.edu. Retrieved 2015-02-23.
- ↑ Hobbs, Jerry R.; Walker, Donald E.; Amsler, Robert A. (1982). "Natural language access to structured text". Proceedings of the 9th conference on Computational linguistics. Vol. 1. pp. 127–32. doi:10.3115/991813.991833. S2CID 6433117.
- ↑ "Unstructured Data and the 80 Percent Rule". Breakthrough Analysis. August 2008. Archived from the original on 2014-09-12. Retrieved 2015-02-23.
- ↑ Antunes, João (2018-11-14). Exploração de informações contextuais para enriquecimento semântico em representações de textos (Mestrado em Ciências de Computação e Matemática Computacional thesis) (in ಪೋರ್ಚುಗೀಸ್). São Carlos: Universidade de São Paulo. doi:10.11606/d.55.2019.tde-03012019-103253.
- ↑ Moro, Andrea; Raganato, Alessandro; Navigli, Roberto (December 2014). "Entity Linking meets Word Sense Disambiguation: a Unified Approach". Transactions of the Association for Computational Linguistics. 2: 231–244. doi:10.1162/tacl_a_00179. ISSN 2307-387X.
- ↑ Chang, Wui Lee; Tay, Kai Meng; Lim, Chee Peng (2017-02-06). "A New Evolving Tree-Based Model with Local Re-learning for Document Clustering and Visualization". Neural Processing Letters. 46 (2): 379–409. doi:10.1007/s11063-017-9597-3. ISSN 1370-4621. S2CID 9100902.
- ↑ Benchimol, Jonathan; Kazinnik, Sophia; Saadon, Yossi (2022). "Text mining methodologies with R: An application to central bank texts". Machine Learning with Applications. 8: 100286. doi:10.1016/j.mlwa.2022.100286. S2CID 243798160.
- ↑ Mehl, Matthias R. (2006). "Quantitative Text Analysis". Handbook of multimethod measurement in psychology. p. 141. doi:10.1037/11383-011. ISBN 978-1-59147-318-3.
- ↑ Pang, Bo; Lee, Lillian (2008). "Opinion Mining and Sentiment Analysis". Foundations and Trends in Information Retrieval. 2 (1–2): 1–135. CiteSeerX 10.1.1.147.2755. doi:10.1561/1500000011. ISSN 1554-0669. S2CID 207178694.
- ↑ Paltoglou, Georgios; Thelwall, Mike (2012-09-01). "Twitter, MySpace, Digg: Unsupervised Sentiment Analysis in Social Media". ACM Transactions on Intelligent Systems and Technology. 3 (4): 66. doi:10.1145/2337542.2337551. ISSN 2157-6904. S2CID 16600444.
- ↑ "Sentiment Analysis in Twitter < SemEval-2017 Task 4". alt.qcri.org. Retrieved 2018-10-02.
- ↑ Zanasi, Alessandro (2009). "Virtual Weapons for Real Wars: Text Mining for National Security". Proceedings of the International Workshop on Computational Intelligence in Security for Information Systems CISIS'08. Advances in Soft Computing. Vol. 53. p. 53. doi:10.1007/978-3-540-88181-0_7. ISBN 978-3-540-88180-3.
- ↑ Badal, Varsha D.; Kundrotas, Petras J.; Vakser, Ilya A. (2015-12-09). "Text Mining for Protein Docking". PLOS Computational Biology. 11 (12): e1004630. Bibcode:2015PLSCB..11E4630B. doi:10.1371/journal.pcbi.1004630. ISSN 1553-7358. PMC 4674139. PMID 26650466.
- ↑ Renganathan, Vinaitheerthan (2017). "Text Mining in Biomedical Domain with Emphasis on Document Clustering". Healthcare Informatics Research. 23 (3): 141–146. doi:10.4258/hir.2017.23.3.141. ISSN 2093-3681. PMC 5572517. PMID 28875048.
- ↑ [೩] Archived October 4, 2013, ವೇಬ್ಯಾಕ್ ಮೆಷಿನ್ ನಲ್ಲಿ.
- ↑ "Text Analytics". Medallia. Retrieved 2015-02-23.
- ↑ ೨೨.೦ ೨೨.೧ Coussement, Kristof; Van Den Poel, Dirk (2008). "Integrating the voice of customers through call center emails into a decision support system for churn prediction". Information & Management. 45 (3): 164–74. CiteSeerX 10.1.1.113.3238. doi:10.1016/j.im.2008.01.005.
- ↑ Coussement, Kristof; Van Den Poel, Dirk (2008). "Improving customer complaint management by automatic email classification using linguistic style features as predictors". Decision Support Systems. 44 (4): 870–82. doi:10.1016/j.dss.2007.10.010.
- ↑ Ramiro H. Gálvez; Agustín Gravano (2017). "Assessing the usefulness of online message board mining in automatic stock prediction systems". Journal of Computational Science. 19: 1877–7503. doi:10.1016/j.jocs.2017.01.001. hdl:11336/60065.
- ↑ Pang, Bo; Lee, Lillian; Vaithyanathan, Shivakumar (2002). "Thumbs up?". Proceedings of the ACL-02 conference on Empirical methods in natural language processing. Vol. 10. pp. 79–86. doi:10.3115/1118693.1118704. S2CID 7105713.
- ↑ Alessandro Valitutti; Carlo Strapparava; Oliviero Stock (2005). "Developing Affective Lexical Resources" (PDF). PsychNology Journal. 2 (1): 61–83. Archived from the original (PDF) on 2018-09-20. Retrieved 2024-09-08.
- ↑ Erik Cambria; Robert Speer; Catherine Havasi; Amir Hussain (2010). "SenticNet: a Publicly Available Semantic Resource for Opinion Mining" (PDF). Proceedings of AAAI CSK. pp. 14–18.
- ↑ Calvo, Rafael A; d'Mello, Sidney (2010). "Affect Detection: An Interdisciplinary Review of Models, Methods, and Their Applications". IEEE Transactions on Affective Computing. 1 (1): 18–37. doi:10.1109/T-AFFC.2010.1. S2CID 753606.
- ↑ "The University of Manchester". Manchester.ac.uk. Retrieved 2015-02-23.
- ↑ "The University of Tokyo". UTokyo. Retrieved 2015-02-23.
- ↑ Shen, Jiaming; Xiao, Jinfeng; He, Xinwei; Shang, Jingbo; Sinha, Saurabh; Han, Jiawei (2018-06-27). Entity Set Search of Scientific Literature: An Unsupervised Ranking Approach. ACM. pp. 565–574. doi:10.1145/3209978.3210055. ISBN 978-1-4503-5657-2. S2CID 13748283.
- ↑ Walter, Lothar; Radauer, Alfred; Moehrle, Martin G. (2017-02-06). "The beauty of brimstone butterfly: novelty of patents identified by near environment analysis based on text mining". Scientometrics. 111 (1): 103–115. doi:10.1007/s11192-017-2267-4. ISSN 0138-9130. S2CID 11174676.
- ↑ Roll, Uri; Correia, Ricardo A.; Berger-Tal, Oded (2018-03-10). "Using machine learning to disentangle homonyms in large text corpora". Conservation Biology. 32 (3): 716–724. doi:10.1111/cobi.13044. ISSN 0888-8892. PMID 29086438. S2CID 3783779.
- ↑ ೩೪.೦ ೩೪.೧ Automated analysis of the US presidential elections using Big Data and network analysis; S Sudhahar, GA Veltri, N Cristianini; Big Data & Society 2 (1), 1-28, 2015
- ↑ Network analysis of narrative content in large corpora; S Sudhahar, G De Fazio, R Franzosi, N Cristianini; Natural Language Engineering, 1-32, 2013
- ↑ Quantitative Narrative Analysis; Roberto Franzosi; Emory University © 2010
- ↑ Lansdall-Welfare, Thomas; Sudhahar, Saatviga; Thompson, James; Lewis, Justin; Team, FindMyPast Newspaper; Cristianini, Nello (2017-01-09). "Content analysis of 150 years of British periodicals". Proceedings of the National Academy of Sciences. 114 (4): E457–E465. Bibcode:2017PNAS..114E.457L. doi:10.1073/pnas.1606380114. ISSN 0027-8424. PMC 5278459. PMID 28069962.
- ↑ I. Flaounas, M. Turchi, O. Ali, N. Fyson, T. De Bie, N. Mosdell, J. Lewis, N. Cristianini, The Structure of EU Mediasphere, PLoS ONE, Vol. 5(12), pp. e14243, 2010.
- ↑ Nowcasting Events from the Social Web with Statistical Learning V Lampos, N Cristianini; ACM Transactions on Intelligent Systems and Technology (TIST) 3 (4), 72
- ↑ NOAM: news outlets analysis and monitoring system; I Flaounas, O Ali, M Turchi, T Snowsill, F Nicart, T De Bie, N Cristianini Proc. of the 2011 ACM SIGMOD international conference on Management of data
- ↑ Automatic discovery of patterns in media content, N Cristianini, Combinatorial Pattern Matching, 2-13, 2011
- ↑ Circadian Mood Variations in Twitter Content; Fabon Dzogang, Stafford Lightman, Nello Cristianini. Brain and Neuroscience Advances, 1, 2398212817744501.
- ↑ Effects of the Recession on Public Mood in the UK; T Lansdall-Welfare, V Lampos, N Cristianini; Mining Social Network Dynamics (MSND) session on Social Media Applications
- ↑ Researchers given data mining right under new UK copyright laws Archived June 9, 2014, ವೇಬ್ಯಾಕ್ ಮೆಷಿನ್ ನಲ್ಲಿ.
- ↑ "Licences for Europe – Structured Stakeholder Dialogue 2013". European Commission. Retrieved 14 November 2014.
- ↑ "Text and Data Mining:Its importance and the need for change in Europe". Association of European Research Libraries. 2013-04-25. Archived from the original on 2014-11-29. Retrieved 14 November 2014.
- ↑ "Judge grants summary judgment in favor of Google Books — a fair use victory". Lexology. Antonelli Law Ltd. 19 November 2013. Retrieved 14 November 2014.
- ↑ "Text and data mining". Australian Law Reform Commission. 4 June 2013. Retrieved 10 February 2023.